Antal BIOINFHUN PDF

Antal Pter Arany dm Bolgr Bence Gzsi Andrs Hajs Gergely
Hullm Gbor Marx Pter Millinghoffer Andrs Poppe Lszl

Srkzy Pter
BIOINFORMATIKA: MOLEKULRIS
MRSTECHNIKTL AZ ORVOSI
DNTSTMOGATSIG
A molekulris biolgiai mrstechnikai fejlds a nagy adattmegeket, majd a hipotzismentes
kutatsi paradigma megjelenst hozta el az orvosbiolgiba. Az ezredfordul eltti genetikai-
genomikai korszakot a posztgenomikai korszak kvette egyre szapord omikai szintekkel s ler
hlzati megkzeltsekkel. Egy vtized utn azonban egyre inkbb a nagylptk adat- s tu-
dsfzi kerlt a kzpontba. A jegyzet ezen j kihvsokat tekinti t. Az els kt fejezet a
genetikai mrstechnika alapjait foglalja ssze. A genetikai varinsok hatsainak megrtst a
fehrjk szerkezetnek trgyalsa, ill. a gnszablyozsi hlzatok bemutatsa segti a kvetkez
kt-kt fejezetben. Ezutn az alapvet fontossg statisztikai asszocicis elemzseket mutatja
be. Az rtelmezs tmogatsra sszefoglaljuk az oksgi kvetkeztets egy Bayes-hlkon ala-
pul formalizlst, ill. a szvegbnyszati mdszereket. A ksrletek szekvencialitsa mellett az
adatok heterogenitsa s gy integrlt elemzse is kzponti kihvs, amely kihvst mg nehezeb-
b teszik az egyre elrhetbb mly, azaz rszleteiben gazdag fenotpus- s krnyezeti lersok.
Az adatmegoszts hatkonysga miatt s a nagy szmtsigny miatt is egyre fontosabb vlnak
az ltalnosan elrhet, kzm jelleg informatikai szolgltatsok, amelyek mkdst pldkkal
is illusztrljuk. Az ttekintst egy gygyszerkutatsi sszefoglal zrja, amelyben a szemly-
re szabott medicina szempontjai is megjelennek, ill. egy metagenomikai sszefoglal, amely az
epigenetikai szint megjelense utn korunk egy j gretes omikai szintje.
Kulcsszavak: genotipizls, j genercis szekvenlsi mdszerek, fehrjemodellezs, gnsza-

blyozsi hlzatok, omikai hlzatok, dinamikus rendszerek, ksrlettervezs, munkafolyamat-
rendszerek, asszocicis elemzsek, biomarker-elemzsek, adat- s tudsfzi, oksgi kvetkezte-
ts, orvosi dntstmogat rendszerek, nagy adatttmegek, szemantikus publikls, hasonlsgi
alap gygyszerkutats, metagenomika.
Budapesti Mszaki s Gazdasgtudomnyi Egyetem s Semmelweis Egyetem
Typotex Kiad
2014
COPYRIGHT: 20142019, Antal Pter, Arany dm, Bolgr Bence, Gzsi Andrs,
Hajs Gergely, Hullm Gbor, Marx Pter, Millinghoffer Andrs, Poppe Lszl, Srkzy
Pter, Budapesti Mszaki s Gazdasgtudomnyi Egyetem, Semmelweis Egyetem
Creative Commons NonCommercial-NoDerivs 3.0 (CC BY-NC-ND 3.0)

A szerz nevnek feltntetse mellett nem kereskedelmi cllal szabadon msolhat, ter-
jeszthet, megjelentethet s eladhat, de nem mdosthat.
Szakmai lektorok: Molnr Viktor, Antos Andrs
ISBN 978 963 279 180 7
Kszlt a Typotex Kiad gondozsban

Felels vezet: Votisky Zsuzsa
Kszlt a TMOP-4.1.2/A/1-11/1-2011-0079 szm, Konzorcium a biotechnolgia aktv

tanulsrt cm projekt keretben.
Tartalomjegyzk
1. DNS rekombinns mrstechnolgik, zaj- s hibamodellek 11

1.1. Trtnelmi ttekints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1. A genomszekvenls klinikai aspektusai . . . . . . . . . . . . . . . . 12
1.1.2. Rszleges genetikai asszocicis vizsglatok (PGAS) . . . . . . . . . 12
1.1.3. Genomszint asszocicis vizsglatok (GWAS) . . . . . . . . . . . . 12
1.2. Els genercis automatizlt Sanger-szekvenls . . . . . . . . . . . . . . . 13
1.3. j genercis szekvenlsi technolgik . . . . . . . . . . . . . . . . . . . . 13
1.3.1. Piroszekvenls s pH alap szekvenls . . . . . . . . . . . . . . . 13
1.3.2. Reverzibilis termintor alap szekvenls . . . . . . . . . . . . . . . 15
1.3.3. Nanoprus alap szekvenls . . . . . . . . . . . . . . . . . . . . . 16
1.4. j genercis szekvenlsi technolgik hibakarakterisztikja . . . . . . . . 17
1.4.1. Carry forward/incomplete extension . . . . . . . . . . . . . . . . . . 18
1.4.2. Homopolimer hibk . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Capture technolgik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.1. PCR capture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6. Emulzis PCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7. Hd- (bridge-) amplifikci . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8. Clzott jraszekvenls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.9. De novo szekvenls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.10. j genercis szekvenlsi munkafolyamatok . . . . . . . . . . . . . . . . . 24
1.10.1. Szrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.10.2. Illeszts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.10.3. sszeraks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.10.4. Varinshvs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.10.5. Paired-end szekvenls . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.11. Tbb minta prhuzamos szekvenlsa . . . . . . . . . . . . . . . . . . . . . 26
2. Genetikai mrsek s utfeldolgozsuk, haplotpus-rekonstrukci, impu-

tls 27
2.1. A genom fogalma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. A genotpus az egyed genetikai identitsa . . . . . . . . . . . . . . . . . . 28
2.2.1. Egypontos nukleotid-polimorfizmus (SNP) . . . . . . . . . . . . . . 29
2.2.2. A pontmutcik lehetsges vltozatai . . . . . . . . . . . . . . . . . 29
www.interkonyv.hu
Tartalomjegyzk 4
2.2.3. Mutcik hatsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3. Haplotpusok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4. Kapcsoltsgi egyenslytalansg . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5. Haplotpus-rekonstrukci . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6. Imputls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7. Genotipizlsi mdszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.7.1. Sanger-szekvenls . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7.2. Vals idej kvantitatv PCR . . . . . . . . . . . . . . . . . . . . . . 36
2.7.3. DNS chipek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.8. Genotipizls s gnexpresszi . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8.1. Sikeres mrsek s pontossguk . . . . . . . . . . . . . . . . . . . . 38
3. sszehasonlt fehrjemodellezs s molekuladokkols 39

3.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.1. A fehrjeszekvencia-szerkezeti szakadk . . . . . . . . . . . . . . . . 40
3.1.2. A fehrjemodellezs mdszerei . . . . . . . . . . . . . . . . . . . . . 41
3.2. sszehasonlt fehrjemodellezs . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1. A homolgiamodellezs lpsei . . . . . . . . . . . . . . . . . . . . . 42
3.2.2. Homolgiamodellezsi eszkzk . . . . . . . . . . . . . . . . . . . . 47
3.3. Molekuladokkols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1. Fehrjeligandum klcsnhats-elrejelzsek . . . . . . . . . . . . . 50
3.3.2. Fehrjebiomakromolekula klcsnhats-elrejelzsek . . . . . . . . 51
4. Fehrjeszerkezet-meghatrozs ksrleti mdszerei s egyszer fehrje-

szerkezet-predikcik 56
4.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.1. A fehrjeazonosts eszkzei . . . . . . . . . . . . . . . . . . . . . . 56
4.1.2. Egyszer fehrjeanalzis . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3. A fehrjeszerkezet-elrejelzs szintjei s nehzsgei . . . . . . . . . . 57
4.2. Fehrjk msodlagos szerkezetnek ksrletes vizsglata . . . . . . . . . . . 58
4.2.1. Fehrje cirkulris dikroizmus (CD) . . . . . . . . . . . . . . . . . . 59
4.2.2. Szinkrotron besugrzsos cirkulris dikroizmus (SRCD) . . . . . . . 60
4.2.3. Ksrleti mdszerek fehrjk atomi szint szerkezetnek meghatro-
zsra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4. Fehrje-rntgenkrisztallogrfia . . . . . . . . . . . . . . . . . . . . . 62
4.2.5. Fehrje-NMR-spektroszkpia . . . . . . . . . . . . . . . . . . . . . . 63
4.2.6. Fehrje-elektronmikroszkpia, elektrondiffrakci s elektronkrisztal-
logrfia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.7. Fehrje-neutronkrisztallogrfia . . . . . . . . . . . . . . . . . . . . . 67
5. Genetikai varinsok funkcionlis hatsainak kvantitatv modelljei 70

5.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2. Varinsok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
www.interkonyv.hu
Tartalomjegyzk 5
5.2.1. SNP, indel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.2.2. Alternatv splicing . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3. A szablyozs szintjei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4. Klnbz szablyoz elemek . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5. microRNS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5.1. miRNS rs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.5.2. miRNS ltal medilt szablyozsi formk . . . . . . . . . . . . . . . 73
5.6. Transzkripcis faktorok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.7. Epigenetika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.7.1. Metilci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.7.2. Hisztonmdosulsok . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.8. Modellezs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.8.1. regSNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.8.2. Boolean modellek . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.8.3. Termodinamikai modellek . . . . . . . . . . . . . . . . . . . . . . . 77
5.8.4. Differencilegyenletek . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.8.5. Lac operon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6. Gnszablyozsi hlzatok matematikai modelljei 82

6.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2. Hlk tanulsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3. Nem felgyelt tanulsi mdszerek . . . . . . . . . . . . . . . . . . . . . . . 83
6.3.1. ARACNE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.2. REVEAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.4. Felgyelt mdszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.4.1. PosOnly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.4.2. SIRENE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.5. TF, miRNS, mRNS szablyoz hlzatok . . . . . . . . . . . . . . . . . . . 87
7. Genetikai asszocicis vizsglatok standard elemzse 90

7.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.2. Genetikai adattranszformci . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2.1. Szrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2.2. HardyWeinberg-egyenlsg vizsglata . . . . . . . . . . . . . . . . 91
7.3. Fenotpus-adattranszformci . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.3.1. Transzformci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.3.2. Diszkretizls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4. Egyvltozs statisztikai mdszerek . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.1. Standard asszocicis tesztek . . . . . . . . . . . . . . . . . . . . . 93
7.4.2. CochranArmitage-trendteszt . . . . . . . . . . . . . . . . . . . . . 96
7.4.3. Hatserssg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.4.4. Egyvltozs Bayes-i mdszerek . . . . . . . . . . . . . . . . . . . . 98
7.5. Tbbvltozs mdszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
www.interkonyv.hu
Tartalomjegyzk 6
7.5.1. Logisztikus regresszi . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.5.2. Haplotpus-asszocici . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.5.3. Statisztikai er vizsglata . . . . . . . . . . . . . . . . . . . . . . . 104
8. Gnexpresszis adatok standard asszocicis elemzse 107

8.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2. Elfeldolgozs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.2.1. Httrkorrekci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.2.2. Normalizci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.2.3. sszegzs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.2.4. Szrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.3. Adatelemzs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3.1. Klaszterezs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3.2. Differencilis expresszi . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.3.3. Az eredmnyek biolgiai rtelmezse . . . . . . . . . . . . . . . . . 116
9. Biomarker-elemzs 121
Jellsek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.1. Bevezet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.2. Elmleti httr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
9.3. Bayes-i tbbszint relevancia-elemzs . . . . . . . . . . . . . . . . . . . . . 127
9.4. Tbbvltozs sklzhatsg: a k-MBS jegy . . . . . . . . . . . . . . . . . . 128
9.5. Tbbclvltozs relevancia . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.6. Poszterior-dekomponlson alapul interakci s redundancia . . . . . . . . 130
9.7. MBS poszteriorok utfeldolgozsa s megjelentse . . . . . . . . . . . . . . 131
9.8. Tuds alap utaggregls . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
9.9. sszefoglal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
10.Hlzatbiolgia 135
10.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
10.2. Biolgiai hlzatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.3. Grfelmleti alapok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.4. Hlzatelemzs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.1. Hlzati topolgia . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.2. Hlzati modellek s dinamika . . . . . . . . . . . . . . . . . . . . . 139
10.4.3. Asszortativits, fokszmeloszls s sklafggetlen hlzatok . . . . . 140
10.4.4. Feladatok s kihvsok . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.5. Nhny alkalmazs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.Dinamikus modellezs a sejtbiolgiban 147

11.1. Biokmiai fogalmak, ezek szmtsos reprezentcii . . . . . . . . . . . . . 147
11.2. Modellezs differencilegyenletekkel . . . . . . . . . . . . . . . . . . . . . . 150
11.3. Sztochasztikus modellezs . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
www.interkonyv.hu
Tartalomjegyzk 7
11.4. Hibrid mdszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

11.5. Reakcidiffzi-rendszerek . . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.6. Modell-illeszts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
11.7. Teljes-sejt-szimulci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
11.8. ttekints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
12.Oksgi kvetkeztetsek az orvosbiolgiban 158

Jellsek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.1. Bevezet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
12.2. Fggetlensgi s oksgi relcik reprezentlsa Bayes-hlkkal . . . . . . . 161
12.3. Oksgi relcik knyszer alap tanulsa . . . . . . . . . . . . . . . . . . . . 165
12.4. Teljes oksgi modellek Bayes-i tanulsa . . . . . . . . . . . . . . . . . . . . 166
12.5. Oksgi jegyek kvetkeztetse Bayes-hlk feletti tlagolssal . . . . . . . . 167
12.5.1. lek: kzvetlen pronknti fggsek . . . . . . . . . . . . . . . . . . 168
12.5.2. ttteles pronknti oksgi relcik . . . . . . . . . . . . . . . . . . 169
12.5.3. Markov-takar (al)grf . . . . . . . . . . . . . . . . . . . . . . . . . 169
12.5.4. Hatsmdostk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
12.5.5. Vltozk sorrendje . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
13.Szvegbnyszati mdszerek a bioinformatikban 174

13.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
13.2. Orvosbiolgiai szvegbnyszat . . . . . . . . . . . . . . . . . . . . . . . . 174
13.2.1. Korpuszpts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
13.2.2. Sztrpts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
13.2.3. Szvegbnyszati feladatok . . . . . . . . . . . . . . . . . . . . . . . 178
13.3. Alapvet szvegbnyszati technikk . . . . . . . . . . . . . . . . . . . . . 179
13.3.1. Mintailleszts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
13.3.2. Dokumentumok reprezentcija . . . . . . . . . . . . . . . . . . . . 179
13.3.3. Az entitsfelismers mdszerei . . . . . . . . . . . . . . . . . . . . . 181
13.3.4. A relcikivonatols mdszerei . . . . . . . . . . . . . . . . . . . . . 182
13.3.5. Lexikalizlt valsznsgi krnyezetfggetlen nyelvtanok . . . . . . . 183
13.3.6. Az orvosbiolgiai szvegbnyszat kihvsai . . . . . . . . . . . . . . 184
13.4. Szvegbnyszat s tudsszervezs . . . . . . . . . . . . . . . . . . . . . . . 185
14.Ksrlettervezs: az alapoktl a tudsgazdag s aktv tanulsos kiter-

jesztsekig 188
14.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2. A ksrlettervezs alapjai . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2.1. Az orvosbiolgiai ksrlettervezs lpsei . . . . . . . . . . . . . . . 189
14.2.2. A biolgiai ksrletek fajti . . . . . . . . . . . . . . . . . . . . . . . 189
14.3. A ksrlettervezs dntselmleti megkzeltse . . . . . . . . . . . . . . . . 191
14.3.1. A ksrlet vrhat rtke . . . . . . . . . . . . . . . . . . . . . . . . 191
14.3.2. Adaptv ksrlettervezs s kltsgkorltozott tanuls . . . . . . . . 193
www.interkonyv.hu
Tartalomjegyzk 8
14.3.3. Szekvencilis dntsi folyamatok Bayes-i keretben . . . . . . . . . . 194

14.4. A clvltozk kivlasztst szolgl mdszerek . . . . . . . . . . . . . . . . 195
14.4.1. Gnprioritizls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
14.4.2. Aktv tanuls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
14.5. Egyb, a gyakorlatban felmerl bioinformatikai feladatok . . . . . . . . . 198
15.Nagy adattmegek az orvosbiolgiban 201

15.1. Bevezet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
15.2. Az orvosbiolgia klasszikus nagy adattmegei . . . . . . . . . . . . . . . . 202
15.3. Posztgenomikai nagy adattmegek az orvosbiolgiban . . . . . . . . . . . 203
15.4. Htkznapokbl szrmaz nagy adattmegek . . . . . . . . . . . . . . . . . 206
15.5. A htkznapi nagy adattmegek az orvosbiolgiban . . . . . . . . . . . . 208
15.6. A htkznapi nagy adattmegek bioinformatikai kihvsai . . . . . . . . . . 211
16.Heterogn biolgiai adatok fzis elemzse 216

16.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
16.2. Tudsfzi s adatfzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
16.3. Az adatfzi mdszereinek felosztsa . . . . . . . . . . . . . . . . . . . . . 219
16.3.1. Korai fzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.3.2. Kztes fzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
16.3.3. Ksi fzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
16.4. Hasonlsg alap adatfzi . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
17.A Bayes-i enciklopdia 227

17.1. Bevezet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
17.2. Az adat, tuds, szmts hrmasnak modern kori megjelensei . . . . . . 231
17.3. Az adat, tuds, szmts hrmasa a genetikai asszocicis kutatsokban . . 232
17.4. Trendek az adatvilgban . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
17.4.1. j genercis szekvenlsi adatok feldolgozsnak dokumentlsa . 235
17.4.2. Gazdag fenotpusos adatok . . . . . . . . . . . . . . . . . . . . . . . 235
17.5. Trendek a tudsvilgban: szemantikus publikls s adatelemzsi tudsb-
zisok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
17.5.1. Szemantikus publikls . . . . . . . . . . . . . . . . . . . . . . . . . 236
17.5.2. Adatelemzsi tudsbzisok . . . . . . . . . . . . . . . . . . . . . . . 237
17.6. Trendek a modellvilgban . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
18.Bioinformatikai munkafolyamat-rendszerek
esettanulmny 243
18.1. A feladat ttekintse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
18.2. Adatmodell s -reprezentci . . . . . . . . . . . . . . . . . . . . . . . . . . 244
18.3. Felhasznli esetek s architektra . . . . . . . . . . . . . . . . . . . . . . . 245
18.4. A szerver mkdsi rszletei . . . . . . . . . . . . . . . . . . . . . . . . . . 247
18.5. Utfeldolgozsi lpsek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
www.interkonyv.hu
Tartalomjegyzk 9
19.A gygyszeripari kutats informatikai aspektusai 250

19.1. A fejlesztsi folyamat ttekintse . . . . . . . . . . . . . . . . . . . . . . . 250
19.2. Kemoinformatikai httr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
19.3. Szrsi kritriumok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
19.4. Mdszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
19.5. Fragmens alap tervezs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
19.6. Gygyszer-jrapozicionls . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
20.Metagenomika 264
20.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
20.2. A metagenom elemzse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
20.2.1. A kzssget alkot fajok beazonostsa . . . . . . . . . . . . . . . . 265
20.2.2. Funkcionlis metagenomika . . . . . . . . . . . . . . . . . . . . . . 266
20.3. Metagenomika lpsrl lpsre . . . . . . . . . . . . . . . . . . . . . . . . . 267
20.3.1. Mintavtelezs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
20.3.2. Szekvenls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
20.3.3. Genomsszeraks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
20.3.4. Besorols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
20.3.5. Gnfelismers s funkcionlis annotci . . . . . . . . . . . . . . . . 271
www.interkonyv.hu
1. fejezet
DNS rekombinns mrstechnolgik,

zaj- s hibamodellek
A DNS mrstechnolgik az ezredfordul utn rendkvli sebessggel fejldtek, de a kli-

nikai gyakorlatba trtn begyazs s az eredmnyek feldolgozsa s rtelmezse nem
kvette a mrstechnika fejldst. ttekintjk a DNS szekvenls mdszereinek fejld-
st, s a mrsek feldolgozsnak menett, annak klnbz aspektusait, valamint zaj- s
hibakarakterisztikjt. Mr a mrsek tervezse s elksztse is specilis szakrtelmet
kvn, valamint az adatok feldolgozsa sorn gyelni kell a megfelel eszkzvlasztsra,
s a mrsek megbzhatsgra. Az j genercis DNS szekvenlsi eljrsok klinikai
elterjedsnek elfelttele a pontos, megismtelhet mrsi munkafolyamat kidolgozsa.
1.1. Trtnelmi ttekints

A Humn Genom Projekt 1990-ben kezddtt, s 2003-ban fejezdtt be. A projekt ered-
mnyeknt megfejtettk a teljes emberi genom szekvencijt. A projekt kezdetn akkora
jelentsget tulajdontottak az emberi genom megismersnek az orvostudomny fejlds-
re nzve, mint annak idejn az anatminak. A teljes szekvencihoz a Sanger-szekvenls
fokozott prhuzamostsnak felhasznlsval jutottak. A 2000-es vek elejn egy tel-
jes emberi genom szekvenlsnak trekvseivel prhuzamosan hvtk letre a HapMap
projektet, az emberi genetikai varinsok klnbz populcikban trtn feltrkpezst
clozva meg. A HapMap projekt abbl a felttelezsbl indul ki, hogy a gyakori beteg-
sgek esetn klnsen azok, amelyek gyermeknemzsi kor utn jelentkeznek nagy
valsznsggel kzs varinsok azonosthatk a genomban.
A tbb mint 3 Gb mret humn genom szekvenlsa jelents elkszleteket ignyelt.
A kromoszmkat megkzeltleg 50.000200.000 bzispr kztti hosszra trdeltk. Eze-
ket a hossz fragmenseket baktriumokba ltettk, hogy ilyen mdon a baktrium DNS
replikcis mechanizmust felhasznlva msolatokat kszthessenek. Ezeket a msolatokat
tartalmaz klnokat egyenknt izolltk s a leolvassra sznt szakaszokat elklntettk
a bakterilis DNS-tl, majd nhny szz bzispr hossz rszekre trtk, vgl Sanger-
Srkzy Pter www.interkonyv.hu

szekvenlssal olvastk le. A leolvasott szakaszokbl (readekbl) lltottk ssze a vgs,

eredeti genomot. Ezt a mdszert hierarchikus shotgun mdszernek hvjuk.
A szmtsi kapacits kezdetben nem volt elgsges nagy genomok sszerakshoz,
klnsen a 3 millird bzispr hossz emberi genom random shotgun readek esetben.
Itt elzetes szelekci nlkl, a genom klnbz pozciibl szrmaz, egymssal tfed (!)
szakaszok leolvassa trtnik, ezrt a readek sszerakshoz j mdszerek kifejlesztsre
volt szksg.
Az 1000 Genomes projekt nagyban kzrejtszott a j genercis szekvenlsi eljrsok
elterjedshez, s a mrsi sajtossgok megismersben. Ennek keretben az ezredfordul
utn 1000 ember teljes DNS-t szekvenltak. Az j genercis szekvenlsi technolgikkal
napjainkra lehetv vlt egy teljes emberi genom szekvenlsa mindssze nhny ezer
dollros kltsggel.
1.1.1. A genomszekvenls klinikai aspektusai

A kutatk eleinte taln tlzottan nagy remnyeket fztek az emberi genom szekvenlsval
megismert adatokhoz. A clok kztt szerepelt a gyakori betegsgek htterben ll k-
lnbsgek azonostsa, ami alapjn hatkonyan fejleszthetnek ki j gygyszereket. Sajnos
a genomszekvenls eredmnyeit sokkal nehezebb rtelmezni. Napjainkban a szekven-
lst kutatsi clokon kvl ismert gnek vizsglatra, elssorban monognes betegsgek
diagnosztizlsra, valamint a megfelel kezels kivlasztsnak segtsre hasznljk. A
klinikai felhasznlhatsghoz fontos a mrend genomilis szakasz gyakori mutcis jelle-
gnek ismerete.
1.1.2. Rszleges genetikai asszocicis vizsglatok (PGAS)

A rszleges genetikai asszocicis vizsglatokban kivlasztjk az emberi genom egy alhal-
mazt, amelyben korbbi kisebb felbonts genetikai vizsglatok vagy egyszeren hipotzis
alapjn sejtik, hogy egy betegsggel sszefggsbe hozhat varinsok tallhatak. Ezek
utn meghatrozzk a kivlasztott alhalmazban a varinsokat az eset- s kontrollpopu-
lcikon, majd statisztikai mdszerekkel vizsgljk, hogy mely varinsoknak van hatsa
a fenotpusra, s hogy melyek ezek kztt az okozati varinsok. A rszleges genetikai
asszocis ksrletek tervezsrl a knyv tovbbi fejezeteiben olvashat.
1.1.3. Genomszint asszocicis vizsglatok (GWAS)

A HapMap projektben elkszlt az emberi rekombincis hotspotok, valamint az emberi
genom variciinak trkpe. A genomszint asszocicis vizsglatokban a HapMap pro-
jektbl ismert egynukleotidos polimorfizmusokat (SNP-k) gy vlasztjk ki, hogy maxi-
malizljk az ltaluk kapcsoltsgban lev SNP-k szmt, majd meghatrozzk az SNP-ket
nagy populcikon. A populcira vonatkoz adatok ismeretben lehetsg van a jelleg-
gel asszocilt, vagyis kapcsoltsgi egyenltlensgben ll rgik, akr cskkentett szm
SNP-kszlet (tag-SNP) meghatrozsa ellenre, trtn nagy hatkonysg szrsre. A

GWAS vizsglatban ltalban kivlasztanak egy betegsget, s meghatroznak tbb mint

egymilli SNP-t tbbezer eset- s kontrollmintn. Az eredmnyeket statisztikai vizsglatok
al vetik s meghatrozzk, hogy mely betegsgek asszocilnak a krdses betegsggel.
1.2. Els genercis automatizlt Sanger-szekvenls

A Sanger-szekvenls mdszere, a nukleotidok szelektv beplsn alapul. Ezt a md-
szert 1977-ben fejlesztettk ki, s ma is a legelterjedtebb mdszernek szmt. A Sanger-
szekvenls hossz, akr 800 bzispros readeket eredmnyez, s a HGP utn leggyak-
rabban megerst vizsglatokra (validlsra) s kisebb lptk kutatsokban hasznljk.
A ngy klnbz nukleotidot ngy eltr fluoreszcens termintorral jellik, majd a frag-
menseket elektroforzis segtsgvel glen megfuttatjk, ezutn a keletkez fluoreszcens
kpet rgztik. Ezek utn a fluoreszcens svokat a vgs szekvenciv dekdoljk. A
Sanger-szekvenls kifejezetten lass s drga az jabb mdszerekhez kpest, ellenben a
megbzhatsga s a hibakarakterisztikja jl ismert.
1.3. j genercis szekvenlsi technolgik

Ezek a technolgik mind a rvid DNS szakaszok leolvassnak nagymrtk prhuzamo-
stsn alapulnak. ltalban lehetv teszik tbb minta egyidej vizsglatt, az egyes
mintk trbeli elklntsvel. A nagyobb mrtk prhuzamosts nem nvelte jelent-
sen az egyes leolvassok pontostst, de egy szakasz redundns, nagyobb lefedettsggel
(coverage) a mrs vgeredmnye pontosthat. A gyakorlatban technolgitl s a mrt
szakasz jellegtl fggen a kb. 30-szoros lefedettsgtl akr tbb ezerszeres lefedettsgig
terjedhet a mrs. A jelenlegi vezet technolgia elterjedtsg alapjn az IlluminaMiSeq
platformja. Az tlagos read-hossz azonban relatve alacsony.
1.3.1. Piroszekvenls s pH alap szekvenls

2005-ben a 454 Life Sciences kifejlesztett egy szintzisalap szekvenlsi mdszert, amely-
ben a leolvasni kvnt egyszl DNS-t egy felsznhez rgztik s enzimatikus ton szinte-
tizljk a komplementer szlat. A piroszekvenls alapja az, hogy a DNS-t szintetizl
DNS polimerz enzim aktivitst egy msik, fnykibocst (luciferz) enzim segtsgvel
detektljk. A szekvenls folyamn a ngy lehetsges nukleotid kzl egyszerre egyet
juttatnak a reakcitrbe, s ha ez komplementer a kvetkez nukleotiddal, akkor a DNS
polimerz bepti a szlba. A bepls kvetkeztben, egy kapcsolt biokmiai reakcisor
vgn a luciferz enzim ltal katalizlt talakulsi folyamat fnykibocstssal jr. A fny
intenzitsa arnyos a inkorporld nukleotidok szmval. Ezek utn a be nem plt
nukleotidokat kimossk, s egy msik nukleotidot adnak a rendszerhez. Ezt a folyamatot
ciklikusan ismtlik. Az adott pozciban bekvetkez fnyvillansok megadjk a krdses
DNS szl nukleotidszekvencijt.

1.1. bra. A Sanger-szekvenls folyamata
1.2. bra. A Sanger-szekvenls eredmnye: a flowgram
A pH alap szekvenls elve a nukleotid beplsekor detektlt esemny vonatkoz-

sban tr el, amikor is egy kilp proton megvltoztatja a reakcielegy pH-jt. Ezt a

1.3. bra. Szekvenlsi technolgik sszehasonltsa
pH-vltozst egy CMOS (Complementary Metal-Oxide Semiconductor) felleten detek-

tljk. A pH-vltozs mrtke arnyos a bepl nukleotidok szmval. Ezek alapjn
knnyen belthat, hogy a piroszekvenls s a pH alap szekvenls hibakarakterisztik-
ja rendkvl hasonl.
1.3.2. Reverzibilis termintor alap szekvenls

A technolgit 2006-ban mutatta be az Illumina. A DNS szlakat lemezeken rgztik,
majd helyben sokszorostjk hd-amplifikcival. A mrsi folyamat sorn a kvetkez
ciklust ismtlik. 1. A ngy klnbz terminlt s klnbz fluoreszcens festkkel jellt
nukleotidot adnak a lemezhez, ahol minden DNS szl kvetkez szabad helyre a megfelel
komplementer nukleotid pl be. 2. A felesleges nukleotidokat kimossk, majd a lemezrl
rgztik a ngy klnbz fluoreszcens festknek megfelel hullmhosszhoz tartoz kpet.
3. A terminl csoportokat levgjk a szlakrl s kimossk.
A klnbsg az Illumina s a Helicos BioSciences megoldsa kztt az, hogy a Helicos

1.4. bra. A piroszekvenls menete
megoldsa esetn csak egy adott nukleotid van jelen s pl be az egyms utn kvetkez
ciklusokban, mg az Illumina platform esetben egyszerre mind a ngy klnbz, ngy
klnbz festkkel. A rgztett kpekbl megllaptjk a klonlis klaszterek pozciit,
majd az egyes sznekbl s intenzitsokbl meghatrozzk a nukleotidszekvencikat.
1.3.3. Nanoprus alap szekvenls

A nanoprus alap szekvenlst 1995 ta fejlesztik. Jelenleg mg nincs kereskedelmi for-
galomban, de a technolgia 2014-es bevezetstl hossz s pontos readeket vrnak. A
nanoprusok specilis fehrjk, amelyeket egy lemezen rgztenek. Egy egyszl DNS
szlat vezetnek t a pruson, s megmrik a lemez egyik oldalrl a msikra foly ram
erssgt. A prus rendkvl kicsi kevesebb, mint 1 nm tmrj , amelyen keresztl
az egyes nukleotidok thaladst az adott nukleotidra jellemz ramerssg ksri.

1.5. bra. A reverzibilis termintor alap szekvenls folyamata
1.4. j genercis szekvenlsi technolgik hibakarak-

terisztikja
Gyakran egy j genercis szekvenlsi mrs nem azt az ttr eredmnyt hozza, ami-
re szmtottak. A leolvassra sznt knyvtrak elksztse egy rendkvl bonyolult la-
boratriumi folyamat, amely esetenknt akr tz rt is kitev labormunkt ignyel, s
ezrt knny hibt ejteni az elkszts sorn. A kiindulsi DNS mennyisg nanogramm-
picogramm nagysgrend. A klnbz elksztsbeli hibk eltr jelleg torzulst okoz-
hatnak kimeneti adatokban. Hrom f hats van, amely NGS mrsek sorn a legnagyobb
hnyadban jrulnak hozz a mrsi hibkhoz: rendszerszint hibk, lefedettsgi egyenet-
lensg s a mintaelksztsi hibk, amelyek mind fggenek a technolgiai platformtl, a
mrt szekvencia jellegtl, s a ksrleti variabilitstl.

1.6. bra. A nanoprus alap szekvenls illusztrcija s mrsi eredmnye
1.4.1. Carry forward/incomplete extension

A carry forward/incomplete extension (elrevitel/elgtelen bepls) hiba akkor fordul el,
ha az egy gyngyn vagy azonos helyen lev klonlisan azonos szekvencik nem teljesen
szinkron mdon szintetizldnak. Pldul ha nhny szl nem a megfelel darabszm
nukleotidot pti be (mert nem volt elgsges szm nukleotid a flow sorn), vagy ha rezi-
dulis nukleotidok maradnak a szlaknl (mert nem megfelelen mostk ki az egyes flow-k
kztti mossi ciklusokban), akkor a szlak nem teljesen szinkron mdon nvekednek.
Ennek az eredmnye egy jelszint-degradci, ami addicionlis zajt hoz a rendszerbe. Ez-
ltal nemcsak a readek minsge cskken, hanem halmozott esetben a readek rvidebbek
lesznek. Ez a hiba klnsen az Illumina eszkzt rinti, a piroszekvenls technolgija
ellenllbb ezzel a fajta hibval szemben. A szrsi algoritmusok tervezse sorn kiemelten
fontos, hogy szlelni (s adott esetben korriglni) tudjk ezt a hibt.
1.4.2. Homopolimer hibk

A piroszekvenls s a pH alap szekvenls sorn egy ciklusban tbb azonos nukleotid
plhet be a szekvenciba, ha a clszlon is azonos nukleotidok kvetkeznek. A kibocs-
tott fny mennyisge/pH-vltozs mrtke arnyos a bepl bzisok szmval. Hosszabb
homopolimer-rgik esetn, valamint a beplt nukleotid fny mennyisge kztt fennl-
l nemlineris sszefggs miatt a zaj s varici nvekszik s ezrt egyre nehezebb vlik
meghatrozni a bepl bzisok pontos szmt. Ha nagyobb lefedettsggel szekvenljuk
a target-rginkat, akkor kvetkeztethetnk a homopolimer-rgi pontos hosszra.

1.7. bra. Carry forward/incomplete extension
1.5. Capture technolgik

A legtbb ksrleti krdsben a DNS szekvenlst nem a teljes genomon hajtjk vgre, gy
nem shotgun mdon vgzik. A legtbbszr clzott rgikat szeretnnek a genombl leol-
vasni. A knyvtrkszts els lpse a clrginak (target rgi) a kinyerse (capture)
s sokszorostsa. Erre tbb mdszert is kidolgoztak.
1.5.1. PCR capture

Amennyiben polimerz lncreakcit hasznlnak egy bizonyos clrgi kinyersre, olyan
primert kell tervezni, amely csakis a target-rgi elejre vagy vgre kt be. Ennek a
primernek egyedinek kell lennie, ami azt jelenti, hogy csak egyetlen helyre kthet be a
genomban. Valamint arra is figyelni kell, hogy ne essen SNP vagy ms varins a primer
kthelye al, mert ez rontja a specificitst. A primernek kltsghatkonysgi okokbl
minl rvidebbnek kell lennie, a gyakorlatban emberi genomnl ez egy 2025 hossz oli-
gonukleotid szekvencit jelent. A DNS mintt felmelegtik, hogy a hlixet alkot szlak
kettvljanak, ezutn a primert hozzadjk enzimekkel s szabad nukleotidokkal, majd az
elegyet lehtik. Ez indtja be a PCR els lpst. A komplementer szlat a DNS polimerz
enzim pti fel a szabad nukleotidokbl. Ezt a melegts-PCR-hibridizci lpst egyms
utn tbbszr hajtjk vgre, s idelis krlmnyek kztt a cl rgi (termk) minden
lpsben megduplzdik.
Uniplex PCR
Az uniplex PCR sorn a reakcielegyben csak egyetlen cl rgit szaportanak fel. Az
uniplex PCR kompatibilis minden j genercis szekvenlsi platformmal, s ma mr ru-

tineljrsnak szmt. A leghosszabb rgi, ami mg amplifiklhat PCR-rel, az kb. 10000

bzis, mert ennl hosszabb rgik esetn a DNS polimerz kevsb robusztus, s fennll a
korai lncterminci veszlye. Ha a szl pl. az els lpsben tl korn terminlna, akkor
a kvetkez ciklusoktl mr minden termknek legalbb a fele csak ez a rvid szekvencia
lenne. Tbb, egyedileg felszaportott PCR termk vegytse megengedhet, m fontos fi-
gyelembe venni, hogy ezt csak pontos kvantitatv elemzs utn ajnlatos tenni. Ha nagyon
eltr koncentrcij elegyeket vegytenek, akkor a nagyobb koncentrciban az oldatban
lev szlak tbbsgbe kerlnek. Ez az egyenletes lefedettsg elrse miatt rendkvl fontos.
1.8. bra. Uniplex PCR
Multiplex PCR
Multiplex PCR reakcikban tbb primert egyszerre adnak egyetlen reakcielegyhez, s k-
zs templt jelenltben sokszorostjk a targeteket. Az egyedi PCR-reakcik trben nem
kerlnek elvlasztsra, gy figyelembe kell venni a klnbz szekvencik eltr olvadsi s
hibridizcis hmrsklett a primerek tervezse sorn. A tapasztalatok szerint a lefedett-
sg egyenetlensge kb. 10 target-rgiig (amplikon) biztosthat. Az egyes target-rgik
hossza kzeltleg azonos kell, hogy legyen az egyenletes lefedettsg rdekben.
Ha a primerek interakciba lpnek egymssal (tfedsek miatt sszeakadnak), ak-
kor nagyon egyenetlen lefedettsg vrhat, vagy akr egy amplikon egyltaln nem kerl
sokszorostsra. Elfordulhat nem clzott rgik felszaporodsa is. A mdszer elnye a
fajlagosan alacsonyabb anyag- s munkaidkltsg.
Microarray capture
Egy microarray lemezen tbb milli rgztett oligonukleotid szekvencia lehet, amelyek a
clrgikra specifikusak. A teljes hosszban amplifiklt genomi DNS szekvencikat hibri-
dizljk a rgztett oligonukleotidokra. Azokat a szekvencikat, amelyek nem ktdnek
a lemezen lev helyekre, lemossk, majd a megmaradt clszekvencikat eluljk (leold-
jk) a lemezrl. A kivlasztott rgikat tartalmaz, elult DNS-t opcionlisan tovbb
amplifikljk, majd adapterszekvencik liglsa utn feltltik a szekvenl eszkzre.

1.9. bra. Multiplex PCR
1.10. bra. Microarray capture
Microfluidic capture
A microfluidic capture sorn apr vzcseppeket hoznak ltre egy olaj kzegben (emulzi).
Minden csepp egy mikromret reakcis tartlynak felel meg, ahol a reakcik egymstl
elszigetelve futnak. Az egyes primereket s templtokat tartalmaz cseppeket vizulis vagy
automatizlt ellenrzs utn elektrosztatikus trrel vlogatjk ssze. Ezzel a mdszerrel
egyszerre tbb milli reakcit lehet vgrehajtani elvlasztott cseppekben.

1.11. bra. Microfluidic capture
1.6. Emulzis PCR

Az emulzis PCR elve hasonl az elz fejezetben bemutatott cseppeknl bemutatottak-
hoz, a klnbsg az, hogy itt a vizes reakcielegy-olaj emulzi minden cseppjben egy
mgneses gyngy van. Elszr a mgneses gyngykn lev oligkkal komplementer adap-
tereket liglnak (kapcsolnak) a kivlasztand DNS szlakra, majd a mgneses gyngyket
hozzadjk az alacsony koncentrcij DNS templtot tartalmaz s a PCR-reagenseket
(polimerz, nukleotidok, ionok) tartalmaz elegyhez. Fontos, hogy a mgneses gyngyk
szma megfelel legyen a DNS szlak szmhoz, mert gy biztosthat, hogy a legtbb
gyngyhz csak egyetlen egyedi DNS szl fog csatlakozni. Ezt az oldatot emulzifikljk
gy, hogy egy cseppbe legfeljebb egy gyngy kerljn, majd a PCR-reakcinak megfelel
hmrskleti ciklusokat ismtlik. Ennek eredmnyekpp minden gyngyn egy egyedi DNS
szl tbb ezer msolata. Az emulzit megtrst kveten a gyngyket feltltik a egy
olyan lapkra, amelyen ppen akkora lyukak vannak, amiben csak egy gyngy fr el. Ezek
utn kezddhet meg a tbb szzezer trben rszlegesen elvlasztott kompartmentben a
szekvenls.
Az emulzis PCR-t mind a piroszekvenlsban, mind a pH alap szekvenlsban hasz-
nljk.

1.12. bra. Emulzis PCR
1.7. Hd- (bridge-) amplifikci

Kt klnbz, egy nagyobb veg lemezere ktttekkel komplementer adapter szekvenci-
kat liglnak (a szekvencik vgeire rgztenek) az elksztett egyszl DNS fragmensek
vgeire. A DNS oldatot rhibridizljk az veglemezre. Az egyes molekulk vletlensze-
r helyekre ktnek a lemezen. A molekulk a hts sorn hidakat kpeznek a lemezen
gy, hogy mind a kt vgkn lev adapterek a lemezhez ktdnek, majd a szekvencikrl
msolatok kszlnek. A msolatokat ezutn denaturljk, majd megismtlik a hdkp-
zsmsolsdenaturls ciklust, amg kell mret s srsg klonlis klaszterek nem
kpzdnek. Egy lemezen tbb szzmilli egymstl elklnl klonlis klaszter alakul ki,
s ha elgsges kzttk a tvolsg, akkor nem is keverednek ssze. Ezt a lemezt utna
beillesztik a szekvenl eszkzbe. Az Illumina megoldsa ezt a mdszert hasznlja.
1.13. bra. Hd-amplifikci
1.8. Clzott jraszekvenls

Az j genercis szekvenlst leggyakrabban olyan rgik vizsglatban alkalmazzk,
amelynek (referencia) szekvencija mr ismert. Tbbflekpp is kivlaszthat s amplifi-
klhat egy organizmus clszekvencija. A clzott jraszekvenls az ismeretlen genomok
de novo sszeraksnak feladatt leegyszersti egy egyszer illesztsi problmv, azltal
hogy a referenciaszekvencia mr ismert s felhasznlhat mint trkp. Minden szekven-
lsi technolginak vannak hibaforrsai, s a rendkvl nagy prhuzamossg miatt ez
rendre meg is jelenik a readekben. A legjobban a lefedettsg nvelsvel lehet kikszbl-
ni a hibk hatst, de ez sajnos nem tl kltsghatkony, valamint szekvencia-specifikus
hibknl nem segt sokat.

1.9. De novo szekvenls

A de novo szekvenlst abban az esetben alkalmazzk, ha az adott szervezet rktanya-
gt els zben olvassk le, s gy nem ll rendelkezsre referenciaszekvencia. A mdszerei
ugyanakkor nagyobb lptk trendezdsek, pldul tumorsejtek mutcii esetben, ezek
keresse sorn is bevethetk. A nem specifikusan felamplifiklt teljes DNS llomnyt a
vlasztott szekvenlsi technolginak megfelel mretre trdelik (akr ultrahang alkal-
mazsval vagy enzimes emsztssel). A leolvass sorn ellltott szekvencia-fragmensek
sszeillesztse nagyon komplex feladat, s nagy lefedettsg is szksges ahhoz, hogy foly-
tonos, nagyobb egysgekk, akr kromoszmkk lehessen rendezni a readeket. Az emberi
DNS 3 millird bzisprjnak de novo illesztshez kb. 100 milli readre van szksg, br
ez ersen fgg a technolgitl. Az egyszerbb organizmusok genomja, mint pldul a bak-
triumok vagy a vrusok, nagysgrendekkel kisebb, s akr egyetlen futsbl is teljesen
sszeilleszthetek.
1.10. j genercis szekvenlsi munkafolyamatok

Manapsg mr nemcsak kutatsi clokra, hanem rutinszer diagnosztikban is hasznlnak
szekvenlst, gy lteznek ajnlsok arra, hogyan lehet a mrsek eredmnyt felhasznlni
dntstmogatsra s diagnosztikra.
1.10.1. Szrs
Minden szekvenl platform empirikus adatokon s mrseken kalibrlt mdon hozz ren-
del minden read minden bzishoz egy Phred pontszmot. Ez a pontszm annak a log10
valsznsgt adja meg, hogy a bzishvs hibs. Minden readet szrni kell a minsg-
biztosts rdekben, pldul a tl rvid readeket s az alacsony minsg readeket el
kell dobni. Lehetsg van a readek kevsb jl sikerlt vgeinek a levgsra is, valamint
szmtalan felttel fellltsra.
1.10.2. Illeszts
Az illeszts, ms nevn mapping vagy alignment az jraszekvenls egyik fontos lpse.
Itt a clgenomhoz illesztjk a readeket egyesvel, majd ezekbl sszelltjuk a lemrt
szakaszunk konszenzusos szekvencijt. Tbb algoritmus is ltezik a legjobb illesztsi
pozci megkeressre.
1.10.3. sszeraks
Amennyiben referenciaszekvencia nlkl illesztnk ssze rvid readeket egy folytonos szek-
venciv, ezt sszeraksnak (assembly) nevezzk. Az sszeraksi problma szemlltethet
gy, hogy egy knyv tbb pldnyt vletlenszeren apr darabokra szabdaljuk, majd
ssze kell rakni az eredeti knyvet a kis darabokbl. A leggyakrabban hasznlt algoritmus

a moh algoritmus, ahol a cl a legrvidebb kzs szekvencia sszelltsa, amelynek min-

den helyt fedi legalbb egy read. Ehhez elszr readek pronknti illesztst szmtjk
ki, majd a kt leginkbb hasonl readet sszevonjk. Ezt addig ismtlik, amg vgl csak
egy fragmens marad.
1.10.4. Varinshvs
A varinshvs folyamata az, amikor tbb readet, amelyek ugyanarra a genomi pozcira
illeszkednek, megvizsglunk, s megvizsgljuk, hogy brhol eltr-e a referencia szekven-
citl. Tbbfle varins ltezik, az egynukleotidos polimorfizmusoktl az inzercikon s
delcikon, valamint kpiaszm vltozsokon t a nagymret strukturlis trendezdse-
kig.
1.10.5. Paired-end szekvenls

Gyakran a rvid readek nem szolgltatnak elegend pozicionlis informcit ahhoz, hogy
a nagymret kpiaszm-vltozsokat s trendezdseket egyrtelmen meg tudjuk ha-
trozni, valamint a de novo sszeraks is nagyon nehz rvid readekbl. A paired-end
szekvenls sorn sokkal nagyobb, pr kilobzis hossz fragmenseket szekvenlunk, de a
szekvenls technolgiai korltai miatt csak a fragmensek kt vgt izolljuk. Ilyenkor to-
vbbi informcit nyernk azzal, hogy van kt rvid readnk, amelyeknek a hozzvetleges
tvolsgt ismerjk.
1.14. bra. Paired-end szekvenls adatainak sszelltsi folyamata

1.11. Tbb minta prhuzamos szekvenlsa

Amennyiben tbb egyedbl szrmaz mintkat szekvenlunk egyetlen futtatssal, nagyon
fontos hogy meg tudjuk llaptani, hogy melyik read melyik egyedekbl szrmazik. Minden
j genercis szekvenlsi technolgia valamilyen formban tmogatja a mintk azonos-
t szekvencikkal val elltst. Ilyenkor a fragmensek elejre azonostkat kapcsolnak,
amelyek a fragmenssel egytt kerlnek leolvassra. Ezek az azonostk krlbell tz bzis
hosszak, s tbbnyire tartalmaznak valamilyen kdolt redundancit arra az esetre, ha az
azonost leolvassban hibt ejtennk. Ugyanakkor egyes platformok tmogatjk a leme-
zek kln rszekre osztst, gy pedig az adott read lemezen elfoglalt helye egyrtelmen
azonostja a mintt.

2. fejezet
Genetikai mrsek s utfeldolgozsuk,

haplotpus-rekonstrukci, imputls
2.1. A genom fogalma

A genom egy szervezet teljes rkt informcijt tartalmazza, amely legtbb esetben a
DNS-ben van kdolva.
A DNS ketts hlix szerkezet molekula. A kt sszekapcsold DNS szl vzt egy
cukor-foszft gerinc alkotja, a cukor egysgekhez kapcsold bzisok a bzisprkpzs
szablyainak megfelelen msodlagos ktsekkel tartjk ssze a kt, ellenttes lefuts
DNS szlat.
A DNS-t felpt nukleotidok ngyfle bzist tartalmazhatnak, kt purinbzist: ade-
nint s guanint, illetve kt pirimidinbzist: citozint s timint. Az adenin s a timin kt,
ugyanakkor a guanin s a citozin hrom hidrognktst tud a szlak kztt ltesteni.
A DNS-ben tallhat cukor az tsznatomos dezoxiribz. A cukoregysgek egymshoz
foszfodiszter ktssel kapcsoldnak, az egyik dezoxiribz 3OH-csoportja s a kvetkez
cukorkomponens 5OH-ja foszftcsoport kzvettsvel kapcsoldik egymshoz (2.1. bra).
A genetikai informcit az egymst kvet ngyfle bzis sorrendje, a bzissorrend
hatrozza meg.
A DNS szlak s kapcsold fehrjk alkotta kromatin a sejtosztds sorn a mret
cskkentse rdekben hiszton fehrjk segtsgvel csomagoldnak ssze, s fnymikrosz-
kpban lthat kromoszmkba tmrlnek. Az emberi sejtek tbbsgben minden kro-
moszma kt pldnya tallhat meg, az ilyen sejteket diploid sejteknek nevezzk. A
kt egyforma alak s nagysg, sszetartoz kromoszma kzl az egyik apai, a m-
sik anyai eredet (homolg kromoszmk). Az ivarsejtek egyetlen kromoszmakszlettel
rendelkeznek (haploidok). Az emberi sejtekben a sejtmag 23 klnbz kromoszma al-
kotta prt (sszesen 46) tartalmaz, amelybl 22 pr homolg testi kromoszma, mg egy
pr nemi kromoszma (X, illetve Y). A homolg kromoszmk meghatrozott pozcik-
ban ugyanazokat a gneket hordozzk, azonban ez nem azt jelenti, hogy azok felttlenl
bzisrl-bzisra azonos genetikai informcit tartalmaznak, hiszen a sejtben az adott gn-
nek kt klnbz (apai s anyai) vltozata is jelen lehet. Ezek az alllok, a kromoszma

2. Genetikai mrsek s utfeldolgozsuk, haplotpus-rekonstrukci, imputls 28
2.1. bra. A DNS s a kromoszmk struktrja
egy adott pontjn (lokuszn) elhelyezked gn varicii. Egy olyan egyedet, amely kt ho-
molg kromoszmjn egymssal teljesen azonos gnkpit hordoz, homozigtnak, amely
klnbzt, azt heterozigtnak nevezzk. A fenotpussal sszefgg alll lehet dominns
vagy recesszv. Egy dominns s egy recesszv alll hordozsa esetn a dominnsnak meg-
felel fenotpus fog rvnyre jutni; ugyanakkor egy recesszv alllhoz tartoz jelleg csak
homozigta genotpus esetn tud megjelenni.
Egy egyed fenotpusn teljes fizikai megjelenst, vagy brmely megfigyelhet vagy
kimutathat (szerkezeti, biokmiai, lettani vagy akr viselkedsi) jellemzjt, amelyet
genotpusa s a krnyezeti hatsok egyttesen hatroznak meg.
2.2. A genotpus az egyed genetikai identitsa

A genotpus tgabb rtelemben egy egyed genetikai sszettelt rja le, melyet a genom-
jban, a DNS-szekvenciban tallhat informci hatroz meg. Szkebb rtelemben, a
genotpus fogalma egy adott gn (vagy gnek csoportjhoz tartoz) vltozataira vonat-
kozik, amelyek kombincija kpezhet egy genotpust, amely a hordozk fenotpusnak
kialaktsban szerepet jtszik.
A genotipizls sorn az egyed genotpust hatrozzuk meg, ltalban rszlegesen. A
populcik genetikai sszettelt, az egyes genotpusok populcibeli gyakorisgval s az
ebbl kiszmthat alllgyakorisggal lehet jellemezni.

2.2.1. Egypontos nukleotid-polimorfizmus (SNP)

A DNS replikcija sorn ltrejtt eltrseket, hibkat nevezzk mutcinak. A legtbb
mutci spontn jn ltre, de bizonyos mutagn szerek is okozhatjk kialakulsukat. A
szablyos, leggyakoribb, a jellemz fenotpust kialakt alllt vad tpusnak nevezzk. Mu-
tci kvetkeztben a genom szekvencija kisebb-nagyobb mrtkben vltozhat meg: a
gnhiba kiterjedstl fggen egyetlen bzist, egy gn bizonyos szakaszt, de akr egy
egsz kromoszmt vagy -kszletet is rinthet.
Azt a varicit a DNS szekvenciban, amely akkor jn ltre, ha a genomban egy
nukleotid megvltozik, egypontos nukleotid-polimorfizmusnak, az angol kifejezs (single-
nucleotide polymorphism) rvidtseknt SNP-nek nevezzk. Ha a populci tbb, mint
1%-a a DNS-szekvencia egy adott pozcijban eltr nukleotidot hordoz, akkor ez a va-
rici SNP-nek tekinthet. A legfontosabb fogalmi klnbsg teht az egynekben azo-
nosthat pontmutci s a populci akr jelents rszben is megjelen SNP kztt a
gyakorisgukban van.
2.2. bra. Egyetlen nukleotid vltozsa egy msik mRNS kodon transzlcijt eredmnye-
zi, amely vgl egy eltr peptidlnc szintzishez vezet.
SNP-k elfordulhatnak a gnek kdol s nem kdol rgiiban, valamint a DNS gnek
kztt elterl intergenikus terletein is. Amennyiben a mutci egy gn kdol rszben
fordul el, a megvltozott szekvencia hatssal lehet a termk aminosav- sorrendjre s
ezltal a fehrje szerkezetre, funkcijra (2.2. bra). A gnek nem kdol rgiiban
tallhat bziseltrs befolyssal lehet pl. a splicing-ra, transzkripcis faktorok ktdsre
vagy az mRNS degradcijra.
2.2.2. A pontmutcik lehetsges vltozatai

A DNS molekula egyetlen bzisa megvltozhat kicserldssel, kiesssel vagy bekeldssel.
A bziscsere sorn egyetlen bzis cserldik ki egy msikra. Tranzci sorn purinbzis
cserldik purinbzisra, vagy pirimidin pirimidinre (pl. A-G vagy T-C csere). Transzver-
zi esetben purinbzis cserldik pirimidinre (pl. A-T vagy A-C csere) vagy pirimidin
purinbzisra (pl. C-G vagy C-A csere).
A DNS szekvencijnak egy pontban trtn megvltozsnak kvetkezmnyeit nagy-
mrtkben meghatrozza a pozci fontossga az informci tadsban.

Csendes mutci esetn bziscsere trtnik ugyan, de az nem okoz vltozst az rintett
fehrje aminosavsorrendjben. Ennek oka a genetikai kd degenerltsgban rejlik, egy
aminosavat tbbfle bzis-triplet, vagyis kodon is kdolhat, gy elfordulhat, hogy a kodon
harmadik (ltyg) pozcijban trtnt vltozs nem eredmnyez aminosav csert, amikor
egy msik, ugyanazt az aminosavat kdol tripletre vltozik meg a szekvencia.
Nonszensz mutci esetben egy, egybknt aminosavat kdol triplet egy stop ko-
donra vltozik, aminek kvetkeztben a fehrjeszintzis megll ennl a kodonnl s teljes
hosszban nem kerl leolvassra.
Misszensz mutci esetben a nukleotidcsere aminosavcsert is eredmnyez, amely ha-
tssal lehet a kpzd fehrje szerkezetre, funkcijra.
A legdrasztikusabb vltozst a genetikai kd informcitartalmban egy bzis vlto-
zsa esetn annak kiesse (delci) vagy egy j bzis bekeldse (inzerci) okozhatja.
Mindkett eset a leolvassi keret (reading frame) eltoldst eredmnyezi. Ennek kvet-
keztben az soron kvetkez aminosavak nagy valsznsggel megvltoznak. Gyakran az
is elfordul, hogy egy bziskiess rvnytelent egy stop kodont, vagy akr j ltrehoz-
st is okozhatja. Az ilyen mutci kvetkeztben a fehrjeszintzis sorn nem megfelel
hosszsg, illetve szerkezet fehrjetermk keletkezik.
2.2.3. Mutcik hatsa

Az emberi DNS-ben tallhat varinsok hatssal vannak arra, hogy hogyan reagl az embe-
ri szervezet a betegsgekre, baktriumokra, vrusokra, kemiklikra. Sejtjeinkben szmos
mutci alakul ki letnk sorn, amelyek j rsze kijavtsra kerl. A DNS-ben bekvet-
kez vltozsok jelentik az evolci folyamn a szervezet adaptcijnak lehetsgt is a
krnyezeti vltozsokhoz.
A nem rklt, testi sejtekben kialakul mutcikat, testi vagy szomatikus mutci-
knak nevezzk. A szomatikus, az egyed letben jelentkez gnhibk nagyrszt nem
jrnak fenotpusos kvetkezmnnyel. Az ellenkezjre is jcskn akad plda, ha a daga-
natokra gondolunk, ahol a sejtosztdsban szerepet jtsz gnek tlmkdse vagy ppen
kikapcsolsa a szablyozsi felgyelet elvesztshez vezethet. Az rkld vagy csravonal-
mutcik esetben nem a testi sejtek, hanem az ivarsejtek genetikai anyagban kvetkezik
be a vltozs, amely gy mr rklhet lesz s kimutathat a populciban.
sszessgben az ismert SNP szma jelenleg tbb mint 70 millira tehet az emberi
populcikban. Ezek a pontszeren elhelyezked varinsok tbbsge nem okoz semmilyen
ismert kros kvetkezmnyt vagy betegsget az llnyekben, csak a genetikai vltoza-
tossgot nveli. Emellett azonban szmos olyan SNP-rl tudunk, amely betegsg vagy
legalbbis a betegsgre val hajlam kialakulsrt tehetk felelss. Ilyen betegsgek pl-
dul a sarlsejtes anmia, diabetes, szv- s rrendszeri betegsgek, ltsproblmk, rkos
megbetegedsek (eml- s petefszekrk), mentlis leplssel jr betegsgek (Alzheimer-
kr).
Az SNP-k a szemlyre szabott gygyszat kulcsszerepli, nagy segtsget jelentenek az
orvosi kutatsokban, gygyszerek kifejlesztsben, mivel ezek nem sokat vltoznak gener-
cirl genercira, azaz a populcikban val SNP kvets lineris kvetkeztetseket tesz

lehetv.
2.3. Haplotpusok
A haplotpus a haploid (jelentse egyszeres) s a genotpus szavakbl szrmazik. A biolgi-
ai definci szerint a haplotpus egyik szltl s egy kromoszmrl szrmaz, egymshoz
szorosan kapcsold genetikai markerek halmaza. Egy msik gyakran hasznlt definci
szerint a haplotpus egy homolg kromoszmaprrl szrmaz markerek azonos gameti-
kus fzis nukleotidjait jelli (az egyms mellett a kromoszmn elhelyezked varinsok
segtsgvel meghatrozott haplotpus fzis segt annak megadsban, melyik szakasz szr-
mazik az apai s melyik az anyai homolg kromoszmrl). Ez a megkzelts a szorosan
kapcsold markereket haplotpus-blokkoknak nevezi. A fejezetben ez utbbi rtelmezst
hasznljuk.
A haplotpusok vizsglatnak szmos elnye van. A htSNP-ekre alapozva leszkthet
a tovbbiakban vizsgland SNP-ek halmaza. Emellett bizonyos fenotpusjegyeket, k-
lnsen a komplex betegsgek esetben, tbb varins egyttesen hatroz meg. Ekkor a
haplotpus-szint eredmnyek jval erteljesebbek lehetnek, mint a SNP alapak.
A haplotpusok struktrjnak meghatrozshoz szksges fzisos genotpus adatok
legegyszerbben csaldfaelemzsekbl szrmazhatnak. Csaldfaelemzsek mellett kln-
bz PCR technikkkal, vagy j genercis szekvenlsi mdszerekkel mrseket is vgez-
hetnk, amelynek eredmnyeknt szintn elll a kvnt fzisos adat. Ebben az esetben
htrnyknt lehet emlteni a magas kltsgeket, illetve a mrshez szksges sok idt. Ezen
vizsglatoknl a kell mintaszm ellltsa jelenti a legfbb gondot, ugyanis a vizsglati
szemlyen kvl a szlk mintjra is szksgnk van. Emellett az ids korban megjele-
n betegsgeknl nyilvnvalan nem hasznlhat ez az eljrs. A harmadik lehetsget a
szmtgpes algoritmusok jelentik, amelyek a nyers genotpus-adatbl statisztikai md-
szerrel kzvetetten lltjk el a haplotpusokat. Ekkor a rekonstrukci bizonytalansga
jelenti a legnagyobb akadlyt.
Jelenleg is sokan vizsgljk, hogy kzvetlenl vagy kzvetve rdemes-e ellltani a hap-
lotpusokat. ltalnossgban elmondhat, hogy br a kzvetlenl elll haplotpusokkal
vgzett elemzsek erteljesebbek, de a nvekv mintaszm, magasabb fok genetikai kap-
csoltsg (linkage disequilibrium, LD) s kevesebb marker esetn a nyers genotpusokbl
megbecslt haplotpusok is megfelelen hasznlhatak.
2.4. Kapcsoltsgi egyenslytalansg

A kapcsoltsgi egyenslytalansgot leggyakrabban egy cscsra lltott korrelcis mtrix
formjban brzoljk. A mtrix tljban az egyes markerek szerepelnek, s a pontos
kapcsoltsg leolvashat a sorok s oszlopok leolvassval. A mtrix minden elemt a
kapcsoltsg erssgtl fggen sznezik.

2.3. bra. Kapcsoltsgi egyenslytalansg: Populci 1-ben az A alll nagyon gyakori, D

pedig vletlenszeren fordul el A s a mellett. Populci 2-ben A nagyon gyakori, de D
nem fordul el. A kevert populciban az A alll frekvencija 0.5 krli, s D tbbnyire
A-val egytt fordul el. Ezt nevezzk kapcsoltsgi egyenslytalansgnak.
2.5. Haplotpus-rekonstrukci
A legtbb SNP mrstechnolgia nem ad lehetsget arra, hogy haplotpusokat ponto-
san meghatrozzunk, mivel csak diszkrt pontokon hatrozzk meg a genotpusokat, s
nem kpesek annak azonostsra, hogy az apai vagy anyai kromoszmkra vezethetek-e
vissza. A haplotpusok azonostsa azrt fontos feladat, mert ha pldul kt varinsnak
csak akkor van a fenotpusban megjelen hatsa, ha egy szlon jelennek meg, akkor egy
ketts (compound) heterozigta egyed rintettsge csak a haplotpusok meghatrozsval
llapthat meg.
Tbb elterjedt megolds is szletett a haplotpus-rekonstrukci problmjnak megol-
dsra, a legelterjedtebbek rejtett Markov-modelleken hajtanak vgre kvetkeztetst. A
legpontosabb s leggyakrabban hasznlt mdszer a PHASE, amelyik Gibbs-mintavtelezssel
becsli a lehetsges haplotpusokat, feltve az ismert (megmrt) genotpusokat s ismerve a
rekombincis rtt. A haplotpus-rekonstrukcis mdszerek ltalban fel vannak ksztve
a hinyos adatok kezelsre.

2.4. bra. Egy gnen belli kapcsoltsgok haplotpus blokk brja

2.5. bra. Hinyz adatok imputlsa haplotpus blokkok segtsgvel: A) Genotpusos

adat hinyz mrsekkel. B) A mrt SNP-k vizsglata nem biztos, hogy szignifikns
eredmnyt ad. C) Minden mintnak modellezik a (gametikus) fzist a referenciapanelben
levk alapjn. D) Haplotpus referencia, pldul a HapMap alapjn. E) A referencia-
haplotpusok segtsgvel imputljk (kvetkeztetve becslik), ellltva a meg nem mrt
alllokat. F) Az imputlt SNP-k vizsglata nvelheti az asszocicis vizsglat statisztikai
erejt.
2.6. Imputls
Az SNP mrsek eredmnyeit nemcsak a haplotpusok rekonstrulsra hasznlhatjuk fel
a kapcsoltsgi egyenslytalansg segtsgvel, hanem a hinyos vagy esetleg alacsony meg-
bzhatsg mrsek esetn adatptlsra. Ez egy gyakori feladat genetikai asszocicis
vizsglatokban. A hinyzs mrtke gyakran 120% is lehet.
A hinyos adat megnehezti a ksbbi statisztikai elemzst, ezrt fontos a rendelkezsre
ll genotpus-informci maximalizlsa. Az imputls sorn kls adatforrsokat is fel-
hasznlunk, idelis esetben egy azonos populcin vgzett nagyobb (akr teljes) genetikai
asszocicis vizsglat eredmnyt is.

2.6. bra. A PCR ciklus lpsei: 1. denaturls, 2. primer hozzkts, 3. elongci
2.7. Genotipizlsi mdszerek

Tbb platform s mdszer ltezik a genotpusok meghatrozsra, amelyek mind teresz-
tkpessgben, mind pontossgban jelentsen eltrnek egymstl.
A mrsi mdszerek nagy rszben mindenkppen szksges nehny mintaelksztsi
lpes. A polimerz lncreakcit (PCR) arra hasznljk, hogy felszaportsanak egy cl DNS
rgit a teljes genombl. ltalban 100 s 10000 kztti bzis hosszsg szakaszokat
amplifiklnak. A reakci exponencilisan nveli a PCR primer ltal megclzott rgi DNS
koncentrcijt. A felszaportott szakasz mennyisgre fels korltot jelent a rendelkezsre
ll szabad reakcielegy mennyisge.
A PCR sorn 20-40 megismtelt htsi-melegtsi ciklust hajtanak vgre, s minden
ciklusban az albbi lpseket hajtjk vgre:

2.7.1. Sanger-szekvenls
A lncterminl szekvenls (ms nven Sanger-szekvenls) segtsgvel is meghatroz-
hat egy DNS szakasz pontos bzisszekvencija, errl tovbbi informcik elrhetek a
kvetkez fejezetben. Nagy kltsgignye s kis teresztkpessge miatt nem terjedt el,
felhasznlsa a genotipizl eljrsok kapcsn inkbb a nagy megbzhatsgot ignyl,
diagnosztikai terleten jelents.
2.7.2. Vals idej kvantitatv PCR

Ez a mdszer lehetv teszi nem csak az SNP-k pontos azonostst, hanem egy esetleges
heterogn populciban az SNP-k arnynak eloszlst is. A mdszer az ltalnos PCR
lpseit kveti, azzal a klnbsggel, hogy itt minden PCR ciklus kztt meghatrozzk a
keletkez DNS msolatok relatv mennyisgt is. Ez a mdszer azonban nagy pontossga
ellenre alacsony teresztkpessg.
2.7.3. DNS chipek

A DNS chipek egy szilrd hordoz lapocskhoz (veg, szilcium, specilis manyag) kttt,
nagyszm, klnbz nukleotidszekvencij DNS-prbbl llnak. A prbk 2550 nuk-
leotid hosszsgak oligonukleotidok. A jelenlegi technikai lehetsgek akr tbb milli,
klnbz prbt tartalmaz pont (spot) kialaktst teszik lehetv egy chip 1-2 cm2 -es
felletn.
A vizsglat sorn elszr a vizsgland mintkbl DNS-t izollunk, majd a szmunkra
rdekes terletekrl az egynukleotidos polimorfizmusok 150 bzisprnyi krnyezetrl
msolatokat szaportunk fel polimerz lncreakci (PCR) segtsgvel.
Ezutn a felszaportott vad s mutns alllokat tartalmaz DNS lncokrl klnbz
szn fluoreszcens festkkel jellt kpit ksztnk. A jells gy trtnik, hogy olyan pri-
mert adunk a PCR-el felszaportott DNS darabokhoz, amelynek 3 vgi utols bzisa az
SNP 5 irny kzvetlen szomszdsg bzisval kpez prt. Ez utn kvetkezik a primer
3 vgnek meghosszabbtsa egyetlen fluoreszcensen jellt, mdostott nukleotid beptse
ltal (az SNP helyn elfordul nukleotidokkal homolg ktflekppen jellt aciklonukle-
otidokkal, melyek beplse egyrszt megjelli a primert a 3 vgen, msrszt pedig a lnc
tovbbi nvekedst megakadlyozza a mdostott nukleotid). Az SNP hatrozza meg,
melyik nukleotid kerl beplsre. gy a vad, ill. mutns alllek kt klnbz festkkel
jellhetk meg.
Az elkszts befejeztvel a mintkat olyan elre elksztett DNS chipre visszk fel,
amelyen fizikailag ktve olyan DNS lncok tallhatk, amelyek komplementerei a vad, ill.
az SNP-t tartalmaz mutns DNS szlaknak.
A mintk felszaportott s festkkel megjellt DNS szakaszai ezekhez a komplementer
szlakhoz ktdnek (hibridizlnak). A nem ktdtt szlakat mosssal eltvoltjuk.
Ezutn a kt fluoreszcens festk elnyelsi tartomnynak megfelel hullmhossz fnnyel
(lzerrel) bevilgtva a mintkat vagyis magt a DNS chipet az eltr fluoreszcens

2.7. bra. Oligonukleotid SNP chip
festkkel megjellt vad s mutns alllokat tartalmaz DNS lncok a festkre jellemz
hullmhossz fnyt fognak kibocstani, amelyet detektlni tudunk.
Ekkor ksztnk a kt szncsatorna alatt egy-egy felvtelt, majd a ksbbiekben rsz-
letezett kpfeldolgozsi eljrssal megfigyeljk az egyes pontok fnyessgt, valamint a
pontok tovbbi jellemzit is rgztjk.
Ezutn az egyes SNP-khez tartoz mintkat sszegyjtjk s egy diagramon brzoljuk.
A diagram X tengelye a minta sznarnyt jelli, az Y tengelyen a pontok sszegzett
intenzitsa szerepel. Attl fggen, hogy az adott mintapont a diagram mely oldalra
kerl, megllapthat, hogy a vizsglt DNS tartalmazta-e a keresett mutcit vagy sem.
Vgl tbb chipen elvgzett szmos ksrlet eredmnyeit hierarchikus csoport- (cluster)
analzis segtsgvel rtkeljk.
Tbbfle eljrs is elterjedt DNS chipekkel trtn SNP meghatrozsra, a fentiekben
egy lehetsges megkzeltst ismertettnk.

2.8. Genotipizls s gnexpresszi

A genotipizls sorn egy organizmus rktanyagnak variabilitst trkpezzk fel k-
lnbz polimorfizmusok meghatrozsval. Fontos kiemelni, hogy ezek a mrsek a kvali-
tatv jellegek. A gnexpresszis mrsek ellenben kvantitatv jellegek, mert itt az egyes
gnekrl trd RNS szlak mennyisgt llaptjuk meg. A genotipizls vgeredmnye
egy konkrt genotpus, mg a gnexpresszis mrs pedig egy mrt RNS koncentrci,
amelyet sok kls paramter befolysol, pldul a vizsglt szveti tpus, valamint a minta
izollsnak krlmnyei.
2.8.1. Sikeres mrsek s pontossguk

A sikeresen lemrt SNP-k s az sszes megmrt SNP arnya a call rate. A pontossg pedig
a sikeresen lemrt SNP-kbl azok arnya, amelyekhez a vals genotpust rendeltk hozz.
ltalnossgban elmondhat, hogy a magasabb teresztkpessg mrsi mdszereknek
alacsonyabb mind a sikerarnya, mind a pontossga. A diagnosztikai tesztekhez ltalban
alacsony teresztkpessg rendszereket alkalmaznak, mert itt a mrs vrhat hasznos-
sga magasabb, s mindenkppen a pontosabb mrsre kell trekedni. A modern teljes
genom asszocicis vizsglatokban egyszerre tbb milli SNP-t is lehet mrni. Tbbfle
ltalnos hibajelensg tapasztalhat a mrsek sorn. Amennyiben a kiindulsi DNS min-
ta nem megfelel mennyisg vagy minsg, akkor az sszes hozz tartoz SNP mrse
sikertelen lehet. Ha az SNP-re jellemz primer nem elgg specifikus, akkor pedig az sszes
mintn az adott SNP mrse lehet sikertelen.

3. fejezet
sszehasonlt fehrjemodellezs s
molekuladokkols
3.1. Bevezets
A fehrjk szerkezetnek meghatrozsa a molekulris biolgia s a szerkezeti genomika
fontos kutatsi terlete. A fehrjk harmadlagos s negyedleges szerkezetnek ismeretben
a kutatk megismerhetik s elemezhetik a fehrjk funkcijt s aktv helyeit. Ez nagy-
mrtkben megknnythet olyan fontos proteomikai feladatokat, mint pldul a fehrje-
mrnksg vagy szerkezet alap gygyszertervezs.
A ksrleti mdszerek segtsgvel meghatrozott szerkezeteket tartalmaz Protein
Adatbank (PDB) [1] kpezi az elsdleges alapjt a szerkezet alap proteomikai vizsg-
latoknak. A fehrjeszerkezetek meghatrozsa klnbz ksrleti mdszerekkel (mint
pldul a rntgensugr-krisztallogrfia vagy NMR spektroszkpia, lsd Fehrjeszerkezet-
meghatrozs ksrleti mdszerei fejezet) azonban tovbbra is nehz s kltsges folyamat.
Az emberi proteom mintegy 30.000 jellemzett humn fehrjt tartalmaz (a humn fehrjk
referencia adatbzisban, Human Protein Reference Database) [2], de csak mintegy 5.000
humn fehrje vagy domn tallhat a PDB-ben.
Ezrt alakult ki igny olyan mdszerekre, melyek lehetv teszik hromdimenzis atomi
szint szerkezetek ellltst szekvencia-adatok alapjn. E feladat megoldsra olyan
szmtsi mdszerek alakultak ki, melyek alkalmasak a fehrje szerkezetnek elrejelzsre
elsdleges szerkezeti informcik (pl. szekvencia adatok) felhasznlsval [3, 4].
Az els fehrjeszerkezeti modell [5] megjelense ta szmos tovbbi fehrjemodellezsi
tanulmny is napvilgot ltott. E fejezet clja a fehrjemodellezsi technikk s a mo-
dellek pontossgnak ttekintse. Modellezsi mdszerekre mg akkor is szksg van, ha
rntgen- vagy NMR-szerkezet ll rendelkezsre, mivel a szerkezetekben szksg lehet helyi
javtsokra vagy mdostsokra (pl. a szerkezet alap gygyszertervezs sorn a nagyszm
lehetsges ligandum-receptor kombinci mindegyiknek ksrleti szerkezetmeghatrozsa
a gyakorlatban nem megvalsthat).
Poppe Lszl www.interkonyv.hu

3.1. bra. A szekvencia-szerkezeti szakadk. A SwissProt s trEMBL szekvencia-

adatbzisok [6] s a PDB [1] rekordjainak szma exponencilisan n, ennek ellenre a
fehrjeszerkezeti szakadk a szekvencik s a szerkezetek kztt drmaian n. Bett: a
PDB szerkezetek szmnak nvekedse 1972 s 2013 kztt. [A T. Schwede sszefoglal-
jban [8] kzlt bra Elsevier kiad ltal engedlyezett reprodukcija]
3.1.1. A fehrjeszekvencia-szerkezeti szakadk

A genom szekvenlsi programok eredmnyekppen ma mr tbb ezer l szervezet, gy
az ember teljes genetikai adatai (lsd a Genome adatbzist) ismertek. Az emberisg eltt
ll feladat jelenleg e genomok fehrjinek jellemzse, megismerse s akr mdostsa.
Ezt elssorban a fehrjk hromdimenzis szerkezetnek megismerse knnytheti meg,
amelyre a ksrleti mdszerek (mint pldul a rntgensugr-krisztallogrfia vagy NMR-
spektroszkpia, lsd Fehrjeszerkezet-meghatrozs ksrleti mdszerei fejezet) a legal-
kalmasabbak. A ksrleti mdszerek jelents fejldse ellenre sok fehrje szerkezetnek
ksrleti meghatrozsa azonban mg mindig hinyzik klnbz okokbl.
Az elmlt vtizedekben a nyilvnos, nagy szekvencia-adatbzisokban, mint pldul
az UniProt (SwissProt / TrEMBL) [6] vagy NCBI Gene [7] megtallhat szekvencik
szma hatalmas mrtkben ntt, ezek most kzel 50 milli szekvencit tartalmaznak.
Ezzel szemben a szerkezeti genomika fejldsnek ellenre a ksrletileg meghatrozott
szerkezetek szma a Protein Adatbankban (PDB) lassabban ntt, s most (2013 vgn)
is csak 95.000 krli szerkezetet tartalmaz. Az ismert szekvencik s szerkezetek szma
kzti klnbsg tovbbra is nvekszik (3.1. bra) [8]. Ezt a szakadkot prbljk thidalni
a fehrjeszerkezet-elrejelzsi mdszerek [4, 9].

3.2. bra. Hogyan vlasszunk fehrjemodellezsi mdszert? Templt alap modellezs ese-
tn azonostani kell a homolgiamodellezst lehetv tev templtot (akr a > 2030%-os
szekvenciaazonossg, akr hajtogatsfelismers alapjn). Templtmentes ab initio model-
lezs olyan kismret fehrje esetben hasznlhat, ahol nem lehetett megfelel templtot
azonostani.
3.1.2. A fehrjemodellezs mdszerei

A fehrjeszerkezetek szekvencia-adat alap, atomi szint modellezsre alkalmas md-
szerek a clfehrje mrettl, valamint a vizsgland fehrje s egy homolg, ksrletileg
meghatrozott szerkezet fehrje kztti szekvenciaazonossg foktl fggnek (3.2. bra).
A mdszerek els csoportja, az gynevezett ab initio (vagy de novo) fehrjemodellezs
a szerkezetet kizrlag a szekvencibl jsolja meg, anlkl, hogy a modellezett szekvencia
s brmilyen ismert szerkezet kztti hasonlsgra tmaszkodna [10]. Ezek a mdszerek
a fehrje 3D modelljnek a semmibl, vagyis a fizikai elvek alapjn trtn megold-
sra trekszenek elzetesen megoldott szerkezeti adatok felhasznlsa nlkl. A de novo
mdszerek felttelezik, hogy a natv szerkezet megfelel a fehrje globlis szabadenergia-
minimumnak, amit sok megvalsthat fehrjekonformci ellltsval s vizsglatval
prblnak megtallni. A de novo mdszerek kt f eleme a hatkony konformcikere-
s eljrs, s a lehetsges konformcik szabadenergia-fggvny kirtkelsi jsga. Ezek
az eljrsok ltalban hatalmas szmtsi erforrsokat ignyelnek, s gy csak kismret
fehrjk esetben alkalmazhatak.
A fehrjeszerkezet-modellezsi mdszerek msodik osztlya az sszehasonlt fehrje
modellezse (vagy homolgiamodellezs). Ez a szmtsi mdszer a fehrje szerkezett
annak aminosav-szekvencija s egy azzal homolg, ksrletileg meghatrozott szerkezet
templt segtsgvel nyeri, sszehasonlt hajtogatssal s modellezssel. A mdszer alapja

az a megfigyels, hogy a fehrjk 3D-s szerkezete jobban konzervldott, mint szekvenciik,

s ezrt kt, szekvenciaszinten csak rszben azonos fehrje hajtogatsa mg mindig ugyanaz
lehet [4, 11].
Atomi felbonts modell ptse csak akkor megvalsthat a cl-fehrje aminosav-
szekvencia s egy rokon, homolg templt-fehrje egy ksrleti hromdimenzis szerkezete
segtsgvel, ha a cl s a template-fehrje kztti szekvenciaazonossg meghaladja
a 2030%-ot. Mivel 20%-os szekvenciaazonossg alatt rendkvl eltr szerkezetek lehet-
sgesek, ezrt homolgiamodellezs csak akkor valsthat meg, ha felismerhet az adott
szekvencinak megfelel hajtogats. Ha van ilyen hajtogats, ebbl homolgiamodellt
lehet kialaktani.
3.2. sszehasonlt fehrjemodellezs

Az ab initio fehrjeszerkezet-elrejelzsben trtnt halads [10] ellenre az sszehasonl-
t fehrjemodellezs tovbbra is a legmegbzhatbb mdszer a fehrjk atomi szint 3D
szerkezet-elrejelzsre. Sok esetben homolgiamodellezssel nyert szerkezetek pontoss-
ga sszevethet a ksrletileg meghatrozott kisfelbonts szerkezetekvel. Emiatt vlt
mra az sszehasonlt fehrjemodellezs a fehrjk atomi szint szerkezet-elrejelzsnek
elsdleges eszkzv [4, 11].
3.2.1. A homolgiamodellezs lpsei

Az sszehasonlt fehrjemodellezs fbb lpsei a templt kivlasztsa, sszerendels,
flnc-, hurok- s oldallnc-elrejelzs, szerkezet optimalizlsa s rtkels (3.3. bra).
A megfelel templt(ok) vlasztsa igen fontos, mivel nem megfelel templt hibs
modellhez vezet. Ezrt a cl-szekvencival kell fok hasonlsgot mutat templt-ot
klns gonddal kell azonostani. Egyes esetekben mg alacsony szekvenciahomolgij
templt- s a cl-szekvencik esetben is felismerhet a hajtogats. A cl-szekvencit
ezutn sszerendezzk a templt-szekvencival, majd ezt gy finomtjuk, hogy a homolg
rgik optimlis egyezst mutassanak. Miutn elrtk az optimlis sszerendezst, a cl-
szerkezet flnc atomjait a templt 3D-szerkezetre modellezzk, majd elre jelezzk
a nem megfelel hurokrgikat s a nem konzervlt oldallnc-elrendezdseket. Ezutn
megfelel ertrrel vgzett optimalizlssal eltvoltjuk a modellbl sztrikus tkzse-
ket, s javtjuk a szerkezeti szempontbl fontos klcsnhatsokat, mint az atomok kztti
hidrogn-hd hlzat. Ezutn a vgs modellt elssorban a hibs vagy hinyz rgik
szempontjbl rtkeljk (pl. a nem-konzervlt hurkok, amelyeket ltalban a konzer-
vlt rgiktl fggetlenl szksges modellezni). Az rtkels a vgs minsg elrsig a
modell iteratv finomtst eredmnyezheti.
Templtkivlaszts s kezdeti illeszts

Az sszehasonlt homolgiamodellezs kezdeti lpse a megfelel templt(ok) kivlaszt-
sa. Az egyszer helyi sszerendezs keressn alapul (BLAST) eszkzk [13] rvn vltak

3.3. bra. Az sszehasonlt fehrjemodellezs lpsei. A modellezs tovbbi elemi lpse-

inek rszleteit a szveg mutatja be. (Az bra Fiser s mtsai. sszefoglaljnak [12] brja
alapjn kszlt.)
vtizedekkel ezeltt a szekvencia-adatbziskeressek hatkonyan automatizlhatv. Ilyen

eszkzkkel vlaszthatjuk ki a szerkezeti adatbzisokbl (pl. a PDB) a templtot (mg
a hajtogats felismerse esetn is) a tovbbi modellezsi lpsek eltt. Mind a hagyom-
nyos, mind a hajtogatsfelismersen alapul homolgiamodellezs eredmnye ersen fgg
e keress eredmnytl.
Els kzeltsknt a legnagyobb szekvenciaazonossg tallatot vlaszthatjuk temp-
ltknt. Ne feledjk, hogy mg a rngenkrisztallogrfival nyert fehrjeszerkezetek sem
tkletesek (a kristlyosods kzbeni rszleges bomls, az alacsony felbonts elektron-
srsg-trkp, vagy egyszeren csak az emberi hibk miatt, lsd mg Fehrjeszerkezet-
meghatrozs ksrleti mdszerei fejezet) [14]. Tbb, mint egy szerkezeti tallat esetn
kzenfekv megolds, hogy (pl. a PDBREPORT szerint) a legkevesebb hibt tartalma-
zt vlasztjuk templtknt. Ezen kvl ms szempontokat (egy fehrjnek lehetnek aktv
s inaktv szerkezetei; kofaktorok/ligandumok jelenlte fontos lehet a szerkezetben stb.)
is figyelembe kell venni a templt kivlasztsa sorn. A napjainkban rendelkezsre ll
szmtsi kapacits lehetv teszi tbb templt hasznlatt is, s a legjobb eredmnyt

3.4. bra. Az egyszer fibroblaszt nvekedsi faktor (bFGF) ksrleti szerkezete s elmleti
modellje. A ksrleti szerkezet (PDB kd 1BFC) kk szalagknt, mg az elmleti modell
piros szalagknt lthat. A modell s ksrleti szerkezet kzti legnagyobb eltrst mutat
kt rgit a jellt aminosavak jelzik. A modellt a nyilvnosan hozzfrhet Swiss-Model
szerver felhasznlsval ksztettk. [Az MJ Forster sszefoglaljban [15] kzlt bra
Elsevier kiad ltal engedlyezett reprodukcija]
kivlasztst a tovbbi finomtsra. Tbb templt kombincijval nyert tlagszerkezet

segtsgvel is megvalsthat modellezs. Azok az esetek, amikor egy templt-szerkezet
tbb mint 25%-os szekvenciaazonossgot mutat a cl-szekvencival, kpviselik azt a szin-
tet, amely felett a homolgiamodellezst sikerrel meg lehet ksrelni. Ezt demonstrlja
az egyszer fibroblaszt nvekedsi faktor (bFGF) modellezst bemutat 3.4. bra is. A
bFGF homolgiamodellje a patkny keratinocita nvekedsi faktor (PDB-kd: 1QQK, lnc
B) 41%-os szekvenciaazonossg (53% hasonlsg) templtszerkezete alapjn kszlt. A
modellszerkezet (piros szalag) s a ksbb meghatrozott ksrleti szerkezet (kk szalag,
PDB kd 1BFC) fehrjeflncai lthatan igen hasonlak, kt kevsb egyez rgitl
eltekintve.
Szekvenciailleszts finomtsa
A templt kivlasztsa s a kezdeti sszerendezse utn szmos eszkz ll rendelkezsre
a modell- s a templt-szerkezeti illesztsek kivlasztsra s finomtsra, belertve
a hrom-dimenzis szerkezetmegjelentsi s szerkesztsi eszkzket is. Manapsg csak
nhny eszkz kpes a szekvenciaillesztsek problminak automatikus finomtst kezelni,
de gretes mdszereket is kzltek [16].
Egy adott sszerendezs jsga ellenrizhet a templt-, illetve a cl-szekvencihoz
elegenden hasonl j szekvencik, vagy ms, a templt szerkezetre jl illeszked ksrleti
szerkezetek hozzadsval. Tvoli rokonsgban ll fehrjk esetben az is fontos, hogy
ellenrizzk a cl-szekvencia msodlagos szerkezet-elrejelzseinek egyezst a templt
msodlagos szerkezetvel [17]. Ezek a szerkezeti sszerendezs-adatok megjelenthetk a

3.5. bra. A modellszekvencia s a templt szerkezeti sszerendezsnek hromdimenzi-

s rtkelse. A ksrleti templtszerkezet flncnak (fekete) sszerendezst lthatjuk
egy az E s P aminosavak kzti megfelel tvolsg j modellel (kk) s egy, az E s P
aminosavak kzti tl nagy tvolsgot eredmnyez s gy rossz modellel (piros).
JOY formtum segtsgvel [18]. Kisebb mrtk szekvenciakonzervltsg esetn a szer-

kezeti sszerendelst pontosabban lehet elvgezni hromdimenzis szinten (3.5. bra). Az
sszerendels kzi szerkesztse az sszehasonlt fehrjemodellezs legidignyesebb s leg-
kritikusabb rsze. A modellben akr egyetlen aminosavnyi elcsszs is a vgs szerkezet
mintegy 4 -s hibjt eredmnyezi, mivel a jelenlegi homolgiamodellezsi algoritmusok
ltalban nem kpesek kiigaztani az sszerendezs sorn elkvetett hibkat [19].
Fehrjeflnc modellezse
A szekvenciailleszts vgeztvel kvetkezik a flnc modellezse. A flnc generlsa a
legtbb modell esetben trivilis: a templtszerkezet sszerendezsben szerepl aminosa-
vainak flncbeli atomkoordintit egyszeren t kell msolni a modellbe.
Ha egy bizonyos helyzetben a modell s templt sszerendezsben az aminosavak
eltrnek, akkor csak a flnc N, C , C s O koordinti (s egyes esetekben a C is)
msolhat. Ha egy adott pozciban az aminosavak megegyeznek, sok esetben mg az
oldallnc atomkoordinti is a modellbe msolhatak.
Hurokmodellezs
A modell- s a templtszerkezet sszerendezse beszrsokat s trlseket is tartalmazhat.
Trlsek esetn egyszeren kihagyjuk a templt felesleges rszeit, s a kpzd hinyt
sszektjk. A beszrsok esetn a templt folyamatos lnct elhastjuk, majd beszrjuk
az extra aminosavak alkotta hurkot. Belthat, hogy mindkt eset a flnc konformci-
vltozsval jr.

Amikor beszrsok vagy trlsek vannak a templt/clszerkezet sszerendezsben, a

hinyz rszek modellezsnek pontossga a fehrje klnbz rszein jelentsen eltr.
A jl definilt msodlagos szerkezeti elemek (-hlixek s -szlak) esetn, ahol a merev
flnckzelts ltalban elfogadhat, a modellezs pontosabb, mg kisebb pontossg vr-
hat a kevsb strukturlt, gy mozgkonyabb hurkok esetben. Sok homolgiamodellezsi
mdszer kpes hurkok elfogadhat kovalens geometrival trtn modellezsre, jellemzen
hurok-adatbzisbeli keressekkel. A natv hurokkonformcikkal kzel megegyez szerke-
zetek modellezse azonban nehz, s megfelel templt hinyban kvetkezetesen a hurkok
a homolgiamodellek leginkbb pontatlan rszei [20].
Oldallnc-modellezs
Az oldallnc-modellezs nehzsge egyb tnyezk kztt ersen fgg a cl s a temp-
ltszekvencia hasonlsgnak foktl s a templtszerkezet minsgtl is. Hasonl fehr-
jk esetn gyakori, hogy a C C torzis szgek is megegyeznek. St, ersen homolg
(> 40%-os szekvenciaazonossg) fehrjknl gyakran (kb. 75% esetben) mg a C is ha-
sonl orientcij.
Kvetkezskppen magas szekvenciaazonossg (> 40%) esetn a konzervlt aminosa-
vak gyakran teljesen tmsolhatak a templtbl a modellszerkezetbe. Sok esetben ez a
megkzelts pontosabb, mint a flncatomok tmsolsa s oldallncok ab initio mdsze-
rekkel val elrejelzse.
Azonban ha szekvenciaazonossg alacsony (< 35%), az oldallncok a modellek s a
templtok 45%-ban klnbzek. Ezekben az esetekben az oldallnc-orientci model-
lezse szksges. A legtbb, oldallnc elrejelzsre rendelkezsre ll eszkz tuds alap
knyvtrakra tmaszkodik. Ezek sok esetben fix knyvtrakat alkalmaznak, amelyek
egy adott oldallnc sszes lehetsges llst troljk. Ms mdszerek helyzetspecifikus
knyvtrakat hasznlnak, s az oldallnc llst a flnc szerkezete/konformcija szerint
vlasztjk ki. Ezek egyszer vltozatai az oldallnc-elrendezdseket a flnc msodlagos
szerkezete (hlix vagy red) alapjn osztlyozzk, mg a kifinomultabbak az oldallnc-
konformcikat a megfelel, nagy felbonts szerkezetekben tallhatak (59) kzl v-
lasztjk ki az eltr flncgrbleteknek megfelelen.
Az oldallnc-konformci elrejelzse ltalban pontosabb a bels, hidrofb rszeknl,
mint a felszni oldallncok esetben. Ez annak a tnynek ksznhet, hogy a mozgkony
hurkok oldallncai amelyek tbbnyire a felsznen vannak jelen tbbfle konformcit
vehetnek fel.
Modelloptimalizls
A flnc templtszerkezethez kpesti beszrsokkal s trlsekkel val kiegsztse s az
oldallnc-modellezs utn a modellszerkezet normalizlshoz tovbbi lpsekre van szk-
sg, fleg a beszrsok s trlsek kzelben (lsd 3.2.1. fejezet). A megfelel erterekkel
vgzett molekulamechanikai energiaminimalizls eltvolthatja a slyos van der Waals
tkzseket s javthatja a ktshossz- s vegyrtkszg-rtkeket is. Ez azonban nem

hozza kzelebb az atomokat tnyleges helyzetkhz. Az energiaminimalizlsok az ener-

giafellet szablytalansga miatt knnyen megragadhatnak a helyi minimumokban. Az
energiaminimalizlt szerkezetek teht gyakran mutatnak kis mrtkben megnvekedett
globlis strukturlis eltrst a nem minimalizlt modellekhez vagy a kiindulsi templtok-
hoz kpest.
Az energiaminimalizls mellett trajektriaszimulci (molekuladinamika, MD) is v-
gezhet hasonl erterekkel. Az MD-mdszerek hasznosak lehetnek a konformcis tr
feltrkpezsre. A trajektria klnbz pontjain vett mintkkal tovbbi, a kiindulsi
modellekkel megegyez jsg modellek nyerhetek [21]. Az MD-elemzs alkalmas lehet a
modellek pontossgnak (vagy hibjnak) jellemzsre is.
Modellrtkels
A hromdimenzis szerkezetek rtkelse klnbz szint pontossgot ignyelhet. Magas
szekvenciaazonossg (> 50%) esetn a vals koordintktl csak kisebb mrtkben elt-
r szerkezetek nyerhetek, gy az rtkelsre alkalmasak lehetnek a ksrleti szerkezetek
esetben hasznlhat eszkzk (pl.: WHAT-CHECK [14]). Kisebb szekvenciaazonossg
(2550%) esetn a modell ltalnos minsge nem korrell, eltrsek lehetnek a norml
sztereokmitl (klnsen energiaminimalizls utn, lsd 3.2.1. fejezet). A nem-kt
atomi klcsnhatsok rtkelsre atomi statisztikai potencilok, pldul ERRAT [22],
ANOLEA alkalmasabbak lehetnek. A modellezsi eredmnyek rtkelsre tovbbi hasz-
nos eszkzk a ProSA [23] s Verify3D [24].
25% alatti szekvenciaazonossgok esetben a modell rtkelst inkbb aminosavanknt
kell elvgezni. Egyes esetekben pontos helyi elemzsre lehet szksg. A hromdimenzi-
s szerkezetrtkel pontszmokkal egyszerre trtn megjelentse hasznos lehet. Egyedi
rtkeket figyelhetnk meg az aktv helyek (vagy kt helyek) vagy ionokkal rintkez
(klnsen fmek koordincijban rszt vev) oldallncok s/vagy mlyen eltemetett li-
gandumok (klnsen a kofaktorok) krnyezetben, mert ilyen esetekben az aminosav-
oldallncok nem-klasszikus krnyezetben vannak. Hasonlan egyedi sajtsgok figyelhet-
ek meg hstabil fehrjk esetben, amelyeket eltemetett krnyezetben lv shidak stabi-
lizlhatnak. Ha ilyen sajtsgokat szlelnk, a modell minsgi rtkelse kiterjeszthet a
templt szerkezetnek rtkelsre is.
3.2.2. Homolgiamodellezsi eszkzk

Napjainkban szmos mdon vgezhetek sszehasonlt modellezsi feladatok. Homol-
giamodellez eszkzk lteznek nll (mind kereskedelmi, mind szabadon felhasznlhat)
programokknt, valamint automatizlt, Web alap szolgltatsokknt is, amelyek ezeket
a technolgikat elrhetv teszik a bioinformatikban nem szakrt kznsg szmra is.
Web alap homolgiamodellez eszkzk

Csaknem kt vtizeddel ezeltt vlt az Interneten elrhetv az els automatizlt modellez
szerver, a SWISS-MODEL [25].

Az az igny volt a homolgiamodellezsi lpsek [templtkivlaszts, cl-templt ssze-

rendezs, modellezs s a modell minsgrtkels (3.3. bra)] automatizlsnak f haj-
tereje, hogy vljanak ezek a technolgik nyilvnosan elrhetv a szlesebb kznsg
szmra is. Azta szmos tovbbi, fehrjk automatizlt homolgiamodellezst lehetv
tev eszkzket knl szolgltats jtt ltre [26].
A kvetkez rszben az on-line rendelkezsre ll sszehasonlt fehrjemodellez esz-
kzk listjt mutatjuk be.
SWISS-MODEL. Teljesen automatizlt homolgiamodellez szerver (elrhet az Ex-
PASy Web-oldalrl, vagy a DeepView Swiss-PdbViewer programbl).
ModWeb. Proteinmodellez szerver. (A MODELLER programot hasznlja; licensz-
kulcs szksges.)
Robetta. Rosetta homolgiamodellez szoftvert hasznl Web-szerver (ab initio fragmens-
sszellts Ginzu domn predikcival).
HHpred. A HHpred szerver a templt alap szerkezetmodellezsek egyik legjobbjnak
bizonyult (No 1 szervernek tlve a CASP9 sorn).
I-TASSER. Web-szerver fehrjeszerkezet s funkci predikcijhoz. A modellek
LOMETS ltal vgzett tbbszrs szerkezeti sszerendezsek s iteratv TASSER szimu-
lcik segtsgvel kszlnek. (No 1 szervernek tlve a CASP8 s CASP10 sorn.)
Phyre2 . Fehrjehomolgia/analgia felismers (Protein Homology/analogY Recogniti-
on Engine).
M4T. sszehasonlt modellez szerver, tbbszrs templttechnika, iteratv optima-
lizls s alternatv sszerendezsek tvzsvel.
3D-JIGSAW. Proteinek 3D modelljeit pt szerver ismert szerkezet homolgok fel-
hasznlsval s fragmens alap modellezssel.
RaptorX szerkezet predikci. Web-szolgltats msodlagos szerkezet, oldszer elr-
hetsg, rendezetlen rgik s harmadlagos szerkezetek elrejelzsre szekvencia alapjn.
(Kifejezetten alkalmas fehrjeszekvencikbl 3D szerkezetek elrejelzsre kzeli homol-
gok nlkl. RaptorX csomag formjban is elrhet.)
QUARK. On-line szolgltats, elssorban megfelel templt nlkli szerkezetek model-
lezsre (ab initio fehrjehajtogats s fehrjeszerkezet-predikci. No 1 szervernek tlve a
templtmentes modellezsben (FM) a CASP9 s CASP10 sorn).
GeneSilico Metaserver. Hozzfrst biztost klnbz fehrjeszerkezeti elrejelzsi
mdszerekhez: elsdleges szerkezet, msodlagos szerkezet, transzmembrn hlix, rende-
zetlen rgik, diszulfid ktsek, fehrjk nukleinsavkt helyei, harmadlagos szerkezet.
Proteinmodell-adatbzisok
Ez a fejezet olyan nyilvnosan elrhet adatbzisokat sorol fel, amelyek proteinmodellezsi
mdszerekkel elksztett fehrjemodell-szerkezeteket gyjtenek ssze.
SWISS-MODEL Repository. Lersokkal elltott fehrjeszerkezeti modellek, melyeket
automatizltan ksztettek az sszehasonlt modellezst vgz SWISS-MODEL szerverrel.
ModBase. Lersokkal elltott fehrjeszerkezeti modellek adatbzisa, melyeket a mo-
dellez automata ModPipe (valamint a PSI-BLAST s MODELLER programok) segts-

gvel ksztettek.
(Tovbbi adatok hajtogats-hozzrendelsrl, felttelezhet ligand-kthelyekrl s protein-
protein klcsnhatsokrl.)
Protein Model Portal (PMP). Hozzfrst biztost klnbz sszehasonlt modellez-
si mdszerekkel partneroldalak ltal szmtott modellekhez, s elrhetv tesz klnbz
modellptsre s rtkelsre alkalmas interaktv szolgltatsokat.
A homolgiamodellezs szoftverei
MODELLER. Szoftver fehrje-homolgiamodellek ellltsra trbeli korltozsok leg-
jobb kielgtsnek felhasznlsval. Ingyenes tudomnyos hasznlatra. Kereskedelmi
vltozata grafikus felhasznli fellettel elrhet az Accelrys-tl.
ProModel. Szoftveregyttes homolgiamodellezshez akr egy kivlasztott templt,
akr a felhasznl ltal megadott templt segtsgvel. Modellezs kzi zemmdban
(mutci, kimetszs, trls, beilleszts vagy hurokbeilleszts), vagy automata mdban. A
clfehrje szerkezetnek, aktv helynek s csatorninak elemzsre alkalmas. Elrhet a
Vlife-tl.
Prime. Teljesen integrlt fehrjeszerkezeti elrejelzs-program grafikus fellettel: szek-
venciailleszts, msodlagos szerkezet elrejelzse, homolgiamodellezs, proteinfinomts,
hurok- valamint oldallnc-elrejelzs. A Schrdinger cg fejlesztse.
DeepView Swiss-PdbViewer. nll programegyttes, amely egyttmkdik az Ex-
PASy web site teljesen automatizlt SWISS-MODEL homolgiamodellez szervervel.
TASSER-Lite. Fehrjeszerkezetet sszehasonlt modellez eszkz, csak a clprote-
in/templt prok > 25% szekvenciaazonossga esetn mkdik. Egydomnes, 41200
aminosav hosszsg fehrjk modellezsre optimalizlt. Non-profit hasznlatra ingye-
nes.
Rosettahome. nll program a Rosetta algoritmus hasznlatra (ab initio fragmens
sszellts Ginzu domn becslssel). Csak nem kereskedelmi hasznlatra.
Rosetta CM. A Rosetta kivl szoftvercsomag makromolekulris szerkezetek model-
lezsre. Rugalmas, tbbcl alkalmazs, amely a fehrjk s nukleinsavak szerkezet-
elrejelzsre, tervezsre s talaktsra alkalmas eszkzket tartalmaz. Nem kereske-
delmi hasznlatra ingyenes.
Molide. Nylt forrskd, tbbplatformos grafikus krnyezet homolgiamodellezsre.
Alkalmas a modellezs leggyakoribb lpseinek megvalstsra. Nem kereskedelmi hasz-
nlatra ingyenes.
3.3. Molekuladokkols
Ha egy fehrje atomi szint hromdimenzis szerkezete elrhet, vizsglhatv vlnak
olyan jellemzi, mint alakja, felleti tulajdonsgai, regek jelenlte. A fehrje sajt tulaj-
donsgainak vizsglata mellett az adott fehrje ms molekulkkal (mint pldul klnbz
kismret ligandumok vagy ms biolgiai makromolekulk, fehrjk vagy nukleinsavak)
trtn klcsnhatsaira vonatkoz informcik is igen fontosak.

A molekulris modellez eszkzk kzl a molekuladokkols olyan mdszer, amely

megjsolja egy molekula (ltalban egy ligandum vagy akr egy biolgiai makromoleku-
la) elnys elrendezdst egy msikhoz (ltalban egy biolgiai makromolekula) ktdve
alkotott stabil komplexben. Az elnys elrendezds ismeretben a kt molekula k-
ztti asszocici vagy ktserssg becslhet. Ezek az adatok felhasznlhatak pld-
ul funkci-elrejelzsek, enzimmechanizmus-vizsglatok, in silico gygyszertervezs vagy
rendszerbiolgiai vizsglatok sorn.
A dokkolsi mdszereket kt osztlyba sorolhatjuk [27]: i) az egyik empirikus rtkelst
alkalmaz, gy gyorsabb; ii) a msik szabadenergia-szmtsokat hasznl, gy nagyobb sz-
mtsigny. Az els megkzelts a trbeli megfelels technikjt hasznlja, a clfehrjt
s a dokkol molekult egymst kiegszt felletekknt kezeli. A msodik megkzelts
a tnyleges dokkolsi folyamatot szimullja a clfehrje-dokkol molekula pronknti kl-
csnhatsi energiit szmtva. Egy adott dokkolprogram sikeressge kt f tnyeztl
fgg: a keressi algoritmustl s az rtkel mdszertl [27].
A ligandumra/clmolekulra klnbz keressi stratgik alkalmazhatak, mint pl-
dul
i) szisztematikus vagy sztochasztikus torzis keressek elforgathat ktsek krl;
ii) molekuladinamikai szimulcik vagy
iii) genetikus algoritmusok j, alacsony energij konformcik evolcijra.
A dokkol molekula termszete szerint is osztlyozhatjuk a dokkolsi mdszereket:
i) fehrje/kismolekula;
ii) fehrje/peptid;
iii) fehrje/fehrje vagy
iv) fehrje/nukleinsav dokkols.
3.3.1. Fehrjeligandum klcsnhats-elrejelzsek

A molekulris felismers kulcsfontossg szerepet jtszik az alapvet biomolekulris tr-
tnsek, mint pldul az enzimszubsztrt, a gygyszerfehrje s gygyszernukleinsav kl-
csnhatsok sorn. A fehrje-ligandum dokkols alkalmas molekulris modellez eszkz
ilyen klcsnhatsok tanulmnyozsra [28]. A 3.6. bra azt mutatja, hogy dokkolsi md-
szerek mg akkor is sikeresen alkalmazhatak, ha nem ll rendelkezsre ksrleti fehrje
szerkezete.
A dokkol mdszerek a ligandum s a clfehrje flexibilitstl fggen klnbzhet-
nek [27][29]. A legtbb dokkol mdszer lehetv teszi a ligandum flexibilitst, s an-
nak tbb konformcijt is figyelembe veszi. Ezzel szemben a jelenleg hasznlt dokkolsi
mdszerek tbbsge a clfehrjt egy adott konformciban rgztettknt kezeli. Ezt a
megkzeltst ltalban a sebessg s egyszersg miatti megfontolsbl alkalmazzk, el-
kerlve ezzel a kthely flexibilitsnak pontos kezelsvel jr jelentsen megnvekedett
szmtsignyt. Vannak fehrjeflexibilitst megenged sikeres erfesztsek is, ezek pon-
tatlanabb mdszerek javtsban segthetnek (pl. pontosthatak a receptormodellekbe
trtn dokkolsok).

3.6. bra. A bFGF/heparin komplex ksrleti szerkezet (jobbra) s egy dokkolsi mdszer-
rel nyert modell (balra) sszehasonltsa. Ez a dokkolsi problma komoly tesztje, mivel
a dokkolshoz hasznlt fehrjeszerkezet nem ksrleti szerkezet, hanem homolgiamodell.
Emellett a dokkols sorn hasznlt heparin-prbamolekula a modellben egy pentaszacha-
rid, mg az ismert szerkezet komplexben hexaszacharid. Ez jelzi, hogy a nvekedsi
faktorok heparin kthelyeit ltalnos prbamolekulk s fehrje-homolgiamodellek se-
gtsgvel is azonostani lehet. [Az MJ Forster sszefoglaljban [15] kzlt bra Elsevier
kiad ltal engedlyezett reprodukcija]
Szmos, tbb lehetsget knl dokkol eszkz ll rendelkezsre, a kis ligandumok

merev fehrjkbe trtn egyszer dokkolstl a flexibilis ligandum / flexibilis kthely
prostst akr fehrje-fehrje klcsnhatsok esetben is megengedkig. Ezek pldul az
AutoDock, DOCK, Gold, FlexX, VLifeDock, and ArgusLab. AutoDock, DOCK, Gold,
FlexX, VLifeDock vagy az ArgusLab.
3.3.2. Fehrjebiomakromolekula klcsnhats-elrejelzsek

Dokkolsi mdszerekkel fehrjk s tovbbi biomakromolekulk klcsnhatsai is vizsgl-
hatak. Br a fehrje-fehrje [29] vagy a fehrje-nukleinsav [30] dokkols is megvalsthat,
a legsikeresebb megkzeltsek az ilyen dokkolsokat tovbbi ksrleti adatok pl. NMR
vagy elektronmikroszkpia (lsd Fehrjeszerkezet-meghatrozs ksrleti mdszerei feje-
zet) felhasznlsval egsztik ki [31].
A jelenlegi biomakromolekulris dokkol mdszerek rengeteg dokkolt konformcit r-
tkelnek ki a felletek komplementaritsnak mrtkt minst egyszer mdszerekkel. E
mdszerek azonban a natv-kzeli llapotok mellet sok hamis pozitv tallatot adnak, azaz
a szerkezetek felleti komplementaritsa j, de a ngyzetes kzprtk-eltrsek (RMSD)
nagyok. Jelents erfesztsek trtntek olyan mdszerek fejlesztsre, melyek alkalmasak
a hamis pozitv tallatok kiszrsre. Br ezek az eljrsok javtjk ezt a helyzetet, s

gy mr ltalban tallhat a legjobb 10100 szerkezet kztt olyan konformci, mely-

nl az RMSD kevesebb, mint 5 , a legjobbaknak sorolt legtbb komplex szerkezete mg
tovbbra is messze a van a natvtl [32].
A tbbnyire kis molekula-fehrje klcsnhatsokat kezelni kpes dokkol eszkzk (3.3.1.
fejezet) mellett biomakromolekulknak (tbbnyire fehrjknek) a clfehrjkre trtn
dokkolst lehetv tv eszkzk is elrhetek. Ilyenek pl. a HADDOCK, ClusPro,
RosettaDock, ZDOCK, GRAMM-X vagy a Hex.

Irodalomjegyzk
[1] Berman H, Henrick K, Nakamura H, Markley JL (2007) The worldwide Protein Data
Bank (wwPDB): ensuring a single, uniform archive of PDB data. Nucl Acids Res.
35(suppl 1): D301D303.
[2] Keshava Prasad TS, Goel R, Kandasamy K, Keerthikumar S, Kumar S, Mathivanan

S, Telikicherla D, Raju R, Shafreen B, Venugopal A, Balakrishnan L, Marimuthu A,
Banerjee S, Somanathan DS, Sebastian A, Rani S, Ray S, Harrys Kishore CJ, Kanth S,
Ahmed M, Kashyap MK, Mohmood R, Ramachandra YL, Krishna V, Rahiman BA,
Mohan S, Ranganathan P, Ramabadran S, Chaerkady R, Pandey A. (2009) Human
Protein Reference Database 2009 update. Nucleic Acids Res. 37(Database issue):
D767D772.
[3] (a) Kopp J, Schwede T (2004) Automated protein structure homology modeling: a
progress report. Pharmacogenomics. 5(4): 405416; (b) Jaroszewski L (2009) Protein
structure prediction based on sequence similarity Meth Mol Biol. 569: 129156.
[4] Orry AJ, Ruben Abagyan R (Eds.) (2012) Homology Modeling: Methods and Proto-
cols (Meth Mol Biol. 857, ISBN: 978-1-61779-587-9), Humana Press, Totowa.
[5] Browne WJ, North AC, Phillips DC, Brew K, Vanaman TC, Hill RL (1969) A possible
three dimensional structure of bovine alpha-lactalbumin based on that of hens egg-
white lysozyme. J Mol Biol. 42:6586.
[6] (a) Magrane M, UniProt Consortium (2011) UniProt Knowledgebase: a hub of in-
tegrated protein data. Database. bar009; (b) UniProt Consortium (2013) Update on
activities at the Universal Protein Resource (UniProt) in 2013. Nucleic Acids Res.
41(Database issue): D43D47.
[7] Maglott D, Ostell J, Pruitt KD, Tatusova T (2011) Entrez Gene: gene-centered in-
formation at NCBI. Nucleic Acids Res. 39(Database issue): D52D57.
[8] Schwede T (2013) Protein Modeling: What Happened to the Protein Structure Gap?
Structure 21, 15311540.
[9] Baker D, Sali A (2001) Protein structure prediction and structural genomics. Science
294(5540): 9396.

[10] (a) Baker D (2000) A surprising simplicity to protein folding. Nature 405: 3942;
(b) Bonneau R, Baker D (2001) Ab initio protein structure prediction: progress and
prospects. Annu Rev Biophys Biomol Struct. 30: 173189.
[11] Marti-Renom MA, Stuart A, Fiser A, Sanchez R, Melo F, Sali A (2000) Comparative
protein structure modeling of genes and genomes. Annu Rev Biophys Biomol Struct.
29: 291325.
[12] Fiser A, Sanchez R, Melo F, Sali A (2001) Comparative protein structure modeling. In:
Watanabe M, Roux B, MacKerell AD, Jr, Becker O, eds. Computational Biochemistry
and Biophysics. New York: Marcel Dekker. pp 275312.
[13] (a) Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local align-
ment search tool. J Mol Biol 215: 403410; (b) Altschul SF, Madden TL, Schaffer A,
Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Gapped BLAST and PSI-BLAST:
a new generation of protein database search programs. Nucleic Acids Res. 25: 3389
3402.
[14] Hooft RWW, Vriend G, Sander C, Abola EE (1996) Errors in protein structures.
Nature 381: 272272.
[15] Forster MJ (2002) Molecular modelling in structural biology. Micron 33: 365384.
[16] (a) Deane CM, Blundell TL (2001) Improved protein loop prediction from sequence
alone. Protein Eng 14: 473478; (b) Deane CM, Kaas Q, Blundell TL (2001) SCORE:
predicting the core of protein models. Bioinformatics 17: 541550; (c) Pei J, Sadreyev
R, Grishin NV (2003) PCMA: fast and accurate multiple sequence alignment based
on profile consistency. Bioinformatics 19: 427428.
[17] Errami M, Geourjon C, Deleage G (2003) Detection of unrelated proteins in sequences

multiple alignments by using predicted secondary structures. Bioinformatics 19: 506
512.
[18] Mizuguchi K, Deane CM, Blundell TL, Johnson MS, Overington JP (1998) JOY:
protein sequence-structure representation and analysis. Bioinformatics. 14: 617623.
[19] Fiser A, Sali A (2003) Comparative protein structure modeling. In: Chasman D, ed.
Protein Structure Determination, Analysis, and Applications for Drug Discovery.
New York: Marcel Dekker, pp. 167206.
[20] Moult J, James MN (1986) An algorithm for determining the conformation of poly-
peptide segments in proteins by systematic search, Proteins 1: 146163.
[21] Flohil JA,Vriend G,Berendsen HJC (2002) Completion and refinement of 3-D homo-
logy models with restricted molecular dynamics: Application to targets 47, 58, and
111 in the CASP modeling competition and posterior analysis. Proteins 48: 593604.

[22] Colovos C, Yeates TO (1993) Verification of protein structures: patterns of nonbonded

atomic interactions. Protein Sci. 2(9): 15111509.
[23] Sippl MJ (1993) Recognition of Errors in Three-Dimensional Structures of Proteins.
Proteins 17, 355362; (b) Wiederstein M, Sippl MJ (2007) ProSA-web: interactive
web service for the recognition of errors in three-dimensional structures of proteins.
Nucleic Acids Research 35, W407W410.
[24] Eisenberg D, Luthy R, Bowie JU (1997) VERIFY3D: assessment of protein models
with three-dimensional profiles. Meth Enzymol. 277: 396404.
[25] Guex N, Peitsch MC, Schwede T (2009) Automated comparative protein structure
modeling with SWISS-MODEL and Swiss-PdbViewer: a historical perspective. El-
ectrophoresis 30(Suppl 1): S162S173.
[26] (a) Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007) Automated
server predictions in CASP7. Proteins 69: 6882; (b) Brazas, M.D., J.T. Yamada,
and B.F. Ouellette (2010) Providing web servers and training in Bioinformatics: 2010
update on the Bioinformatics Links Directory. Nucleic Acids Res. 38(Suppl), W3W6.
[27] Halperin I, Ma BY, Wolfson H, Nussinov R (2002) Principles of docking: An overview
of search algorithms and a guide to scoring functions. Prot Struct Func Genetics 47:
409443.
[28] (a) Mohan V, Gibbs AC, Cummings MD, Jaeger EP, DesJarlais RL (2005) Docking:
Successes and Challenges. Current Pharmaceutical Design, 2005, 11, 323333; (b)
Huang SY, Zou X (2010) Advances and challenges in protein-ligand docking. Int J
Mol Sci. 11: 30163034; (c) Yuriev E, Agostino M, Ramsland PA (2011) Challenges
and advances in computational docking: 2009 in review. J Mol Recogn. 24: 149164.
[29] (a) Pons C, Grosdidier S, Solernou A, Perez-Cano L, Fernandez-Recio J (2010) Present
and future challenges and limitations in proteinprotein docking. Proteins 78: 95108;
(b) Li B, Kihara D (2012) Protein docking prediction using predicted proteinprotein
interface. BMC Bioinform 13: 7.
[30] Roberts VA, Pique ME, Ten Eyck LF, Li S (2013) Predicting proteinDNA in-
teractions by full search computational docking. Prot Struct Funct Bioinf, doi:
10.1002/prot.24395.
[31] Melquiond ASJ, Bonvin AMJJ (2010) Data-driven docking: using external informa-
tion to spark the biomolecular rendez-vous. In: Proteinprotein complexes: analysis,
modelling and drug design. Ed.: Zacharrias M, Imperial College Press, London, pp.
183209.
[32] Zacharias M (2010) Accounting for conformational changes during proteinprotein
docking. Curr Opin Struct Biol 20(2), 180186.

4. fejezet
Fehrjeszerkezet-meghatrozs ksrleti
mdszerei s egyszer
fehrjeszerkezet-predikcik
4.1. Bevezets
A bioinformatika legfontosabb clja, hogy ismeretlen szerkezet s/vagy funkcij fehrjk
szekvenciihoz szerkezeti s/vagy funkcionlis adatokat rendeljen a hozz hasonl, ismert
szerkezet s/vagy funkcij szekvencik kztti keresssel. E cl elrse rdekben hat-
kony s megbzhat mdszerek szksgesek ahhoz, hogy a fehrjkhez szerkezeti adatokat
rendelhessnk. E fejezet a fehrjk msodlagos szerkezetnek jellemzsre s hromdimen-
zis szerkezetk atomi szint meghatrozsra alkalmas ksrleti mdszereket mutatja be.
A klnbz bioinformatikai eljrsok sorn a fehrjeszekvencik azonostst s ele-
mezst klnbz szinteken vgezhetjk.
4.1.1. A fehrjeazonosts eszkzei

A fehrjk azonostsa a proteomikai kutats fontos krdse. A fehrjk azonostsra tbb
mdszer ll rendelkezsre, a kis felbonts technikktl (pl. azonosts izoelektromos
pontja, molekulatmege s/vagy aminosav-sszettel) kezdve a pontosabb azonostsra
s jellemzsre alkalmas peptid MS-ujjlenyomat-adatokon t az olyan nagy felbonts
technikkig, mint a kapcsolt tmegspektrometriai eljrsok.
Szmos web-alap fehrjeazonostsi szolgltats rhet el az ExPASY proteomikai
szerveren kis felbonts fehrjeazonostsi clokra. Ilyen az AACompIdent (a fehrje
azonostsa aminosav-sszettelbl), az AACompSim (egy UniProtKB/Swiss-Prot szek-
vencia aminosav-sszettelnek sszehasonltsa a tbbi szekvencival), a TagIdent vagy a
MultiIdent (fehrje azonostsa izoelektromos pont, pI; molekulatmeg, M W ; szekvencia-
cmke vagy MS-ujjnyomatadatok alapjn az adott pI s M W rtkekhez kzeli fehrjk
felsorolsval).

4. Fehrjeszerkezet-meghatrozs ksrleti mdszerei s egyszer fehrjeszerkezet-predikcik 57
Sok peptidazonostsi szolgltats alapul MS-ujjlenyomatokon (fehrjk nem specifikus

hastsval kpzd peptidek elemzse s azonostsa ksrleti tmegeik alapjn), pldul a
Mascot, a PepMAPPER, a FindMod, a ProFound, a FindPept vagy a ProteinProspector.
E szolgltatsok ltalban kpesek figyelembe venni vagy elre jelezni a peptidekben le-
hetsges fehrje poszt-transzlcis mdostsokat, az egy-aminosav helyettestseket vagy
protezok autolitikus hastst. A ksrletileg meghatrozott peptidtmegeket hasonltjk
ssze az adott adatbzis-szekvencia vagy a felhasznl ltal bevitt szekvencia alapjn ki-
szmtott elmleti peptidekkel, s a tmegklnbsgeket hasznljk az adott fehrje jobb
jellemzsre.
Bonyolultabb fehrje azonostst/elemzst tesz lehetv a kapcsolt tmegspektromet-
riai (MS/MS) mdszerek hasznlata. Az ExPASY proteomikai szerveren tbb web-alap
fehrje s peptid azonostsi/jellemzsi szolgltats ll rendelkezsre MS/MS adatok alap-
jn, pldul a hrefhttp://web.expasy.org/quickmod/QuickMod, a Phenyx, a Mascot, az
OMSSA, a PepFrag vagy a ProteinProspector. Ezek a szolgltatsok az MS/MS pep-
tidspektrumok azonostst ltalban ismert proteinszekvencik tmegspektrum-knyv-
trakban trtn keressekkel vgzik.
4.1.2. Egyszer fehrjeanalzis

A fehrjeazonostsi eszkzk mellett tovbbiak llnak rendelkezsre fehrjeszekvencik
statisztikai elemzsre (pl. aminosav- s atomsszettel), egy fehrjeszekvencia ltal kdolt
fehrje egyszer fiziko-kmiai paramtereinek elrejelzsre (pI, hidrofobicits, extinkcis
egytthat stb.), ismtld proteinszekvencik felismersre vagy domnek/rgik elre-
jelzsre (mint pl. cink-ujjlenyomat vagy peptidkt rgik).
Szmos web-alap szolgltats ll rendelkezsre a ExPASY proteomikai szerveren ilyen
egyszer fehrjeelemzsekre, mint pldul a ProtParam (fehrjeszekvencia alapjn fizikai-
kmiai paramtereket szmol: aminosav- s atomsszettel, pI, extinkcis egytthat
stb.), a Compute pI/Mw (kiszmtja a felhasznl vagy egy MW SWISS-PROT/TrEMBL
szekvencijra az elmleti pI s M W rtkeket) vagy a ProtScale (aminosav szint adatok:
hidrofobicits, egyb konformcis paramterek stb.).
4.1.3. A fehrjeszerkezet-elrejelzs szintjei s nehzsgei

A fehrjeszerkezet-elrejelzs ltalnos clja, hogy egy fehrje(szekvencia) esetn megha-
trozza a szabadentalpia globlis minimumnak megfelel konformcit. Kis modellekkel
igazolhat volt, hogy ez a problma n. NP-nehz. Mivel a megoldshoz a szksges id
nem polinomilisan (hanem jobban) n a (fehrje)mrettel, egy bizonyos mret felett a
problmt nem lehet megoldani. Vals fehrjk esetben azonban a problma kezelhet,
mivel a vals fehrjk szekvencii meglehetsen specifikusak (evolci ltal kivlasztottak),
gy a mr ismert szerkezetek felhasznlhatak pldul a tuds-bzis alap elrejelzsek so-
rn.
A fehrjeszerkezet-elrejelzsek szintje eltr lehet az 1D elrejelzsektl a 2D szerkezeti
adatokon t az atomi szint 3D szerkezetekig.

Egydimenzis elrejelzsek esetben a jellemzk egyedi aminosavakhoz rendelhetek

s az eredmnyt 1D karaktersorral lehet lerni. Ilyen esetek a msodlagos szerkezet, az
oldszer-hozzfrhetsg, a hidrofb transzmembrn hlix vagy rendezetlen rgik elre-
jelzse.
Tbb web-alap szolgltats ltezik klnbz egydimenzis elrejelzsekre az Ex-
PASY proteomikai szerveren. Ezekkel fehrjeszekvencikban jsolhat pldul a fehrje
msodlagos szerkezete (APSSP, CFSSP, GOR, Porter, SOPMA), a fehrjefelleti elrhet-
sg (NetSurfP), -kanyarok (NetTurnP) vagy heliklis transzmembrn rgi (HTMSRAP)
jelenlte. Egyes szerverek tbbfle elrejelzst, valamint konszenzus-elrejelzseket is le-
hetv tesznek (Jpred, PredictProtein, PSIpred, Scratch Protein Predictor) (4.1. bra).
4.1. bra. Tbbszrs / konszenzus-elrejelzsek a tyktojs-lizozim fehrje msodlagos

szerkezetre s az oldszer-hozzfrhetsgre (az elemzs a PredictProtein szolgltatssal
kszlt).
A fehrjk 2D elrejelzshez aminosavprok kztti tvolsgok, klcsnhatsok

elrejelzse szksges. Ugyanakkor ha minden oldallnc-klcsnhatst elre tudnnk je-
lezni, lehetv vlna a 3D-s szerkezet ptse (lsd ksbb a fehrje NMR mdszereknl).
Ahhoz, hogy megbecsljk az oldallnc-klcsnhatsokat, a kvetkez adatokat lehet
figyelembe venni: a szekvenciban egymstl tvoli aminosavak kzti korrellt mutcik;
statisztikai adatok; tlagos trpotencilok. A fehrje-2D-elrejelzsek sorn gyakran ne-
urlis hlzatokat alkalmaznak. Az eddigi erfesztsek ellenre mind a mai napig nem
igazn sikerlt hatkony fehrje-2D-elrejelzsi mdszereket fejleszteni.
4.2. Fehrjk msodlagos szerkezetnek ksrletes vizs-

glata
A cirkulris dikroizmus (CD) szles krben hasznlt technika fehrjk konformcijnak
s stabilitsnak spektroszkpiai vizsglathoz olyan vltoz krnyezeti felttelek mellett,
mint a hmrsklet, az ionerssg, vagy ms oldott anyagok, illetve kis molekulk jelen-
lte [1, 2]. A CD-spektroszkpia roncsolsmentes, viszonylag knnyen kezelhet, gyors
s csak kis mennyisg mintt s adatgyjtst ignyel. A szinkrotron sugrzsos cirku-
lris dikroizmus (SRCD) spektroszkpia (a szinkrotron nagyobb fluxusa lehetv teszi az

adatgyjtst alacsonyabb hullmhosszon) kiterjeszti a hagyomnyos CD-spektroszkpia (a

laboratriumi alap eszkzk) alkalmazsi lehetsgeit [3].
4.2.1. Fehrje cirkulris dikroizmus (CD)

A CD-spektroszkpia a sajt kiralits vagy kirlis krnyezetben lv kromofrok ltal a
balra s jobbra cirkulrisan polarizlt sugrzs elnyelse kztti klnbsgen alapul. A
fehrjkben szmos, CD-jeleket eredmnyez kromofr van jelen [1, 2]. A peptidktsek
elnyelsnek megfelel tvoli UV-rgiban (160260 nm) a CD-spektrum informcit nyjt
az olyan msodlagos szerkezeti elemekrl, mint pldul az -hlix s a -red (4.2. bra).
4.2. bra. A tvoli UV-CD-spektrum kapcsolata a klnbz tpus msodlagos szerkezeti

elemekkel. Folytonos vonal: -hlix, hossz szaggatott vonal: anti-paralell -red, szag-
gatott vonal: I. tpus -kanyar, thzott szaggatott vonal: kibvtett 31-hlix vagy poli
(Pro) II hlix, rvid szaggatott vonal: szablytalan szerkezet. [Az S. M. Kelly s munka-
trsai sszefoglaljban [2] kzlt bra Elsevier kiad ltal engedlyezett reprodukcija]
A kzeli UV rgiban (320260 nm) a CD-spektrum az aroms aminosav-oldallncok

krnyezettl fgg, s gy informcit szolgltat a fehrje harmadlagos szerkezetrl. A
CD-jelek olyan ms, nem fehrje eredet kromofroktl is eredhetnek, mint pldul flavin-
s hemcsoportok, teht a teljes spektrum az sszes rintett kromofr krnyezeti llapottl
fgg. Viszonylagos egyszersge miatt a CD alkalmas arra, hogy adatokat szolgltasson
a fehrje szerkezetrl, a szerkezetvltozsok s ligandkts mrtkrl s sebessgrl.

CD-mdszerek hasznlhatak fehrjk vagy fehrjefragmensek szerkezeti stabilitsnak s

tekeredsi jelensgeinek tanulmnyozsra. A CD rendkvl hasznos techniknak bizonyult
membrnfehrjk szerkezeti integritsnak vizsglatra. Lthat, hogy a CD a szerkezeti
biolgia egy sokoldal mdszere, melyet ennek megfelelen egyre szlesebb krben alkal-
maznak [1, 2].
4.2.2. Szinkrotron besugrzsos cirkulris dikroizmus (SRCD)

Amellett, hogy a laboratriumi eszkzk alap CD-spektroszkpia a strukturlis biolgia
jl bevlt mdszere, a szinkrotronsugrzsos cirkulris dikroizmus (SRCD) spektroszk-
pia kiterjeszti a hagyomnyos CD-spektroszkpia alkalmazhatsgt. A szinkrotron nagy
fluxusa lehetv teszi a CD-mrst alacsonyabb hullmhosszon (gy nagyobb informci-
tartalom rhet el), nagyobb jel-zaj szint spektrumok felvtelt, valamint vizsglatokat
elnyelssel rendelkez komponensek (pufferek, sk, lipidek s detergensek) jelenltben [3].
Az SRCD-spektroszkpia teht fontos statikus s dinamikus szerkezeti informcikat adhat
az oldott fehrjkrl s olyan fehrje-klcsnhatsokrl, mint pldul az akr merevtest-,
akr induklt-illeszkedsi mechanizmussal kpzd fehrje-fehrje vagy fehrje-lipid komp-
lexek [3].
A CD- s SRCD- spektrumok s a hozzjuk tartoz metaadatok archivlsra, elrsre
s elemzsre jtt ltre nyilvnosan elrhet web-alap bioinformatikai forrsknt a Protein
Circular Dichroism Data Bank (PCDDB) [4].
4.2.3. Ksrleti mdszerek fehrjk atomi szint szerkezetnek meg-

hatrozsra
Egy fehrje atomi szint szerkezetnek meghatrozsra tbb mdszer is alkalmazhat.
Ilyenek a rntgenkrisztallogrfiai, neutrondiffrakcis, elektronmikroszkpiai s elektron-
diffrakcis mdszerek (ezek kristlyos llapot fehrjeszerkezeteket szolgltatnak), s az
NMR spektroszkpia (ez mind oldat, mind szilrd llapot szerkezeteket adhat).
Szem eltt kell tartani, hogy minden egyes mdszernek vannak elnyei s htrnyai. Az
atomi pontossg vgs modellt a tudsok minden esetben tbb rszinformci sszell-
tsval nyerik. Kiindulsknt a tudsok ksrleti adatokat gyjtenek a molekula szerkeze-
trl. Az NMR-spektroszkpia esetben az egymshoz kzel elhelyezked atomok kztti
tvolsgok nyjtanak informcit a helyi konformcirl. Rntgenkrisztallogrfia esetn
a kiindulsi adat a rntgendiffrakcis mintzat. Elektronmikroszkpnl a molekula teljes
formjnak kpe a kiindulsi pont.
Ezrt a kezdeti, ksrleti informci szinte egyetlen esetben sem elegend nllan a
szerkezet atomi pontossg meghatrozsra. A szerkezet meghatrozshoz a moleku-
lra vonatkoz tovbbi informcikra is szksg van. A fehrje mr ismert aminosav-
szekvencija vagy az atomok fehrjkben megszokott geometrija (pl. a ktshosszak s
ktsszgek) gyakran szolglnak ilyen adatknt. A hasonl kiegszt adatok birtokban
a tudsok kpess vlnak olyan modellek ltrehozsra, amelyek sszhangban llnak mind

a kezdeti ksrleti adatokkal, mind az ismert szekvencival s a fehrjk szoksos geomet-

rijval.
Kvetkezskppen a ksrleti makromolekulris szerkezetek mindig ksrleti adatokat
s szmtgpes predikcikat klnbz arnyban tartalmaz modellek. A nagyfelbont-
s kristlyszerkezetekben a nehzatomok atomi koordintit tlnyomrszt a diffrakcis
adatok hatrozzk meg [5], mg a kevesebb ksrleti megfigyelsre tmaszkod mdszerek
sokkal nagyobb mrtkben alapulnak olyan szmtstechnikai eszkzkn, melyek a tr-
beli adatok rtelmezsvel ksztenek szerkezeti modelleket (pl. magmgneses rezonancia
[NMR], elektronmikroszkpia [EM], kisszg rntgenszrs [SAXS], fluoreszcenciarezonan-
cia-energiatranszfer [FRET]) [6]. Nem meglep teht, hogy mg a viszonylag j minsg
ksrleti rntgenszerkezetek is tartalmaznak kijavtand hibkat (4.3. bra) [5]. Ha te-
ht ksrleti szerkezetek alapjn szeretnnk kvetkeztetseket levonni, legynk mindig egy
kicsit kritikusak. Ne feledjk, hogy a PDB adatbzis [7] szerkezeteit is ksrleti adatok
s a tuds alap modellezs egyttes alkalmazsval hatroztk meg. Ezrt mindig ta-
ncsos ellenrizni, hogy az adott szerkezetre vonatkoz ksrleti adatok tmogatjk-e az
adott szerkezeti modellt, s hogy a tudomnyos kvetkeztetseket megfelel modell alapjn
vontuk-e le.
4.3. bra. A Thr 32 loklis hibjnak kijavtsa egy rgebbi, 1,7 felbonts szerkezetben
(1SBP). (A) Az 1SBP [8] ezen oldallnca komoly tbbatomos trbeli tkzst (vrs ts-
kk) okozott, nem voltak hidrognktsei, az N-C-C s C2-C-O1 tetraderes szgek
(jellve) rosszak. (B) Az oldallnc 180 elfordts utn mr j geometrij, tkzsmen-
tes, van kt hidrognktse, s jobban illeszkedik az elektronsrsghez. [Az R. J. Reed
s munkatrsai ltal [5] kzlt bra Elsevier kiad ltal engedlyezett reprodukcija]
A ksrleti szerkezet meglte lehetv teszi szmunkra a szerkezet elemzst. Atomi

szint szerkezetek alapjn lehetsges a fehrjeszerkezet minsgnek elemzse, tltsek,
felletek, regek vagy msodlagos szerkezet vizsglata. Emellett szerkezeti motvumok
azonosthatak vagy vizsglhat klcsnhats ligandumokkal, ill. ms biomolekulkkal.

4.2.4. Fehrje-rntgenkrisztallogrfia
A PDB adatbzisban [7] elhelyezett szerkezetek tbbsgt rntgenkrisztallogrfia [9] se-
gtsgvel, a 4.4. brn lthat lpseken t hatroztk meg.
Szerkezetk rntgenkrisztallogrfiai mdszerekkel trtn meghatrozshoz a fehr-
jket elszr el kell lltani, majd tiszttani s kristlyostani. Ha megvan a megfelel
kristly, azt rntgensugarakkal tbb irnybl intenzven besugrozva elektronikus detek-
torokkal diffrakcis mintk nyerhetk. Mivel a kristlyok hrom dimenziban periodikusan
tartalmazzk a molekulkat, a diffrakcis mintzat folytonos fggvny helyett inkbb fol-
tok sorozata. A foltok elemzsvel meghatrozzuk az elektronok eloszlst a fehrjben.
Az elemi cella atomi tartalmnak kpt az eltrtett rntgensugrzson alkalmazott ma-
tematikai lencse segtsgvel (inverz Fourier-transzformci) nyerjk. A kp jjptsi
folyamata bonyolult, mivel a diffraktlt rntgensugrzsnak csak az intenzitsa mrhet,
de az egyes eltrtett hullmok relatv fziseltoldsa nem. Ez a hinyz informci je-
lenti a kristlytani fzisproblmt. A hinyz fzisadatok klnbz ksrleti/szmtsi
mdszerekkel nyerhetek (izomorf csere, nehzatom rendellenes szrdsa vagy rszlege-
sen ismert szerkezetek alkalmazsa) [9]. Mivel a rntgenkrisztallogrfis vizsglatban a
rntgendiffrakcit az elektronok s a rntgensugarak klcsnhatsa okozza, az eredmnyl
kapott kp az elektronsrsg eloszlsa a kristly elemi celljban. Interaktv s iteratv
szmtsokkal a ksrleti elektronsrsg-trkphez legjobban illeszked atomi helyzeteket
meghatrozva nyerhet a vgs atomi modell. A PDB adatbzisban az gy meghatrozott
kristlyszerkezet ktfle adatot tartalmaz. A PDB fjlok a vgs modell atomi koordin-
tit s a szerkezetmeghatrozs szerkezeti tnyezit (a rntgendiffrakcis minta foltjainak
intenzitsa s fzisa) tartalmazzk. Ezekbl az adatokbl az elektronsrsg eloszls-kpe
ltrehozhat olyan eszkzkkel, mint pldul az Astex viewer.
A biolgiai molekulakristlyok egszen klnbzek lehetnek: egyes esetekben tkle-
tes, rendezett kristlyok, mg mskor csak a gyenge kristlyok nyerhetek. A meghatroz-
hat atomi szerkezet pontossga teht fgg a kristlyok minsgtl. Egy kristlyszerkezet
pontossga kt fontos paramterrel jellemezhet, mint a felbonts (amely megszabja mi-
lyen rszletessggel tehetk lthatv a ksrleti adatok) s az R-rtk (amely azt mutatja,
hogy mennyire jl tmasztjk al a szerkezeti tnyez fjl ksrleti adatai az atomi mo-
dellt). Az 4.5. bra mutatja be a felbonts jelentsgt. Lthat, hogy a nagy felbonts
(1,0 ) szerkezet pontos atomi pozcikat ad, mg 3 felbontsnl vagy az alatt csak a
fehrje alapvet alakja brzolhat, s az egyedi atomi pozcik pontatlanok.
A rntgenkrisztallogrfia nagyon rszletes atomi informcikat szolgltat szerkezete-
ket nyjthat, melyek a fehrje vagy nukleinsav minden nehzatomjt tartalmazzk, s
rszleteket szolgltatnak olyan ligandumok, inhibitorok, ionok s ms molekulk jelenlt-
rl s elrendezdsrl, amelyek megtallhatak a kristlyban. A kristlyosodsi folyamat
azonban nehz, s ez korltozza, hogy milyen tpus fehrjket lehet tanulmnyozni ezzel
a mdszerrel. Pldul a szp, jl rendezett kristlyokat alkot merev fehrjk szerkezet-
nek meghatrozsra idelis a rntgenkrisztallogrfia. Ezzel ellenttben sokkal nehezebb
a flexibilis fehrjk tanulmnyozsa ily mdon, mivel a krisztallogrfia mdszere azon ala-
pul, hogy igen sok molekulnk van pontosan azonos elrendezdsben. A fehrje flexibilis

4.4. bra. A fehrjeszerkezet-meghatrozs lpseinek ttekintse egykristly-diffrakcival

a rendellenes szrst kihasznlva. A rntgensugrforrsbl (1) rntgensugarakkal besug-
rozva a fehrjekristly (2) eltrti a sugarakat. Az gy nyert rezgsi kpeket (3) hasznljuk a
szerkezet inverz Fourier-transzformcival vgzett megoldshoz. Ezen az brn a fzis-
problma megoldst Patterson-trkp (4) segti a nehzatom-alszerkezet meghatrozsa
sorn. A fzis- s diffrakcis adatok lehetv teszik elektronsrsg-trkp (5) kiszm-
tst s a kezdeti modell-nyomvonal kialaktst. Modellezsi, ellenrzsi, a diffrakcis
adatokon s geometriai korltozsokon alapul modell jrajavtsi, finomtsi lpseket
tartalmaz tbbszrs iterci utn nyerhet a fehrjeszerkezet-modell (6), melyet itt a
flnc tekeredsnek megfelel szalagmegjelents mutat be.
rszei gyakran lthatatlanok a rntgenkrisztallogrfia szmra, mivel ezek elektronsrs-

gei nagy trben oszlanak el. Ez ltszlag hinyz koordintkat tartalmaz szerkezeteket
eredmnyezhet.
4.2.5. Fehrje-NMR-spektroszkpia
Magmgneses rezonancia (NMR) -spektroszkpiai mdszerekkel oldott fehrjkrl jutha-
tunk adatokhoz [10], eltren azoktl a mdszerektl, amelyek fehrjket kristlyban vagy
mikroszkopikus rcshoz ktve ignyelik. Flexibilis fehrjk atomi szerkezetnek tanul-
mnyozsra teht az NMR-spektroszkpia a leginkbb alkalmas mdszer. Az NMR-
spektroszkpit fehrjeszerkezet-meghatrozshoz a 4.7. brn lthat mdon hasznljk.
Az NMR-szerkezeti vizsglatokhoz a krdses fehrje tiszttott formjnak oldata szk-
sges. Mivel csak a 1 H magok (m a 12 C s 14 N nem) NMR-aktvak, a nagyobb polipepti-

4.5. bra. A fehrje rntgenkrisztallogrfia felbontsnak jelentsge. Az els hrom plda

(A), (B) s (C) a mioglobin Tyr103 egysgt mutatja 1,0 (1A6M), 2,0 (106M), s 2,7
(108M) felbontssal. Az utols plda (D) a hemoglobin Tyr103 egysgt (B lnc) brzolja
3,0 felbontssal (1S0H).
dek s proteinek szerkezeti vizsglataihoz 2 H-, 13 C- s 15 N-izotppal jellt fehrjemintkra

van szksg. A stabil, NMR-aktv 13 C s 15 N izotpok tltermelt fehrjkbe ptsre
alkalmas hatkony molekulris biolgiai technikk a tbbdimenzis heteronukleris spekt-
roszkpis technikk tervezsnek s megvalstsnak drmai fejldst eredmnyeztk
[11]. Ennek nyomn a szerkezeti vizsglat maximlis fehrjemrete a homonukleris 1H-
NMR-spektroszkpival vizsglhat 10 kDa mretrl heteronukleris 13 C- s 15 N-NMR-
spektroszkpia hasznlatval a 30 kDa mretre s 13 C s 15 N heteronukleris NMR-
spektroszkpia rszleges 2 H-gazdagtssal kombinlsval kb. 40-50 kDa mretre ntt.
A technika jelenleg ilyen fehrjemretekre korltozdik, mivel a nagyobb mret proteinek
NMR-spektrumban problmt jelentenek az tfed cscsok.
Az NMR-ksrlet sorn a fehrjeminta oldatt ers mgneses trbe helyezve vizsgl-

4.6. bra. Az oldatfzisban vgzett NMR-fehrjeszerkezet-meghatrozs lpsei (az r-

nykolt tglalapok kpviselik az NMR-ksrletekkel vgzett lpseket). Az izotpjelzett
fehrjemintk (1) oldatbl klnfle NMR-spektrumok (2) kszlnek. Az NMR-jelek kzi
vagy automatizlt mdon fehrjeatomokhoz trtn hozzrendelst (3) kveten kln-
bz tpus korltozsokat (4) hatroznak meg. Ezutn szerkezeti korltozsokat kielgt
modellezsi mdszerekkel (5) egy sor fehrjeszerkezet (6) kszl, melyet itt a flnc teke-
redsnek megfelel szalagmegjelents mutat be.
jk rdihullmokkal. Az NMR-spektrumok kzi vagy automata elemzsvel elkszl

a rezonancik atommagokhoz trtn rszletes hozzrendelse, melyet tovbbi specilis
NMR-ksrletek kvetnek (pl. amelyek a nukleris Overhauser-hatst, NOE alkalmazzk),
melyekkel meghatrozhatak olyan atommagok, amelyek kzel vannak egymshoz (4.7.
bra).
Ezek a klnbz tvolsg-, szg- s kts-torzisszg-adatok jellemzik az egymshoz
kttt atomok helyi konformcijt. A korltozsok listja alapjn kszl el a korltoz-
soknak legjobban megfelel s az egyes atomok helyzett megad fehrje modell.
Egy tipikus NMR-szerkezet nem csupn az egyedi fehrje szerkezete, hanem olyan
fehrjeszerkezetek egyttese, amelyek mindegyike bizonyos mrtkig sszhangban van a
megfigyelt ksrleti korltozsokkal. Az NMR-szerkezetek ilyen egyttese tartalmaz olyan
rgikat, amelyekben a szerkezetek az ers korltozsok miatt nagyon hasonltanak egy-
msra, s tartalmaz kevsb korltozott rszeket, ahol azok nagyon klnbzek. Ezek a
kevsb korltozott rszek a molekula flexibilis rszei, amelyek az NMR-ksrletekben nem
adnak ers jeleket. Az NMR-szerkezet bizonyos mrtkig teht utalhat a fehrje dinamikus
viselkedsre.
Az PDB-adatbzisban jellemzen ktfle koordinta-kszlet NMR-szerkezet tallha-
t. Az egyik esetben az NMR-szerkezet tbb olyan klnll modellszerkezet kszlete,
amelyek mindegyike megfelel ksrletek sorn nyert szerkezeti korltozsoknak. A msik
esetben a PDB-fjl egy olyan minimalizlt tlagszerkezet, amely a fehrje tlagos tulaj-
donsgainak kvn megfelelni. A PDB-fjlok tartalmazzk az NMR-ksrletben megha-
trozott korltozsok listjt (pldul hidrognktsek s a diszulfid-ktsek, egymshoz
kzeli hidrognatomok kztti tvolsgok, valamint korltozsok a helyi konformci s a
lnc sztereokmija tekintetben).

4.7. bra. Plda a fehrjeszerkezet NMR-meghatrozsra. A hasnylmirigy tripszinin-

hibitor-szerkezett szimullt htsi eljrssal nyertk Discover-ertr alkalmazsval (Ac-
celerys Ltd, ld. http://www.accelerys.com). A szaggatott vonalak hidrognatom prok
kztti, ksrleti NMR-adatokbl nyert tvolsgkorltozsok, amelyek alapjn hatroztk
meg a szerkezetet. A kp InsightII-vel (Accelerys) kszlt. [Az M. J. Forster sszefoglal-
jban [12] kzlt bra Elsevier kiad ltal engedlyezett reprodukcija]
4.2.6. Fehrje-elektronmikroszkpia, elektrondiffrakci s elektron-

krisztallogrfia
Az elektronmikroszkpia (EM) nagy makromolekulris komplexek szerkezetnek meg-
hatrozsra alkalmazhat. Az EM sorn a molekulris objektum kpe klnbz md-
szerek segtsgvel kzvetlenl nyerhet az elektronsugarakkal. Ha a fehrjk kismret
koaxilis kristlyokat kpeznek, vagy ha szimmetrikusan rendezdnek el egy membrn-
ban, elektrondiffrakci (ED) hasznlhat 3D-srsg trkp ltrehozsra a rntgen-
diffrakcisokhoz hasonl mdszerek alkalmazsval. Ha a molekula nagyon szimmetrikus,
(mint pl. a vrus kapszidokban), sok klnll diffrakcis kp alkothat klnbz nze-
tekbl. E nzetek sszerendezse s tlagolsa utn nyerhetek ki a 3D adatok. Ezeken
tl az elektrontomogrfia egyetlen objektum elforgatsval kszt tbb kpet klnbz
nzetekbl elektronmikroszkpos felvtelekkel. E nzetek feldolgozsval kpezhetek a
3D-s adatok.
Jellemzen az EM-ksrletek nem teszik lehetv atomi szint szerkezet meghatroz-
st, hanem a molekula teljes 3D alakjt adjk. Nhny klnsen jl viselked rendszer
esetben, mint pldul egyes membrnfehrjk, az EM-mrsek atomi szint adatokat is
szolgltathatnak [13]. Atomi rszletek meghatrozshoz az EM-vizsglatokat gyakran
tvzik rntgendiffrakcis vagy NMR-spektroszkpiai informcikkal, s a rntgen- vagy
NMR-ksrletek atomi struktrit az ED-elektronsrsg-trkpekbe dokkolva nyerik a

komplex modelljt. Ez a kombinlt megkzelts klnfle multi-biomolekulris egytte-

sek esetben is sikeresnek bizonyult.
Az e technikkkal nyert ksrleti adatok az Elektronmikroszkp Adatbankban (EMDB)
ez a makromolekulris komplexek s szubcellulris struktrk elektronmikroszkpos s-
rsgtrkpeinek nyilvnos adattra tallhatak meg. Olyan klnbz technikkkal
nyert adatokat tartalmaz, mint az egyrszecske-elemzs, elektrontomogrfia s elektron-
(2D)-krisztallogrfia.
Szmos membrnfehrje atomi felbonts szerkezett (<3 felbonts) hatroztk meg
nemrgiben elektronkrisztallogrfival (EC) [14]. Br ezt a mdszert tbb mint 40 v-
vel ezeltt dolgoztk ki, mg mindig gyerekcipben jr a ktdimenzis (2D) kristlyosods,
adatgyjts, elemzs s fehrje-szerkezetmeghatrozs tekintetben. Az adatokat illeten
az elektronkrisztallogrfia magba foglalja mind a kpalkotst, mind az elektrondiffrakcis
adatgyjtst [14].
Az EC kiegsztheti a rntgenkrisztallogrfis vizsglatokat olyan, kis kristlyokat
(<0,1 mikromter) ad fehrjk esetben (mint pldul a membrnfehrjk), amelyek
nem knnyen kpeznek a rntgenmdszerekhez szksges nagy 3D kristlyokat. EC-
mdszerekkel a fehrjeszerkezetek meghatrozhatak akr a 2-dimenzis kristlyokbl (la-
pok vagy hlixek), poliderekbl (pldul virlis kapszid) vagy diszperglt egyedi fehr-
jkbl. Mg az elektronok alkalmazhatak ilyen esetekben, a rntgensugrzs nem, mivel
az elektronok klcsnhatsa az atomokkal ersebb, mint a rntgensugarak. A rntgen-
krisztallogrfival szemben, ahol nincs rntgenlencse, s gy fennll a fzisproblma, az
elektronmikroszkpok elektronlencsket tartalmaznak, s gy a krisztallogrfiai szerkezet
faktor-fzisinformcija az EC- vizsglatban ksrletileg meghatrozhat.
4.2.7. Fehrje-neutronkrisztallogrfia
A neutron-fehrjekrisztallogrfia (NC) hatkony kiegsztje lehet a rntgenkrisztallogr-
finak, mivel lehetsget ad a biolgiai szerkezetekben olyan kulcsfontossg hidrognato-
mok helyzetnek meghatrozsra, amelyek csupn rntgenkrisztallogrfiai mdszerekkel
nem lthatak. A teljes mrtkben deuterlt fehrjk elkszthetsge bakterilis exp-
resszis rendszerekkel megsznteti a httrhez nagyban hozzjrul inkoherens hidrogn-
szrst.
Jellemz, hogy a fehrjk rntgenszerkezetei nem adjk meg a hidrognatomok pontos
helyzett. Br a nagy felbonts rntgen-kristlyszerkezetekben nhny hidrognatom sz-
lelhet, a funkcionlisan fontos hidrognatomok gyakran nem lthatk. Egyttes rntgen-
s neutrondiffrakcis vizsglatok jeleztk a NC alkalmazhatsgt a funkcionlisan fon-
tos hidrognatomok atomi helyzetnek pontos meghatrozsra (pl. az egyes aminosavak
protonldsi/deprotonldsi llapota) a fehrjeszerkezetekben [15].
A protein NC f akadlya, hogy szokatlanul nagy kristlyokra (1 mm3 ) van szksg
a rendelkezsre ll neutronsugrzs gyenge fluxusnak ellenslyozshoz.

Irodalomjegyzk
[1] S. M. Kelly and N. C. Price, The Use of Circular Dichroism in the Investigation of
Protein Structure and Function. Curr Prot Peptide Sci 1:349338, 2000.
[2] S. M. Kelly, T. J. Jess, and N. C. Price, How to study proteins by circular dichroism.
Biochim Biophys Acta Prot Proteom 1751:119139, 2005.
[3] (a) A. J. Miles and B. A. Wallace, Synchrotron radiation circular dichroism spectros-
copy of proteins and applications in structural and functional genomics. Chem Soc
Rev 35:3951 2006; (b) B. A. Wallace and R. W. Janes, Synchrotron radiation cir-
cular dichroism (SRCD) spectroscopy: an enhanced method for examining protein
conformations and protein interactions. Biochem Soc Trans 38(4):861873, 2010.
[4] L. Whitmore, B. Woollett, A. J. Miles, R. W. Janes, and B. A. Wallace, The pro-

tein circular dichroism data bank, a Web-based site for access to circular dichroism
spectroscopic data. Structure 18(10):12671269, 2010.
[5] R. J. Read, P. D. Adams, W. B. Arendall, A. T. Brunger, P. Emsley, R. P. Joosten,

G. J. Kleywegt, E. B. Krissinel, T. Luetteke, Z. Otwinowski, A. Perrakis, J. S. Ri-
chardson, W. H. Sheffler, J. L. Smith, I. J. Tickle, G. Vriend, and P. H. Zwart, A new
generation of crystallographic validation tools for the protein data bank. Structure
19:13951412, 2011.
[6] T. Schwede, Protein Modeling: What Happened to the Protein Structure Gap?
Structure 21:15311540, 2013.
[7] H. Berman, K. Henrick, H. Nakamura, and J. L. Markley, The worldwide Protein

Data Bank (wwPDB), ensuring a single, uniform archive of PDB data. Nucl Acids
Res. 35(suppl 1):D301D303, 2007.
[8] J. J. He and F. A. Quiocho, Dominant role of local dipoles in stabilizing uncompensa-

ted charges on a sulfate sequestered in a periplasmic active transport protein. Protein
Sci 2:16431647, 1993.
[9] E. E. Lattman and P. J. Loll, Protein Crystallography: A Concise Guide. The John
Hopkins University Press, Baltimore, Maryland, 2008, 152 pp.

[10] P. R. Markwick, T. Malliavin, M. Nilges, Structural biology by NMR: structure,

dynamics, and interactions. PLoS Comp Biol 4:e1000168, 2008.
[11] J. Cavanagh, W. J. Fairbrother, A. G. Palmer, M. Rance, and N. J. Skelton, Protein

NMR Spectroscopy (2nd edition), Academic Press, Burlington, 2007.
[12] M. J. Forster, Molecular modelling in structural biology, Micron 33:365384, 2002.
[13] Y. Fujiyoshi, Electron crystallography for structural and functional studies of memb-
rane proteins. J Electron Micr 60(Suppl. 1):S149S159, 2011.
[14] T. Gonen, The collection of high-resolution electron diffraction data, Methods Mol
Biol 955:153-169, 2013.
[15] (a) S. Yamaguchi, H. Kamikubo, N. Shimizu, Y. Yamazaki, Y. Imamoto, and M. Ka-

taoka, Preparation of large crystals of photoactive yellow protein for neutron diffracti-
on and high resolution crystal structure analysis. Photochem Photobiol. 83(2):336338,
2007; (b) E. I. Howard, M. P. Blakeley, M. Haertlein, I. Petit-Haertlein, A. Mitsch-
ler, S. J. Fisher, A. Cousido-Siah, A. G. Salvay, A. Popov, C. Muller-Dieckmann, T.
Petrova, and A. Podjarny, Neutron structure of type-III antifreeze protein allows the
reconstruction of AFP-ice interface. J Mol Recognit. 24(4):724732, 2011.

5. fejezet
Genetikai varinsok funkcionlis

hatsainak kvantitatv modelljei
5.1. Bevezets
A gnek kifejezdse hatrozza meg a sejt identitst s ezzel mkdst s kpessgeit.
A DNS ltal kdolt RNS-ek s fehrjk folyamatos egyensly fenntartsra trekszenek a
termels s a lebonts kztt, amire tbb szinten megvalsul, sokrt szablyozsi krk
adnak lehetsget. Az rktanyag tartalmazza az l szervezetek hasznlati tmutatsa-
it. A DNS-ben tallhat varinsok szmos mdon kpesek a gnek expresszijt s aktulis
mennyisgt befolysolni, ami termszetesen a fenotpusban is megjelenhet. Ennek meg-
felelen nagyon sok kutats foglalkozik a transzkripcis faktorokkal, de a gnexpresszi
szablyozsa tbbszint, s csak a teljes kpet vizsglva rthetjk meg pontosan, hogyan
jutunk el a DNS-tl a fehrjig, s azt, hogy egy adott pillanatban egy adott sejtben az
expresszlt fehrje mennyisgnek vltozsa mirt trtnik, s ez a vltozs mit jelent a fe-
notpusra nzve. Ebben a fejezetben a genetikai szablyozs klnbz szintjeit s tpusait
tekintjk t. Megvizsgljuk az egyes varinsok lehetsges funkcionlis hatst is.
A fejezetben elssorban a micro-RNS-ekre s transzkripcis faktorokra helyezzk a
hangslyt, ugyanakkor az emlts szintjn foglalkozunk tovbbi szablyoz mechanizmu-
sokkal is (pl. epigenetika). Mg most csak egy-egy varins lehetsges hatst tekintjk t,
egy ksbbi fejezetben mr hlzat szint modellezssel is foglalkozunk.
5.2. Varinsok
Ahhoz, hogy varinsok funkcionlis hatsrl beszlhessnk, fontos tisztzni, mit rtnk
varinsok s funkcionlis hats alatt. Egy rvid ttekintst adunk a genetikai varinsok
tpusairl s azok lehetsges funkcionlis hatsrl.
Marx Pter www.interkonyv.hu

5.2.1. SNP, indel

A Single Nucleotide Polymorphism (SNP) azaz egy pontos polimorfizmusok a legelterjed-
tebb genetikai varicik. Ilyenkor a genom egy bzisa felcserldik a referencihoz kpest
egy msik bzisra. A krdses bzis pozcija alapjn megklnbztetnk:
kdol
kdol, aminosavcsert nem okoz (szinonim)

kdol, aminosavcsert okoz (nem szinonim)
missense
nonsense
nem kdol
nem transzlld regiba (untranslated region, UTR) es

intronba es
intergenikus terleten elhelyezked
SNP-ket. A nem kdol rgiba es SNP-k az egyes gnekrl trd fehrjnek nem
vltoztatjk meg az aminosavak sorrendjt, de hatssal lehetnek elssorban a kzelkben
tallhat gnek expresszijra. A kdol szakaszba es SNP-k kzl a szinonim polimor-
fizmusok nem vltoztatjk meg az aminosavak sorrendjt, de ritkn kzvetlen hatssal
lehetnek a protein szerkezetre. Ezek mellett a kdol szakaszba es s aminosavcsert
okoz SNP-k fejtik ki a legknnyebben lerhat hatst. Kt tpusukat klnbztetjk
meg: a missense aminosavcsert okoz, de nem stop codonra cserli ki az adott amino-
savat, mg a nonsense tpus SNP stop codonra cserli az eredeti aminosavat, ezzel sok
esetben jelentsen lervidtve a fehrjelnc hosszt, aminek tovbbi ers hatsa lehet a fe-
hrje expresszijra. Az gynevezett UTR SNP-k, ahogy azt a ksbbiekben ltni fogjuk,
szintn fontos szerephez juthatnak a gnexpresszi megvltozsban, ugyanis elsdlegesen
ezeken a szakaszokon tallhatjuk a miRNS kthelyeket. Az intronikus szakaszokra es
SNP-k esetben hasonl megfigyelsek tehetk, mint a nem kdol szakaszokon talhat
polimorfizmusok esetn.
Az egy bzist rint polimorfizmusok mellett lteznek mg egyb hasonlan kis kiter-
jeds varinsok, melyek akr tbb bzist s rinthetnek, mint az inszercik s a delcik.
Inszerci s delci esetn egy vagy tbb bzis illesztdik be, illetve esik ki a genom egy
adott pontjrl. Ezek az eltrsek az SNP-khez hasonl mdon rinthetik a fenotpust.
Kdol rgiba es mutci esetn tovbbi krds, hogy okoz-e az aminosav tfordtsakor
n. leolvassi kereteltoldst (frame shift). Ez abban az esetben fordul el, ha nem (az
aminosavakat kdol kodonokban lv bzisoknak megfelelen) 3 vagy ennek valamilyen
egsz szm tbbszrse a kiesett vagy hozzadott darab hossza.

5.2.2. Alternatv splicing

Egy DNS szakaszbl a transzkripci sorn hrviv RNS (messenger, mRNS) kpzdik.
Mr az trds alatt megkezddik a fehrjt kdol RNS-ek rse: csak az exonok ke-
rlnek be az mRNS-be, az pedig intronok kivgsra kerlnek. Ezt a folyamatot nevezzk
splicingnak. A tbb exonbl ll gnek esetn sokszor tbb vltozat kszlhet: vagy az
exonok sorrendje cserldik fel, vagy egyes exonok ki is maradhatnak az mRNS-bl. A
gyakran sejt- vagy szvetspecifikusan szablyozott folyamat eredmnyeknt ms-ms fe-
hrjt kapunk vgtermkknt.
5.3. A szablyozs szintjei

A folyamatot, melynek sorn a DNS-ben kdolt informci alapjn fehrje keletkezik, bo-
nyolult szablyozsi hlzatok befolysoljk. Az egyes szablyoz elemeket el lehet kln-
teni az alapjn, hogy hatst a DNS-rl mRNS-re trtn trskor (transzkripcionlisan
vagy kotranszkripcionlisan pl. transzkripcis faktorok), vagy az rett mRNS-hez kap-
csoldva (poszttranszkripcionlis szinten, pl. miRNS-ek), esetleg a fehrjhez ktdssel
(poszttranszlcionlisan, pl. foszforilci) fejti ki. Az klnbz szablyozsi szintek kztt
gyakori a kapcsolat tbb vissza- s elrecsatolssal. Egy miRNS gtolhatja egy transz-
kripcis faktor transzlcijt, ahogy egy transzkripcis faktor is gtolhatja egy miRNS
expresszijt. Az egyes szablyoz elemek ptik fel a gnregularizcis hlkat, melyek-
kel a kvetkez fejezetben rszletesebben foglalkozunk.
5.4. Klnbz szablyoz elemek

5.5. microRNS
A microRNS (miRNA) egy tlagosan 22 bzispr (bp) hossz egyszl RNS darab, amely
az mRNS-ekhez ktdve jellemzen negatvan befolysolni tudja az mRNS transzl-
cijt. Elszr Caenorhabditis elegansban sikerlt kimutatni miRNS gnek funkcionlis
jelentsgt. A miRNS-ek szablyozsi szerept szmos letfolyamatban igazoltk euka-
ritkban. A sejtosztdsban, az apoptzisban (programozott sejthall), jeltviteli t-
vonalak regulcijban, fejldsi programok vgrehajtsban, pl. a szv- s rrendszer,
vagy az idegrendszer fejldsben rsztvev gnek klnsen gyakran esnek a miRNS-ek
kzvettette szablyozs al.
Egy miRNS molekulhoz pr szz clkthely tartozik. Az eddigi ismereteink alapjn
a miRNS az 5 vgn lv seed szakasz (2-8 bp hossz) alapjn ismeri fel az mRNS 3
vgn tallhat kthelyt. Ugyanakkor a miRNS kzdhet a mRNS 5 UTR rgijba
s a mRNS kdol szakaszba is. Ksrletben kimutattk, hogy a kthelytl fggen
ms-ms erssg hatst okoz a miRNS. A miRNS hatsmechanizmusai alapveten a
kvetkezk:

transzlci gtls
mRNS deadenylci
mRNS trols
A miRNS mindig gtolja a mRNS trst. Az 5.1. brn lthat a miRNS klnbz
hatsainak sszefoglalsa.
5.5.1. miRNS rs
A miRNS rsnek folyamata klnbzik llatokban s nvnyekben. A jelen fejezetben
az llatokra, gy emberekre jellemz folyamatot ismertetjk [1]. A miRNS rse a sejt-
magban kezddik, ahol az elsdleges miRNS-t (pri-miRNS) az RNS-polymerase II enzim
trja a DNS-rl. A pri-miRNS tbb szz bp hossz lehet s tbb miRNS-t is tartalmazhat.
Ezt kveten a Drosha enzim kimetszi a pri-miRNS-bl a hajtre emlkeztet prekurzor
miRNS-t (pre-miRNS). A pre-miRNS kijut a citoplazmba s itt egy Dicer enzim vgja ki
a hajt trzsnek megfelel kettsszl szakaszt, amibl rett miRNS keletkezik [1]. Az
rett miRNS-nek megfelel szakasz egy sszeszereld fehrjekomplexbe (miRISC, miR-
NA induced silencing complex) pl be, majd egyszlv vlva, molekulris cmzsknt
irnytja a komplexet a komplementer szekvencit tartalmaz clpontok fel.
5.5.2. miRNS ltal medilt szablyozsi formk

Transzlci gtlsa
A miRNS sok esetben mr a transzlci elindulst (inicici) is gtolja, de a transzl-
ci elindulst kveten is tbb mdon tudja a fehrje keletkezst gtolni. Ksrletes
adatok szerint elfordul a riboszma id eltti levlsa, mskor a miRNS az aminosav-
lnc hosszabbodst (elongci) lassthatja le, esetleg teljesen meg is llthatja. Ezekben
az esetekben kevesebb fehrjetermk keletkezik, viszont a mRNS mennyisge vltozatlan
marad.
mRNS deadenylci
Az mRNS deadenilci sorn a miRNS-tl fggen az mRNS mennyisge is cskken. Ilyen-
kor miRNS ltal vezetett komplex kapcsoldsa destabilizlja az mRNS molekult. A de-
adenilcit az mRNS 5 vgn tallhat sapka (cap) levlasztsa kvetheti, ami az mRNS
degradldshoz vezet. Habr sok esetben a deadenilci elfelttele a degradcinak,
megfigyelsek szerint az mRNS nem minden esetben kerl lebontsra. Egy ksrletben a
deadenilcit kveten talltak stabil, rszben stabil mRNS molekulkat is. Annak elle-
nre, viszont, hogy a deadenylcit kveten az mRNS stabil maradt, az expresszi ersen
gtolt maradt a miRNS kapcsoldsnak eredmnyeknt.

mRNS szekvesztrcija
A miRNS szablyozsnak egy kzvetett formja a cl-mRNS-ek kivonsa az genetikai in-
formciramls folyamatbl. Ilyenkor a miRNS a szoksos szablyszersgek szerint
hozzktdik a mRNS-hez, majd a citoplazma n. P-testbe irnytja az mRNS-t. Itt
trtnhet deadenilci s a mRNS degradcija is elfordul, de sok esetben csak a kom-
partment csak ideiglenesen trolja az mRNS-t. Mivel a P-testekben egyltaln nincsen
riboszma, ezrt itt nem tud vgbemenni transzlci.
5.6. Transzkripcis faktorok

A transzkripcis faktorok (TF) a gnexpresszi szablyozsba a DNS RNS-re trtn t-
rs folyamatnak szintjn avatkozhatnak be. Nagyszm fehrje tartozik ide, amely kpes
a gnek transzkripcijnak inicilsra s szablyozsra (ltalnos s specifikus TF-ok).
Klnlegessgk, hogy rendelkeznek egy DNS-kt domnnel (fehrjerszlettel), amely k-
pess teszi ket a gnek promter, illetve silencer s enhancer szakaszaihoz val ktdsre.
A transzkripcis faktorok a miRNS-ekkel szemben nem csak gtolni (represszlni), hanem
serkenteni is tudjk a gnek trst. A gn krnyezetben szinte brhol elfordulhatnak
transzkripcis faktor kthelyek (transcription factor binding site, TFBS): a promter
rgiban, tvolabb a promter rgin kvl, intronokban s az UTR szakaszokban is, nem-
egyszer tbb ezer bp-nyi tvolsgra a upstream vagy downstream a transzkripcis start
helytl. A kthelyek ltalban klaszterekbe szervezdnek, ahova egyszerre tbb TF is
ktdhet. A gnekben vagy azok kzelben elhelyezked, a gnek megfelel kifejezd-
st biztost, nem kdol DNS-szekvencikat sszefoglal nven cis-szablyoz elemeknek
nevezzk. Az elnevezs arra utal, hogy a szablyoz elem a DNS-en szorosan a gnnel
egytt lokalizldik, szemben a trans szablyoz elemekkel, amelyek szablyoz hat-
sukat tvoli, pl. ms kromoszmn elhelyezked gnekre fejtik ki. Egy gnhez egyszerre
tbb transzkripcis faktor is ktdhet (kombinatorikus szablyozs), s igny szerint a
transzkripcis faktorok klnbz kombincikban ktdhetnek az adott gnhez.
5.7. Epigenetika
Az epigenetikai vizsglatok a XXI. szzad elejn lettek igazn npszerek, jllehet maga
a kifejezs a XX. szzad els felbl szrmazik. Az epigenetika azokkal a molekulris me-
chanizmusokkal foglalkozik, amelyeknek ksznheten kialakul rklhet llapotok nem
a DNS szekvencia eltrseire vezethetk vissza. Amellett, hogy sejt- s szvetspecifikus
gnexpresszis-szablyozst valstanak meg, lehetv teszik a sejtek gyorsabb alkalmaz-
kodst a krnyezet vltozsaihoz. Kt fbb epigenetikai mechanizmust jrunk krbe: a
hiszton mdosulsok s a metilci segtsgvel trtn szablyozst.

5.7.1. Metilci
A DNS metilcija sorn a citozin bzisokhoz, a metil-transzferz enzimek segtsgvel
egy metil (-CH3) csoport ktdhet, amely gy metil-citozinn alakul. A metilci mrtke
fordtottan arnyos az rintett kdol szekvencik aktivitsval. Az emlsk nagyszm
GC-ismtldst tartalmaz, jellemzen a gnek promter rgija krnyezetben elfordul
CpG-szigeteinek j rsze, 70-80%-a metillt llapotban tallhat a genomban, csendestve
az adott gnt. Daganatok esetben rendszerint rendellenes metilcis mintzat figyelhet
meg.
Megjegyzs. A gnekhez tartoz cisz-szablyoz rgik metilltsga s a rluk foly transzkripci mr-
tke kztti sszefggs nem minden esetben egyrtelm: a gnek kdol rgijban lev, gyakran szvet-
specifikusan kialakul metilci egyes esetekben ppen fokozza az transzkripci hatkonysgt. A DNS
metilcijnak s a hiszton-fehrjk kovalens mdosulsainak jelentsgt a kromatin denzitsnak sza-
blyozsban s ezzel a DNS hozzfrhetsgben felttelezik. A kzelmltban felismert duonok (dual-
use codons) a gnek kdol, exonikus, fehrjv lefordtd szakaszainak msodlagos (ketts) szerepre
mutatnak r, amikor ezek a szekvencik amellett, hogy a fehrje aminosavsorrendjt is meghatrozzk,
transzkripcis faktorok szmra szolglnak kthelyknt. Az tfog vizsglatok, a mintegy 81 klnbz
sejttpusban vgzett genomszint TF-kthely trkpezs mdszert hasznlva, megdbbent megfigyel-
sekhez vezettek: a gnek tbb, mint 85%-ban elfordulan, a genom sszes kodonjnak, azaz fehrjre
lefordtd szekvencijnak, 15%-nak transzkripcis faktorokkal trtn lefedse igazolhat. A jelensg
a kodonok hasznlatnak preferencijt alakt tnyezk kz, a fehrjk aminosavsorrendje mellett a
transzkripcis faktorok ktdst lehetv tv motvumok kialaktst vetik fel. Ugyanakkor a szinonm,
aminosavcsert nem eredmnyez varinsok gnexpresszira s ezzel a fenotpusra gyakorolt hatst is
szksges trtkelni.
Jllehet megfigyelhet, hogy a transzkripcis faktorok fellreprezentltak a magasabb szinten exp-
resszld gnek exonjaiban, egyelre tisztzatlan, milyen mdon kpesek befolysolni a transzkripci
folyamatt. A jelenlegi ltalnos tanknyvi modellbe az eredmny mindenesetre egyelre nehezen illeszt-
het be. Lehetsges, hogy ezek a transzkripcis faktorok ms, szomszdos gnek trsra gyakorolnak
hatst, s az is lehet, hogy nem is hagyomnyos mdon mkdnek, hanem egyszeren nyitva tartjk a
kromatinszerkezetet, s ezzel a gneket is az trs szmra.
A kzelmltban tett megfigyels ismtelten felhvja a figyelmet arra, hogy a genom mg szmos rejtett
kdot hordozhat magban, s hasonlak felfedezse tovbb diverzifiklja az amgy is sszetett elkpzel-
snket a mkdsrl.
5.7.2. Hisztonmdosulsok
A beavatkozs setjmagban tallhat DNS magasabb rend szervezdsbe szintn sza-
blyozsra ad lehetsget. A ketts hlix hiszton fehrjk alkotta komplexekre feltekert
formja elsegti az rintett szakaszok hozzfrhetsgnek befolysolst, valamint a sejt-
osztds folyamn a kromatin kromoszmkk tmrtst. Transzkripci sorn a hisz-
tonfehrjk (pl. hiszton deacetilzok ltal katalizlt) mdosulsainak kvetkeztben a
megfelel szekvenciarszletek letekerednek s hozzfrhetv vlnak.

5.8. Modellezs
A technolgiai jtsoknak ksznheten, egyre tbb genetikai informci vlik elrhetv.
Ezeket az adatokat felhasznlva egyre pontosabban megismerhetjk s modellezhetjk
az egyes gnszablyozsi mechanizmusokat vagy akr teljes gnszablyozsi hlzatokat.
A biolgiai szablyozs komplexitsa miatt jelenleg nincs olyan ltalnosan hasznlhat
modell, amelynek segtsgvel az egyes mutcik hatst lehetne tbb szinten vizsglni.
Leginkbb a prokaritk alap szablyoz mechanizmusait ismerjk, erre mutatunk egy
pldt, a laktz operont.
Egy SNP-nek jelents hatsa lehet egy gn expresszijra, s nem csak akkor, ha ami-
nosavat kdol rgiba esik. Bemutatunk egy mdszert, mellyel meg lehet hatrozni,
hogy egy-egy transzkripcis faktor kthelyre (TFBS) es SNP-nek milyen hatsa lehet
a TF ktsi energijra. Vgl adunk egy ltalnos tmutatt arra nzve, hogy milyen
tpus matematikai modellekkel lehet jellemezni a transzkripcitl akr a keletkez fehr-
je mennyisgig az egyes szablyoz mechanizmusok hatst. Ezek a pldk ltalban
az egyes esetekben jelents megszortsokkal alkalmazhatak. A paramterezsk pedig
nagyban fgg a rendelkezsre ll informciktl [3].
5.8.1. regSNP
Az egyes varinsok lehetsges hatsait rviden bemutattuk az 5.2.1. alfejezetben, elssor-
ban az aminosav sorrendre s a fehrje szerkezetre gyakorolt vltozsokra koncentrltva.
Ezek mellett hasonlan fontos a keletkez fehrje mennyisgt befolysol varinsok hat-
sa. A gnek promter rgijban tallhat transzkripcis faktor kthelyek s a hozzjuk
kapcsold TF-ek kcslnhatst jelentsen befolysolhatja akr egy SNP is. Ugyanis a
TFBS-on tallhat SNP-k mdosthatjk a ktsi energit a DNS szakasz s a TF kztt.
A regSNP [4] algoritmust arra fejlesztettk, hogy a TFBS s a TF kztti ktsi energit
s az adott gn egy fenotpusban (jellemzen egyfajta betegsgben) vrt szerepe alapjn
fellltsanak egy sorrendet a kthelyeken elhelyezked SNP-k kztt.
A ktsi energia kiszmtshoz felhasznltk a TRANSFAC [5] adatbzisban szerepl
n. positional weight mtrixokat (PWM). Az alll gyakorisgt, az sszes a TRANSFAC
adatbzisban elfordul adott TFBS-hez ktd TF szmt s az adott alll adott pozici-
ban lv PWM-bl vett szmossgt felhasznlva adjk meg a referencia s az alternatv
alll esetn szmolt ktsi energit a TFBS-re s az adott TF-re nzve. Ezt felhasznlva
megllapthat, hogy az adott SNP mekkora hatssal van a TF ktdsre. A p-rtk sz-
mtshoz vletlenszeren vlasztanak SNP-ket a HapMapbl. A vgs sorrendet az elbb
emltett mdszer s az Endavourrel [6] vgzett gnprioritizls sorrendjnek fzijbl
szmtjk.
5.8.2. Boolean modellek

Sok biolgiai folyamat lerhat be/ki jelleg kapcsolkkal, pldul a gntranszkripci is.
Ilyenkor a transzkripcis faktorokat tekintjk a kapcsolknak, melyek szablyozzk, hogy

egy gnrl trtnik trs. Az egyes szablyoz elemek kztt pedig S (AND, ), VAGY
(OR, ) s NEM (NOT, ) jelleg kapcsolatokat hasznlhatunk. Ezzel a mdszerrel
kvalitatvan jl lerhat egy biolgiai hlzat. Pldul egy adott gnrl a fehrje trdst
lehet jellemezni a kvetkezkpp.
A gnt egy transzkripcis faktor gtolja s egy bekapcsolja, emellett egy miRNS
gtolja, akkor fehrje akkor keletkezik, ha
T Fi,g,be T Fj,g,ki M IRN Sk,g,ki , (5.1)
T F1,g,be T F2,g,be , (5.2)

ahol g jelli az adott gnt s a be/ki, hogy ki- vagy bekapcsolja az adott szablyoz
elem a krdses gnt. Ezek a modellek azokban az esetekben hasznlhatak jl, ahol az
egyes elemek kztti kapcsolatok ismertek s a rendszer dinamikus mkdst akarjuk
vizsglni. A lers egyszersge miatt nagy, sok szablyoz elemet tartalmaz hlzatok
modellezsre is alkalmas. Ugyanakkor jelents korlt, hogy kvantitatv jellemzst nem
tesz lehetv.
5.8.3. Termodinamikai modellek

A gnek expresszijt a hozzjuk ktd transzkripcis faktorok kombinatorikusan szab-
lyozzk. A TFBS-hez kttt transzkripcis faktor megakadlyozhatja de segtheti is egy
jabb TF ktdst a krdses gnhez. Ezt a folyamatot (a cis-szablyozst) jellemez-
hetjk termodinamikai modellekkel [3]. A jelenlegi modellek nem veszik ugyan figyelembe
a kromatinszerkezetet vagy a metilltsgot, de gy is kielgt lerst adnak. A modell
fellltsa kt lpsben trtnik. Elszr meghatrozzuk s slyozzuk, az sszes lehetsges
llapott a szablyoz rginak, a kthelyeket s az oda ktd molekulkat figyelembe
vve. Ha egy kthely van, akkor kett llapot lesz: amikor bekt egy TF s amikor nem.
A slyozst elssorban a TF-ek koncentrcija s a ktsi energia befolysolja. Minl
magasabb a koncentrci s nagyobb a ktsi energia, annl valsznbb lesz, hogy az
adott TF ktdik a gnhez. Egy llapot slyt aztn elosztjuk az sszes llapot slynak
sszegvel. A msodik lpsben az egyes llapotokhoz rendelnk expresszis mintzatot,
azaz meghatrozzuk, hogy a transzkripcis faktorok adott kombincija milyen mrtk
gn expresszit okoz.
A termodinamikai modellek az llapottrben folytonos lerst adnak a szablyoz h-
lzatrl. A Boolean modellekhez viszonytva, pontosabban tudjuk modellezni az adott
szablyoz hlzatot, emellett viszont a szmtsi igny is nvekszik.
5.8.4. Differencilegyenletek
Differencilegyenleteket akkor hasznlunk modellek lersra, ha tipikusan idben s/vagy
trben vltoz mennyisgeket akarunk jellemezni. Ilyenkor minden egyes elem a tbbi elem
fggvnye. Pldul az mRNS koncentrcijt meg lehet adni a miRNS koncentrcijnak
fggvnyben. Az egyes mennyisgekhez pedig paramterknt megadjuk a lebomlsi idt

vagy az trs idtartamt. Kt rszre bonthatjuk a differencilegyenleteket: kznsges

(ordinary differential equation, ODE) s parcilis differencilegyenletekre (partial differen-
tial equation, PDE). ODE csak egy vltoztl pldul az idtl fggnek, mg PDE esetn
tbb fgg vltoznk van. Ezek a modellek pontos lerst adjk a szablyoz hlzatnak,
ugyanakkor mr pr szablyoz elem esetn bonyolutak lehetnek s analitikusan nehz a
megoldsuk. Jval nagyobb a szmtsignyk is, de lteznek numerikus mdszerek, me-
lyekkel j megoldsok adhatak a differencilegyenlet-rendszerekre. Az els ilyen modellek
az operonok voltak, pldul a laktz operon.
5.8.5. Lac operon

Az els gnszablyozsi mechanizmust, a laktz enzim trst szablyoz lac operont
1961-ben rta le elszr Jacob s Monod [7], akik 4 vvel ksbb Nobel-djat kaptak ezrt
az eredmnyrt. Az operonok olyan egysgei a DNS-nek, ahol tbb a kromoszmn egy-
ms mellett elhelyezked gnt egy kzs promter szablyoz. Egy operonnak a kvetkez
elemekbl ll:
Szablyoz gn: ez a gn szablyozza az operon strukturlis gnjeinek a transz-

kripcijt
Promter: a kzs promter rgija a strukturlis gneknek
Opertor(ok): a szablyoz gn az operon operator rgijba ktdik
Strukturlis gnek: az operon fehrjt kdol gnjei
Termintor: az operon vgt jelz DNS szakasz
A lac operont E. coli baktriumban rtk le. Ez az operon 3 strukturlis gnt tartal-
maz (lacY,lacZ, lacA). A mkdst a lacI gn szablyozza, amelynek trsa folyamatos,
amg nincs laktz a sejtben. Ilyenkor nincs szksg a laktzt feldolgoz enzimekre sem,
ezrt a lacI gn ltal kdolt represszor az opertorrgiba ktdve megakadlyozza az
enzimek transzkripcijt. Laktz megjelenst kveten a represszor fehrjnek megvl-
tozik a szerkezete, ezrt levlik az opertorrl, gy lehetv vlik az enzimeket kdol
gnek transzkripcija. Ksbbi kutatsok kimutattk, hogy a lac operon tovbbi 2 ope-
rtort tartalmaz [8], s ezek kombinatorikusan szablyozzk a mr ismert opertorral
egytt a transzkripcit. A teljes gtlshoz szksges, hogy minden opertorrgiba ks-
sn gtl fehrje. A korbban mr lert opertor ugyan a legfontosabb, de nmagban
csak gyengbben gtolja az DNS trst. Tovbb egy szablyoz fehrje egyszerre tbb
opertorrgiba kthet, hurok formba knyszertve a DNS-t.

5.1. bra. A miRNS-medilt klnbz szablyozsi mechanizmusok [2]

Irodalomjegyzk
[1] K. Chen and N. Rajewsky, The evolution of gene regulation by transcription factors
and microRNAs. Nat Rev Genet, 8(2):93103, 2007.
[2] T. W. Nilsen, Mechanisms of microRNA-mediated gene regulation in animal cells.

Trends in Genetics, 23(5):243249, 2007.
[3] A. Ay and D. N. Arnosti, Mathematical modeling of gene expression: a guide for the
perplexed biologist. Critical reviews in biochemistry and molecular biology, 46(2):137
151, 2011.
[4] M. Teng, S. Ichikawa, L. R. Padgett, Y. Wang, M. Mort, D. N. Cooper, D. L. Koller,

T. Foroud, H. J. Edenberg, M. J. Econs, et al., regSNPs: a strategy for prioritizing
regulatory single nucleotide substitutions. Bioinformatics, 28 (14):18791886, 2012.
[5] V. Matys, O. V. Kel-Margoulis, E. Fricke, I. Liebich, S. Land, A. Barre-Dirrie, I.

Reuter, D. Chekmenev, M. Krull, K. Hornischer, et al., TRANSFAC R and its mo-
dule TRANSCompel : R transcriptional gene regulation in eukaryotes. Nucleic acids
research, 34(suppl 1):D108D110, 2006.
[6] S. Aerts, D. Lambrechts, S. Maity, P. Van Loo, B. Coessens, F. De Smet, L.-C.

Tranchevent, B. De Moor, P. Marynen, B. Hassan, et al., Gene prioritization through
genomic data fusion. Nature biotechnology, 24(5):537544, 2006.
[7] F. Jacob and J. Monod, On the Regulation of Gene Activity. Cold Spring Harbor
Symposia on Quantitative Biology, 26:193211, 1961.
[8] S. Oehler, E. R. Eismann, H. Krmer, and B. Mller-Hill, The three operators of the
lac operon cooperate in repression. The EMBO journal, 9(4):973, 1990.
[9] L. Cerulo, C. Elkan, and M. Ceccarelli, Learning gene regulatory networks from only
positive and unlabeled data. BMC Bioinformatics, 11(1):228, 2010.
[10] A. A. Margolin, I. Nemenman, K. Basso, C. Wiggins, G. Stolovitzky, R. D. Favera,

and A. Califano, ARACNE: an algorithm for the reconstruction of gene regulatory
networks in a mammalian cellular context, BMC bioinformatics, 7(Suppl 1):S7, 2006.

[11] J. J. Faith, B. Hayete, J. T. Thaden, I. Mogno, J. Wierzbowski, G. Cottarel, S. Kasif,

J. J. Collins, and T. S. Gardner, Large-scale mapping and validation of Escherichia
coli transcriptional regulation from a compendium of expression profiles. PLoS biology,
5(1):e8, 2007.
[12] S. Liang, S. Fuhrman, R. Somogyi, et al., REVEAL, a general reverse engineering

algorithm for inference of genetic network architectures. Pacific symposium on bio-
computing, vol. 3, pp. 1829, 1998.
[13] C. Elkan and K. Noto, Learning Classifiers from Only Positive and Unlabeled Data.
In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD 08, pp. 213220, New York, NY, USA, 2008. ACM.
[14] T. D. Le, L. Liu, B. Liu, A. Tsykin, G. J. Goodall, K. Satou, and J. Li, Inferring
microRNA and transcription factor regulatory networks in heterogeneous data. BMC
Bioinformatics, 14:92, 2013.

6. fejezet
Gnszablyozsi hlzatok matematikai

modelljei
6.1. Bevezets
Az 5. fejezetben bemutattuk az egyes genetikai mutcikat s azok lehetsges hatsa-
it. Tovbb krbejrtuk azokat az alapvet mdszereket, melyekkel ezeket a hatsokat
akr polimorfizmusok szintjn lehet modellezni. Vgl rviden sszefoglaltunk egy-kt
mdszercsaldot (termodinamikai, differencilegyenlet, Boole-mdszerek), melyek a ma-
gasabb szint modellezst tesznek lehetv. Ebben a fejezetben folytatjuk s rszleteseb-
ben trgyaljuk a genetikai szablyozsi hlzatok tanulst. ttekintjk, hogy az egyes
algoritmusokat milyen adatforrsokkal tudjuk tantani, vgl nhny mdszert rszletesen
bemutatunk.
6.2. Hlk tanulsa

Sok tanulsi algoritmus ltezik (a 6.1. brn szerepel pr a teljessg ignye nlkl) h-
lzatok tanulsra. Ezek kt f osztlyba sorolhatk: felgyelt s nem felgyelt tanulsi
algoritmusok. A nem felgyelt algoritmusok esetn nincsen cmkzett adatunk (nincs infor-
mcink arrl, hogy az adott elem milyen osztlyba tartozhat), gy nincsen hibamodellnk
sem, teht nem lesz ilyen tpus visszacsatols a rendszerben, ami megnehezti a kapott
eredmnyek rtkelst. Felgyelt tanuls esetn rendelkeznk tant pontokkal s az al-
goritmust az alapjn paramterezzk fel, hogy a tant vagy a teszt halmazon az adott
hibafggvnyre a legkisebb hibt adja. Bioinformatikai alkalamzsokban ltalban kt f
kihvssal kell felgyelt tanuls esetn megkzdeni. Sokszor jelentsen eltr a negatv (pl.
kontroll) s pozitv (pl. beteg) mintk szma. Ilyenkor vagy kiegyenslyozzuk a halmazt
tant pontok elhagysval, vagy korriglunk az eltr mintaszmra. A msik problma
a negatv mintk hinya. Egy adott fenotpus vagy betegsg esetn a korbbi vizsglatok
eredmnyei alapjn van ismeretnk arrl, hogy milyen gnek llhatnak kapcsolatban a
kls jegyekkel. Ezek lehetnek a pozitv tantpontok. Negatv mintt viszont nehz ta-

llni a publikcik hinya miatt. Eddig nem asszocilt gnekrl nem tudhatjuk biztosan,
hogy nem llnak kapcsolatban az adott fenotpussal. Ez jelents torztst okoz a tanul
rendszerben, amit figyelembe kell venni.
A gnszablyozsi hlkat tanul gpi tanulsi technikk ltalban irnytott grfnak
tekintik a szablyozsi hlt. Az egyes csompontok a szablyozsi hl elemei, pldul
gnek vagy fehrjk, mg az lek az egyes elemek kztti kapcsolatot jelentik meg.
6.1. bra. Klnbz tanulsi algoritmusok [9]
6.3. Nem felgyelt tanulsi mdszerek

Ngy nagy csoportba sorolhatak a nem felgyelt hl tanulsi mdszerek.
Informcielmleti modellek
Boole-hlzati modellek
Differencil- s differenciaegyenletekbl ptkez modellek
Bayes-i modellek

Az informcielmleti modellek, mint az ARACNE [10] s CLR [11] az expresszis szinteket

hasznljk kapcsolatok megtallsra az egyes szablyoz elemek kztt. Ha a gnexp-
resszi szintjnek korrelcija kt gn esetn egy kszb fl esik, akkor a kt gn ezen
mdszerek szerint valamilyen kapcsolatban ll egymssal.
A Boole-hlzatok binris vltozkat hasznlnak az irnytott grf csompontjaiknt,
hogy a gn aktulis llapott kdoljk, s Boole-fggvnyeket a kapcsolatok reprezentl-
sra. Ilyen mdszer a REVEAL [12].
A differencia- s differencilegyenletek egy gnexpresszis szintjt a tbbi gn expresszi-
jnak fggvnyben definiljk. Ez egy differencilegyenlet-rendszert ad meg, aminek a
megoldsa adja meg a hlzatot. Ezek a mdszerek ltalban kznsges differencilegyenlet-
rendszereket hasznlnak a modell ksztsre.
Egy Bayes-i mdszer minden expresszis szintet random vltoznak tekint s Bayes-
szablyok rendszert oldja meg. A legnagyobb elnye ezen mdszereknek, hogy egyszer
elzetes (prior) informcit bepteni a rendszerbe. Ilyen prior lehet pldul egy mr
ismert interakci.
6.3.1. ARACNE
Egy informcielmleti mdszer az ARACNE [10], amely gnproknak a klcsns infor-
mci- (mutual information, MI) tartalmt szmtja ki az expresszis mrsekbl. Az
egyes mrsek alapjn meghatrozk a gnekhez tartoz valsznsget P (gi )-t. Majd ezt
felhasznlva szmoljk a klcsns informcit:
I(x, y) = S(x) + S(y) S(x, y), (6.1)
ahol S(t) a Shannon-entrpia

X
S(t) = p(ti ) log p(ti ), (6.2)
i
s p(ti ) = P (t = ti ). I(x, y) = 0 akkor s csak akkor, ha P (gi , gj ) = P (gi )P (gj ). I(gi , gj )

a kt gn kztti statisztika sszefggst mri. A rendelkezsre ll expresszis adatbl
ksztenek egy becslst I0 -t s szmtjk a hozz tartoz p-rtket. Ez a becsls lesz a
minimum MI rtk, ami alatt a kezdeti hlzatba sem kerl be egy gngn kapcsolat. Ha
kt gn (g1 s g3 ) egy harmadik gnen (g2 ) keresztl van csak kapcsolatban, akkor
I(g1 , g3 ) min[I(g1 , g2 ), I(g2 , g3 )]. (6.3)
Vgl a kezdeti hlzatban megvizsglnak minden hrmast, s eltvoltjk a legkisebb MI

rtkkel rendelkez prt.
6.3.2. REVEAL
Sok esetben nem a hlzat dinamikjra vagyunk kvncsiak, esetleg nincs elegend ada-
tunk, vagy szmtsi kapacitsunk bonyolultabb hlk esetn, hanem csak egy hlzat

struktrjt szeretnnk meghatrozni. Ilyen esetekben alkalmazhatunk Boole-mdszereket,

amelyek csak on, off kapcsolknt kezelik az egyes gnek kztti kapcsolatokat. A Reve-
al [12] az ARACNE-hoz hasonlan a klcsns informcit hasznlja fel a gnek kztti
kapcsolathoz. Minden hlzatban szerepl gn szerepel az input s az output rtegben
is. Elszr csak egy-egy gn kztti kapcsolatot vizsglja. Amennyiben tall olyan input
gnt (A), amely megmagyarzza az adott gn kimenett (B 0 ), akkor megalkotja ez alapjn
a szablyt. Amennyiben nem tall megfelel egy-egy kapcsolatot, akkor kett inputegy
output kapcsolatot keres, s addig folytatja, amg nem kap eredmnyknt megfelel lerst.
A megllsi felttel a kvetkez:
M (Y 0 , X)/H(Y 0 ) = 1, (6.4)
ahol Y 0 egy tetszleges gn kimenete, mg X egy vagy tbb gn bemenete.
6.4. Felgyelt mdszerek

A felgyelt tanuls esetn nemcsak az expresszis mrsbl szrmaz adatra van szksg,
hanem mr bizonytottan ismert szablyoz kapcsolatokra is. Tbb adatbzis is ltezik,
melyekben ilyen kapcsolatok tallhatak. A teljessg ignye nlkl a legjelentsebbek:
TRANSFAC transzkripcis faktorok s kthelyeik
miRNA adatbzisok ksrletileg validlt s jsolt miRNScl prokkal
mirTarBase
miRanda
TarBase
String fehrjefehrje interakcis adatbzis
KEGG
IPA
Ezen mdszerek alaptlete intuitv. Amennyiben A elem e(A) expresszis profillal ren-
delkezik s ismert, hogy szablyozza B elemet e(B) expresszis szinttel, akkor a hasonl
expresszis profillal rendelkez elemek kztt is felttelezhetjk, hogy hasonl szablyoz
kapcsolat ll fenn. Annak ellenre, hogy ezek az adatbzisok sok informcit tartalmaz-
nak, a klnbz interakcikrl csak pozitv pldk szerepelnek bennk, ami a legtbb
osztlyoz algoritmusnak gondot okoz. Tbb megolds is ltezik ennek a hatsnak a ki-
kszblsre, de ezek kzl pr ersen alkalmazsfgg.
A legegyszerbb mdszer a negatv tant pontok vletlenszer kivlasztsa a nem
osztlyozott halmazbl. Ebben az esetben viszont az algoritmus teljestmnyt nagyban
befolysolhatja, ha a random vlasztott pontok kz hamis negatv pontok kerlnek. Ah-
hoz, hogy jobban tudjunk vlasztani a nem osztlyozott tantpontok kzl, hasznlhatunk

szvegbnyszatot. Els lpsben vlasztunk negatv tantpontokat a tfidf mdszer se-

gtsgvel, majd tbb osztlyoz algoritmust lefuttatva a legjobb eredmnyt vesszk. Egy
msik lehetsg, hogy standard osztlyozt tantunk az eredeti csak pozitv mintkat tar-
talmaz tant halmazon, s ennek eredmnyt hasznljuk fel arra, hogy meghatrozzuk,
mekkora valsznsggel tartozik egy tantpont a pozitv osztlyba. A PosOnly [13, 9]
mdszer hasznlja ezt a megkzeltst.
6.4.1. PosOnly
Rvid betekintst nyjtunk az algoritmusba, a tma irnt mlyebben rdekldk a [13, 9]
cikkekben tallnak tbb informcit.
Az adatot a szoksos mdon egy tulajdonsgokat tartalmaz vektorral, x, s az osz-
tlyok cmkjt tartalmaz vektorral, y = 0, 1 rjuk le. Emelett bevezetnk egy jabb
binris vektort, s:
(
1, ha x-hez tartozik y,
s=
0 egybknt.
A tanuls clja itt a kvetkez fggvny: f (x) = p(y = 1|x). Megmutattk, hogy
ebben az esetben ez ekvivalens a
f (x) = p(s = 1|x)/p(s = 1|y = 1)
fggvnnyel, ahol p(s = 1|y = 1) egy konstans faktor. Ezt a konstanst egy validci-
s halmaz segtsgvel lehet becslni. Ez azt jelenti, hogy ilyenkor a kapott feltteles
valsznsg egy konstans faktorral klnbzik csak az eredetileg kiszmtand feltteles
valsznsgtl. A [9] cikkben a szerzk mutatnak egy lehetsges becslst p(s = 1|y = 1)-
re. P
p(s = 1|x)
xP
p(s = 1|y = 1) = P , (6.5)
p(s = 1|x)
xV
ahol P a mr osztlyozott alhamlaza a validcis halmaznak V .
6.4.2. SIRENE
SIRENE egy szupport vektor gp (support vector machine, SVM) alap tantsi algorit-
mus. A feladatot felbontjk sok kisebb rszre, s minden egyes TF esetn tantanak egy
SVM-et. A Gauss-fle radilis bzisfggvny kernelt hasznljk fel.

kx yk
K(x, y) = exp . (6.6)
2 2
Az osztlyozs megadja, hogy melyik gnek hasonltanak leginkbb a TF ltal ismerten

szablyozott gnekhez. A tanthalmaz ltrehozshoz a korbban ksrletekkel validlt

TFgn prokat hasznlja. Mivel elssorban pozitv mintkat publiklnak (a TF ktdik

az adott gnhez s befolysolja a gn expresszijt) ezrt itt is kezelni kell a negatv
mintkkal val egyenslyozst. Erre a kvetkez megoldst hasznljk. Veszik az sszes
olyan gnt, amirl nem ismert, hogy a TF ktdik-e a gn szablyoz rgijhoz. Ezt a
halmazt 3 csoportra osztjk. Hromszor vgzik el a tantst, s minden esetben az egyik
halmaz tesztknt funkcionl a msik kett alkotja a negatv tantkszletet. gy annak
ellenre, hogy az esetleges hamis negatvok rosszul lesznek osztlyozva, van esly arra,
hogy kiszrjk ket, s megfelelen osztlyozzk.
6.5. TF, miRNS, mRNS szablyoz hlzatok

A genetikai szablyozs komplex hlzatokat eredmnyez, mivel az egyes szablyoz ele-
mek, mint a miRNS-ek vagy a TF-ok nemcsak egyb gneket szablyoznak, hanem egy
miRNS hatssal lehet egy transzkripcis faktor fehrje expresszijra is, mg egy TF ser-
kentheti vagy gtolhatja egy miRNS rst is. Ebben a rszben bemutatunk egy md-
szert [14], melynek segtsgvel komplex szablyoz hlzatokat lehet tanulni expresszis
adatbl 3 lpsben.
1. adatelkszts
2. hlzattanuls s integrci
3. hlzatinferencia
Az els lpsben az expresszis adatot normalizljuk s meghatrozzuk az egyes fe-
notpusok kztt klnbzkpp expresszlt gneket, miRNS-eket s TF-okat. A hlzat
kezdeti struktrjt az egyes adatbzisok alapjn becslt kapcsolatokbl ptjk fel, ehhez
szksges a krdses szablyoz elemek s gnek kapcsolatrl az adatbzisokbl informci-
t letlteni. Teljesen nem hagyatkozhatunk az adatbzisokra, mivel ltalban szekvencia
alapjn becslt szablyozcl prok szerepelnek bennk, amelyek csak rszben adnak
megbzhat eredmnyt.
A hlzattanulshoz az expresszis adatot fenotpusonknt felbontjuk s minden feno-
tpusbl egy felttelt ksztnk. Azrt, hogy ne egy NP-nehz keresst kelljen vgrehajtani
a grfok terben, csak a pros grfok terben keresnk, ahol a kvetkez prokat nzzk:
miRNSTF, miRNSmRNS, TFTF, TFmiRNS, TFmRNS. A prior, kezdeti hlzat
struktrjt az adatbzisok alapjn ptjk fel, s a tanul folyamat sorn minden kap-
csolatot kirtkelnk egy Bayes-i pontozssal. A pontozs alapjn megbzhat kapcsola-
tok kerlnek felhasznlsra a bootstrap s integrcis fzisban. Bootstrap algoritmusra
az esetek ltalban kis szma miatt van szksg a statisztikailag magasabb szignifikancia
elrsre. Emellett ebben a lpsben integrljuk az egyes korbban kialaktott s eddig k-
ln tanult feltteleket. A p < 0.05 szignifikancia szinttel rendelkez kapcsolatokat vesszk
be a teljes hlzatba.
Vgl a hlzatinferencit alkalmazunk motvumkeresssel. Azok a motvumok, ame-
lyek a random grfokban szignifiknsan kisebb valsznsggel fordulnak el, lesznek az
eredmny f ptelemei.

Irodalomjegyzk
[1] K. Chen and N. Rajewsky, The evolution of gene regulation by transcription factors
and microRNAs. Nat Rev Genet, 8(2):93103, 2007.
[2] T. W. Nilsen, Mechanisms of microRNA-mediated gene regulation in animal cells.

Trends in Genetics, 23(5):243249, 2007.
[3] A. Ay and D. N. Arnosti, Mathematical modeling of gene expression: a guide for the
perplexed biologist. Critical reviews in biochemistry and molecular biology, 46(2):137
151, 2011.
[4] M. Teng, S. Ichikawa, L. R. Padgett, Y. Wang, M. Mort, D. N. Cooper, D. L. Koller,

T. Foroud, H. J. Edenberg, M. J. Econs, et al., regSNPs: a strategy for prioritizing
regulatory single nucleotide substitutions. Bioinformatics, 28 (14):18791886, 2012.
[5] V. Matys, O. V. Kel-Margoulis, E. Fricke, I. Liebich, S. Land, A. Barre-Dirrie, I.

Reuter, D. Chekmenev, M. Krull, K. Hornischer, et al., TRANSFAC R and its mo-
dule TRANSCompel : R transcriptional gene regulation in eukaryotes. Nucleic acids
research, 34(suppl 1):D108D110, 2006.
[6] S. Aerts, D. Lambrechts, S. Maity, P. Van Loo, B. Coessens, F. De Smet, L.-C.

Tranchevent, B. De Moor, P. Marynen, B. Hassan, et al., Gene prioritization through
genomic data fusion. Nature biotechnology, 24(5):537544, 2006.
[7] F. Jacob and J. Monod, On the Regulation of Gene Activity. Cold Spring Harbor
Symposia on Quantitative Biology, 26:193211, 1961.
[8] S. Oehler, E. R. Eismann, H. Krmer, and B. Mller-Hill, The three operators of the
lac operon cooperate in repression. The EMBO journal, 9(4):973, 1990.
[9] L. Cerulo, C. Elkan, and M. Ceccarelli, Learning gene regulatory networks from only
positive and unlabeled data. BMC Bioinformatics, 11(1):228, 2010.
[10] A. A. Margolin, I. Nemenman, K. Basso, C. Wiggins, G. Stolovitzky, R. D. Favera,

and A. Califano, ARACNE: an algorithm for the reconstruction of gene regulatory
networks in a mammalian cellular context, BMC bioinformatics, 7(Suppl 1):S7, 2006.

[11] J. J. Faith, B. Hayete, J. T. Thaden, I. Mogno, J. Wierzbowski, G. Cottarel, S. Kasif,

J. J. Collins, and T. S. Gardner, Large-scale mapping and validation of Escherichia
coli transcriptional regulation from a compendium of expression profiles. PLoS biology,
5(1):e8, 2007.
[12] S. Liang, S. Fuhrman, R. Somogyi, et al., REVEAL, a general reverse engineering

algorithm for inference of genetic network architectures. Pacific symposium on bio-
computing, vol. 3, pp. 1829, 1998.
[13] C. Elkan and K. Noto, Learning Classifiers from Only Positive and Unlabeled Data.
In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD 08, pp. 213220, New York, NY, USA, 2008. ACM.
[14] T. D. Le, L. Liu, B. Liu, A. Tsykin, G. J. Goodall, K. Satou, and J. Li, Inferring
microRNA and transcription factor regulatory networks in heterogeneous data. BMC
Bioinformatics, 14:92, 2013.

7. fejezet
Genetikai asszocicis vizsglatok

standard elemzse
7.1. Bevezets
A genetikai asszocicis vizsglatok clja, hogy feltrja a klnfle mrstechnikk ltal
mrt genotpusok gyakorisga s a vizsglt fenotpusok kztti statisztikai fggsgeket.
A leggyakoribb az esetkontroll vizsglat, ahol egynukleotidos polimorfizmusok (single
nucleotide polymorphism - SNP) s egy binris, betegsgsttuszt ler vltoz kztti
statisztikai fggsg elemzsre kerl sor. Ha egy adott SNP lehetsges genotpusainak
eloszlsa szignifiknsan eltr betegeknl a kontrollokhoz kpest, akkor az annak a jele,
hogy az adott SNP valamilyen szerepet jtszik az adott betegsg mechanizmusban. A
mrstechnikk gyors fejldse jelents vltozst eredmnyezett a genomikai vizsglatok
kialaktsban s az eredmnynek feldolgozsban. A kezdetben nhnyszor 10-100 SNP
egyttes mrst, melyet manapsg kandidns gnasszocicis vizsglatnak (Candidate
Gene Association Study - CGAS) neveznk, felvltotta az 1000-10000 nagysgrend teljes
genom asszocicis vizsglatok (Genome-Wide Association Study - GWAS) sora. Ezek
azonban sok esetben nem vltottk be a hozzjuk fztt remnyeket, azaz szmos mul-
tifaktorilis betegsg (pl.: asztma, obezits) genetikai htternek megfejtse tovbbra is
vrat magra. Ennek egyik lehetsges oka a krnyezeti tnyezk, fenotpusok nem megfele-
l mrse, vizsglatnak hinya, a msik a rendelkezsre ll statisztikai eszkzk korltai,
legfkpp a tbbszrs hipotzistesztels miatti korrekci. Mindezek miatt jra eltrbe
kerltek az olyan CGAS-ok, melyek rszletes krnyezeti s fenotpus-lerk figyelembev-
tele mellett vizsgljk a statisztikai fggsgeket. Ebben a fejezetben olyan statisztikai
mdszereket s eszkzket mutatunk be, melyeket gyakran alkalmaznak gnasszocicis
vizsglatok elemzshez.
Hullm Gbor www.interkonyv.hu

7.2. Genetikai adattranszformci

A megfelel elemzs elfelttele egy jl elksztett adathalmaz, amit genetikai adatok
esetben nem lehet elgg hangslyozni. Szmos hibaforrs lehetsges (gymint mrsi
hibk, nem megfelel minsg biolgiai minta, adatfeldolgozsi hibk), ezrt fontos az
adathalmaz alapos vizsglata.
7.2.1. Szrs
Felttelezve, hogy az adathalmaz mr tesett egy alapszint feldolgozson egy genotipi-
zl mszer ltal (a mrsi hibk jellse megtrtnt az adathalmazban), az adathalmaz
vizsglatt a hibs elemek szrsvel kezdjk. A szrs clja a nem megfelel adatcel-
lk eltvoltsa mintk elhagysval vagy vltozk kizrsval. Ehhez kt kszbrtket
kell meghatroznunk: egyfell a hinyzs arnyt vltoznknt (HAV), msfell a hiny-
zs arnyt mintnknt (HAM). Els lpsben a (majdnem) teljesen hinyz SNP-eket
tvoltjuk el, melyeknl a HAV> 95%. Ezt kveten az adathalmaz mrete s a mintk
minsgnek fggvnyben vgezzk a szrst. Egy nagymret adathalmaz esetn, amely
j minsg mintkat tartalmaz, szigor szrsi kszbrtket alkalmazhatunk a mintk
szrsre, gymint HAM: 5 10%. A gyakorlatban jellemzen ennl jval engedkenyebb
kszbrtket kell alkalmaznunk, HAM: 20 25%. Olyan esetben azonban, mikor a min-
taszm alacsony, illetve a mintk minsge kzepesnl nem jobb, akkor akr 50% is lehet
ez az rtk. Mindezek mellett, ha a clvltoz vagy valamelyik kzponti fontossg ler
rtke hinyos, akkor a mintt ki kell zrni az elemzsbl, fggetlenl a tovbbi hiny-
zs mrtktl. A vlasztott kszbrtk feletti hinyzssal rendelkez mintk elhagyst
kveten a vltozk szrsre kerl sor. Ezt a kszbrtket szintn az adathalmaz min-
sgnek fggvnyben kell megvlasztanunk. Az 5%, 10% s 20%-os rtkeket sorrendben
szigor, kzepes s engedkeny kszbknek tekinthetjk. Egy tovbbi lpsben figyel-
met kell fordtanunk a vltozk rtkkszletre. Mindazon vltozkat, melyek csak egy
lehetsges rtkkel rendelkeznek, mint pldul monomorf SNP-eket, el kell tvoltanunk.
ltalnossgban az 1% alatti variabilitst mutat vltozkat (azaz a vltoz egyik rtke
az adathalmaz kevesebb, mint 1%-ban vagy kevesebb, mint 10 mintban szerepel) el kell
tvoltani.
A hinyz genotpus-rtkek ptlsra (imputcijra) tbb mdszer alkalmas, kzlk
a legegyszerbb az adott genotpus eloszlsn alapul vletlen mintavtel.
7.2.2. HardyWeinberg-egyenlsg vizsglata

Az adathalmaz szrst kvet lpsben a HardyWeinberg-fle egyenlsgi llapot (HWE)
vizsglatra kerl sor minden egyes SNP esetben. A HWE kimondja, hogy az alll, il-
letve genotpus-frekvencik nem vltoznak genercik kztt amennyiben nincsenek jelen
evolcis hatsok, gymint mutci, genetikai sodrds, illetve nem vletlenszer proso-
ds. Egy ktalll (A s a) genetikai jegy esetben, melynek alll-gyakorisga p s q, a
genotpusok vrhat gyakorisga p2 gyakori homozigta genotpusra (AA), 2pq heterozi-

gta genotpusra (Aa) s q 2 a ritka homozigta genotpusra (aa). Ezeket a gyakorisgokat

p2 , 2pq, q 2 HardyWeinberg-hnyadoknak nevezzk, melyek sszege egyet tesz ki, azaz ki-
elgtik a p2 +2pq+q 2 = 1 egyenletet. Egy ktalll jegy genotpus hnyadait brzolhatjuk
egy de Finetti-diagram segtsgvel is (7.1. bra). A hromszgben brzolt v a Hardy
Weinberg-parabolnak felel meg, mely azon pontok sszessgt fedi le, melyeknl a HWE
fennll.
7.1. bra. De Finetti-diagram
A HWE-tl val eltrs kimutathat a Pearson-fle khi-ngyzet-teszttel (rszletek az

asszocicis teszteket ismertet alfejezetben tallhatk), melyhez az adathalmazban l-
v megfigyelt rtkeket s a HWE ltal diktlt vrhat rtkeket kell alkalmazni (lsd
[J. E. Wigginton et al. 2005]). Szignifikns eredmny esetben a HWE-t feltelez null-
hipotzist el kell vetnnk. Mindazon SNP-eket, melyeknl szignifikns p-rtk addik
a kontrollpopulcin vgzett HWE-teszten, ki kell zrni az elemzsbl, mivel kontrollok
esetben ez legtbbszr mrsi hibt jelez.
7.3. Fenotpus-adattranszformci
A rendelkezsre ll fenotpus lerktl, klinikai s krnyezeti faktoroktl fggen tovbbi
adatfeldolgozsra, transzformcira lehet szksg. A genetikai faktorok rtkeivel szemben
a fenotpus-, klinikai, illetve krnyezeti lerk rtkei alaprtelmezs szerint nem ptolha-
tk. Ebbl kifolylag e vltozk megfelel elfeldolgozsa alapvet fontossg lehet az
elemzs sikeressge szempontjbl.

7.3.1. Transzformci
Abban az esetben, ha tbb kvantitatv fenotpus-ler adott, melyek clvltozknt (fgg
vltozknt) szolglhatnak az elemzsben, akkor dntennk kell, hogy egymstl fgget-
lenl kezeljk, vagy egy komplex fenotpus-lerv transzformljuk ket. Az els esetben
annyi klnll elemzst kell elvgezni, ahny clvltoznak vlasztott vltoz adott. En-
nek kvetkezmnyeknt a tbbszrs tesztels miatt szigorbb p-rtk-kszbk alkalma-
zsra lesz szksg, ami ellehetetlentheti az eredmnyek rtelmezst (rszletekrt lsd
az asszocicis tesztek alfejezetet). Mindez elkerlhet megfelel vltozszelekcival s
transzformcival. Egy lehetsges megolds, hogy fkomponens-analzissel (PCA) kiv-
lasztjuk a lnyeges fenotpus-elemeket, melyekbl egy komplex fenotpus-lert alaktunk
ki [Zhang et al. 2012]. Ekkor az elemzsekben mr ezt az sszetett lert hasznlhatjuk.
Megjegyezzk, hogy egy Bayes-i keretrendszerben ilyen sszevonsra nincs szksg, az
egyes clvltozk egyttesen is vizsglhatak.
7.3.2. Diszkretizls
Szmos frekventista s Bayes-i mdszer csak diszkrt (kategorikus) vltozkon alkalmaz-
hat, ezrt szksg lehet a folytonos jelleg, kvantitatv fenotpus-, krnyezeti s klinikai
faktorok diszkretizlsra. Erre szmos mdszer ll rendelkezsre, kztk a legegyszerbb
az egyenl szlessg kategrikat alkalmaz mdszer. A nagyobb statisztikai program-
csomagokban (pl.: R) jellemzen tbb sszetett diszkretizl algoritmus elrhet.
7.4. Egyvltozs statisztikai mdszerek

Az egyvltozs mdszerek alapvet felttelezse az, hogy minden vizsglt faktor fggetlen
egymstl, s emiatt a clvltozval val fggsgi kapcsolat vizsglatra faktoronknt
kln kerl sor. Habr a faktorok egymstl val teljes fggetlensgnek felttelezse kis
valsznsggel lln meg a helyt, ez a megkzelts mgis elfogadhat abban az esetben,
ha csak a legszignifiknsabb faktorok azonostsa a clunk, melyek vrhatan hatkony
biomarkerekhez vezetnek. A biomarkerek egy-egy betegsg jelenltt, illetve jellegk, s-
lyossguk fokt kpesek jelezni. Ilyen esetben az interakcik, fggsgi mintzatok s ms
jegyek azonostsa httrbe szorulhat. Az egyvltozs mdszerek alkalmazsnak egy m-
sik oka lehet, hogy az sszetett, nagy szmtsi igny, tbbvltozs mdszerekhez kpest
relatve egyszerek s hatkonyak. Sokfle egyvltozs statisztikai mdszer alkalmazhat
GAS eredmnyek elemzsre, kezdve az ltalnos asszocicis tesztektl, a hatserssget
mr odds ratioig [Balding 2006].
7.4.1. Standard asszocicis tesztek

A konvencionlis (frekventista) keretrendszerben a statisztikai mdszerek alapjul a hi-
potzistesztels szolgl. Adott egy nullhipotzis, amely fggetlensget ttelez fel a fgg
(clvltoz) s a fggetlen (magyarz) vltoz kztt, illetve egy alternatv hipotzis,

amely vagy egy ltalnos modellt, vagy GAS esetben specilis genetikai rklsi modellt
(additv, dominns, recesszv) alapul vve asszocicit felttelez. Az asszocicis tesztek
alapvet eleme a tesztstatisztika, amin a hipotzisek kirtkelse alapszik. ltalnosan, a
nullhipotzis akkor utasthat el, ha a kiszmtott statisztikhoz tartoz szignifikanciaszint
alacsonyabb egy elre meghatrozott kszbrtknl. A leggyakrabban az = 0,05 r-
tket alkalmazzuk kszbrtkknt. GAS esetben a Pearson-fle khi-ngyzet-statisztika
egy gyakran alkalmazott mdszer, ami lehetv teszi kategorikus vltozk (pldul beteg-
sglerk s genetikai faktorok) kztti fggsg vizsglatt. A szmtsok elsegtsre a
vltozk kardinalitsnak (rtkeik szmossgnak) megfelel mret kontingenciatbl-
zatot hozhatunk ltre [Agresti 2002]. Pldul ha adott kt binris vltoz X (egy adott
alll) s Y (egy vizsglt fenotpus), akkor egy 2 2 tblt hozunk ltre.
7.1. tblzat. 2 2 kontingenciatbla

Y=0 Y=1
X=0 n00 n01 r0
X=1 n10 n11 r1
c0 c1 t
A khi-ngyzet-statisztikt az X : Y vltoz rtkprok megfigyelt gyakorisga s a

fggetlensget felttelez nullhipotzisnek megfelel elvrt gyakorisg alapjn szmoljuk:
r X c
X (Oi,j Ei,j )2
2 = , (7.1)
i=1 j=1
E i,j
ahol Oi,j jelli a megfigyelt s Ei,j a vrhat gyakorisgt az i-adik sorban s a j-edik
oszlopban lv cellhoz tartoz rtknek. A vrhat gyakorisgot a megfigyelt rtkek sor
(r) s az oszlop (c) rszsszegei alapjn szmolhatjuk:
( cm=1 Oi,m ) ( rn=1 On,j )
P P
Ei,j = , (7.2)
N
ahol N az sszmintaszm. Ez a tesztstatisztika aszimptotikusan megkzelti a (r1)(c1)
szabadsgfok 2 eloszlst. Ha a szmtott Pearson-fle khi-ngyzet-statisztika magasabb,
mint a 2 eloszls = 0,05 szignifikanciaszinthez tartoz kritikus rtke, akkor a fg-
getlensget felttelez nullhipotzis elvethet. Ms megfogalmazsban, ha a szmtott
statisztikhoz tartoz p-rtk kisebb, mint = 0,05, akkor a nullhipotzis elvethet.
Tekintsk pldaknt a 2 2 kontingenciatblt, melynek elemei, a megfigyelt gyako-
risgok, illetve a sor s oszlop rszsszegek a 7.2. tblzatban lthatak. A feladatunk
az, hogy megvizsgljuk, hogy fennll-e fggsg X genetikai faktor s Y clvltoz kztt.
A nullhipotzis szerint X s Y fggetlen egymstl, mg az alternatv hipotzis szerint
X s Y fgg egymstl. Az els lps a vrhat gyakorisgok szmtsa a megfigyelt
gyakorisgok alapjn a nullhipotzis szerint.
Pldul az X = 0, Y = 0 rtkpr esetn a megfigyelt gyakorisg 60, a vrhat gya-
korisg pedig a sor s oszlop rszsszegek, illetve a teljes mintaszm alapjn szmthat

7.2. tblzat. Mintaplda

Y=0 Y=1
X=0 60 50 110
X=1 45 70 115
105 120 225
105 110 \ 225 = 51,33. A msodik lps a Pearson-fle khi-ngyzet-statisztika szmtsa

a megfigyelt s a vrhat gyakorisgok alapjn:
(60 51,33)2 (50 58,67)2 (45 53,67)2 (70 61,33)2

2 = + + + = 5,37. (7.3)
51,33 58,67 53,67 61,33
A harmadik lps a 2 eloszlshoz tartoz szabadsgfokok (df ) meghatrozsa a df =

(r 1)(c 1) sszefggs alapjn. Mivel mindkt vltoz binris, gy mind a sorok (r),
mind az oszlopok (c) szma 2, teht a teljes szabadsgi fok: 1. Az utols lps a szmtott
khi-ngyzet-statisztika sszevetse az df = 1 szabadsgfok 2 eloszlssal, valamint a hoz-
ztartoz p-rtk meghatrozsa. A 5,37 khi-ngyzet-rtkhez 0,0205 p-rtk tartozik. Ez
a szignifikanciaszint kisebb az ltalnosan alkalmazott 0,05 szignifikancia-kszbrtknl,
mskpp kzeltve pedig a 0,05 szignifikancia-szinthez tartoz kritikus rtk df = 1 esetn
3,84, amit meghalad a szmtott statisztika. Teht sszessgben elvethetjk a fggetlen-
sget felttelez nullhipotzist, s azt llthatjuk, hogy a fggs X s Y kztt szignifikns.
Fontos megjegyezni, hogy a 0,05 szignifikancia szint jelentse az, hogy annak a valszns-
ge, hogy helytelenl vetjk el a nullhipotzist az pontosan 0,05. Egymst kvet tbbszri
asszocicis vizsglat elvgzsnek azonban az a kvetkezmnye, hogy sszessgben n an-
nak az eslye, hogy hamis pozitv eredmnyeket kapjunk (I. faj hiba). Pldul egy 1000
SNP-et tartalmaz vizsglatban, ha mindegyiket asszocicis tesztnek vetjk al egy adott
clvltozval, akkor legalbb 50 SNP esetben a vletlennek lesz ksznhet az, hogy szig-
nifikns lett a fggs. Teht a hamis pozitvak arnya elfogadhatatlanul magas lesz. Ezt
a jelensget tbbszrs (hipotzis) tesztelsi problmnak nevezzk. Feloldsra klnfle
korrekcis mdszereket dolgoztak ki. A legelfogadottabb megkzelts a p-rtkek korri-
glsa pldul Bonferroni-korrekcival [Dunn 1961] vagy a BenjaminiHochberg-mdszer
alkalmazsval [Benjamini and Hochberg 1995], ami egyttal a hamis felfedezsi arnyt
(false discovery rate) hivatott kontrolllni. Egy msik lehetsges megkzelts szerint per-
mutcis tesztekkel ellenrizhet az eredmnyek validitsa.
GAS esetben ezek a korrekcik jellemzen tl konzervatvak, s jelentsen megne-
heztik az eredmnyek elemzst. Mindez j, a GAS eredmnyek elemzsre alkalmas
statisztikai mdszerek kialaktsra sarkallta a kutatkat. A Bayes-i mdszerek nvek-
v npszersgnek rvendenek ezen a terleten s elszeretettel alkalmazzk ket, mivel
a tbbszrs tesztelsi problmt normatv mdon kezelik, egyfajta beptett korrekci
segtsgvel.

7.4.2. CochranArmitage-trendteszt
A CochranArmitage-trendteszt a Pearson-fle khi-ngyzet-prba egy specilis vltozata,
melyben egy binris s egy tbbrtk kategorikus vltoz kztti fggsg vizsglatra
kerl sor [Cochran 1954, Armitage 1955]. A teszt lnyege, hogy a tbbrtk vltoz ka-
tegrii kztt sorrendezettsget (trendet) felttelez, teht pldul a 0, 1, 2 kategrik egy
lehetsges rtelmezse rendre alacsony, kzepes, magas. Esetkontroll tpus gnasszo-
cicis vizsglatok esetn a CochranArmitage-trendtesztben szerepl binris vltoz a
vizsglt betegsg sttuszt ler clvltoz (Target: T ), amely megadja, hogy egy adott
minta kontroll vagy eset. A tbbrtk vltoz S pedig egy vizsglt SNP-nek felel meg
0, 1, 2 rtkekkel, melyek jellemz rtelmezse rendre gyakori homozigta, heterozigta,
ritka homozigta (hrom lehetsges genotpust felttelezve).
7.3. tblzat. 2 3 kontingenciatbla

S=0 (aa) S=1 (ab) S=2 (bb)
T=0 n00 n01 n02 r0
T=1 n10 n11 n12 r1
c0 c1 c2 N
A 7.3. tblban szerepl mennyisgek alapjn CochranArmitage-trendteszt (CATT )

statisztikja a kvetkezkppen szmthat
k
X
CATT = wj (n0,j r1 n1,j r0 ), (7.4)
j=1
ahol a wj slyok segtsgvel klnbz tpus asszocicik detektlsra hangolhat a

teszt. Gnasszocicis vizsglatok esetben a felttelezett rklsi mdnak megfelel be-
lltst clszer hasznlni, azaz ha
b alll dominns a alllra nzve: w = (0, 1, 1),
b alll recesszv a alllra nzve: w = (1, 1, 0),
a s b alll additv (kodominns): w = (0, 1, 2).
A CATT statisztika sajt szrsval vett hnyadosa aszimptotikusan a normlis elosz-
lshoz kzelt, ezrt a CochranArmitage-trendteszt az albbi hnyadosra vonatkoztatott
normalits vizsglattal is megvalsthat.
CATT
p N (0, 1), (7.5)
var(CATT)
ahol var(CATT) a kvetkez kifejezssel adhat meg:
k k1 X k
r0 r1 X 2 X
var(CATT) = ( w ci (N ci ) 2 wi wj ci cj ). (7.6)
N i=1 i i=1 j=i+1

Ha az elvrt trend (dominns, recesszv, additv) teljesl, akkor abban az esetben a

trendteszt statisztikai ereje nagyobb lesz az ltalnos khi-ngyzet-tesztnl. A vizsglni
kvnt trendtl eltr trend detektlsra azonban nem lesz alkalmas. Gnasszocicis
vizsglatoknl, klnsen GWAS estben legtbbszr additv (lineris) trend vizsglatra
alkalmazzk [Purcell et al. 2007].
7.4.3. Hatserssg
Amg az asszocicis tesztek clja feltrni, hogy kt vltoz kztt szignifikns-e a fggs,
addig a hatserssg-mrck a fggs erssgt hatrozzk meg kvantitatv mdon. Az
odds ratio a leginkbb alkalmazott hatserssg-mutat, ami megmutatja egy adott beteg-
sg vagy llapot kontextusban, hogy egy adott genetikai jegy hogyan befolysolja az eset
s kontroll populci arnyt [Balding 2006]. Teht voltakppen azt szmszersti, hogy
az adott jegy vd (OR< 1), kockzatnvel (OR> 1) vagy semleges (OR= 1) szerepet
tlt be az adott betegsg szempontjbl. A standard odds ratio kizrlag a populcik
arnyt veszi figyelembe; a tbbvltozs kapcsolatokat nem veszi szmtsba.
Jellje X1 , X2 , ..., Xn azon diszkrt vltozkat, melyek SNP rtkeket (0, 1, 2) kdolnak,
melyek a gyakori homozigta, a heterozigta s a ritka homozigta genotpusoknak felelnek
(s)
meg. Ekkor Xi jellje az Xi SNP-et s rtkkel. Tovbb egy Y betegsgler esetn (ahol
Y (0) : kontroll, Y (1) : eset) az odds a kvetkezkpp definilhat:
(s)
p(Y (1) |Xi )
oX (s) = (s)
. (7.7)
i
p(Y (0) |Xi )
Ennek alapjn az odds-ratio (OR) pldul egy heterozigta (1) versus gyakori homozigta
(0) esetben ily mdon adhat meg:
oX (1)
ORX (1,0) = i . (7.8)
i oX (0)
i
Kvetkezskppen a log OR a kvetkez alakban llthat el:

(1) (0)
p(Y (1) |Xi ) p(Y (1) |Xi )
log ORX (1,0) = log OX (1) log OX (0) = log (1)
log (0)
. (7.9)
i i i
p(Y (0) |Xi ) p(Y (0) |Xi )
A megfigyelt adathalmazbl szmtott odds ratiora tekinthetnk gy, mint egy geneti-
kai jegy hatserssgnek teljes populcira vonatkoz becslsre. E tekintetben rdemes
megvizsglni e becsls megbzhatsgt. A konfidenciaintervallum az az rtktartomny,
ahol az odds ratio rtke tallhat, ha a vizsglatot megismtlik ms mintval. Az inter-
vallumhoz tartoz konfidenciaszint azt a gyakorisgot adja meg, amilyen gyakran az odds
ratio az adott tartomnyban tartzkodik a vizsglatok ismtlse sorn. A leggyakrabban
vizsglt tartomny a 95%-os konfidenciaintervallum, aminek teht az a jelentse, hogy 100
ismtlsbl 95 esetben ebbe a tartomnyba fog esni az odds ratio. A konfidenciainterval-
lum a megkzeltleg normlis eloszlst kvet (N (log(OR), 2 )) log odds ratio standard
hibjnak segtsgvel szmthat.

r
1 1 1 1
SE = + + + , (7.10)
n00 n01 n10 n11
ahol njk jelli azon esetek szmt, ahol Xij s Y k . Erre ptve a log odds ratio (L) 95%
konfidenciaintervalluma (CI) megadhat gymint CI = L 1,96 SE. Teht a CI nem
ms, mint [OR\ exp(1,96SE), OR exp(1,96SE)]. Tekintsk pldaknt a 7.2. tblzatban
ismertetett adathalmazt. Ennek odds ratioja s konfidenciaintervalluma a kvetkezkpp
szmthat:
o (1) 50/60 0,833
ORX (1,0) = X = = = 0,536 (7.11)
oX (0) 70/45 1,556
p
SE = 1/60 + 1/50 + 1/45 + 1/70 = 0,2705 (7.12)
95%CILow = ORX (1,0) / exp(1,96 SE) = 0,536/1,699 = 0,3154 (7.13)
95%CIHigh = ORX (1,0) exp(1,96 SE) = 0,536 1,699 = 0,9108. (7.14)
Ez azt jelenti, hogy X-nek vd hatsa van Y betegsgre nzve OR = 0,536 rtkkel, s
(0,3154 0,9108) kztti 95%-os konfidenciaintervallummal. Mivel a 95% CI ez esetben
nem tartalmazza a semleges hatserssget jelent 1-es odds ratiot, ezrt ez a hatserssg
szignifiknsnak tekinthet.
7.4.4. Egyvltozs Bayes-i mdszerek

A Bayes-i mdszerek alapvet paradigmja, hogy egy a priori eloszls P(A) s egy li-
kelihood P(B|A) alapjn az a posteriori valsznsg P(A|B) szmthat a Bayes-ttel
segtsgvel. Az a priori valsznsg (prior) lehetsget ad az a priori tuds, illetve egyb
elzetes feltevsek felhasznlsra. Mg ezzel szemben a likelihood kizrlag az adatra
pl mennyisg.
Egyvltozs Bayes-i mdszerek esetben gyakori a normlis eloszls vagy kevert nor-
mlis eloszls priorok alkalmazsa. Egy tovbbi eshetsg a normlis exponencilis gam-
ma (NEG) priorok hasznlata [Stephens and Balding 2009]. A priorokat a hatserssgek
fggvnyben is lehetsges definilni gy, hogy a nem semleges hats SNP-ek arnyt
adjuk meg a teljes vizsglt SNP halmazhoz kpest (), pldul = 104 vagyis 1 a
10.000-bl [Stephens and Balding 2009].
A log Bayes-faktor egy egyvltozs mutat, amelyet egyre gyakrabban alkalmaznak
GAS eredmnyek elemzsnl. Klnfle implementcii lteznek, mint pldul a SNP-
test [Marchini et al. 2007] programban. A Bayes-faktor voltakppen kt klnbz modell-
hez tartoz marginlis likelihoodok arnya. Ha a vizsglt modellek (melyek tartalmazzk
X s Y vltozkat) kzl az egyik a fggetlensget felttelez nullmodell (M0 ), a msik
pedig egy fggsget megenged alternatv modell (M1 ), akkor ez a modellkivlaszts ala-
p mutat lehetv teszi X s Y vltozk kztti fggsg vizsglatt. A modellek kztti
klnbsget kvantifiklja ez a mennyisg a megfigyelt adaton D, a modellek feltevsein

(M0 , M1 ) s azok paramterezsein (0 , 1 ) alapulva:

R
P (D|M1 ) P (1 |M1 )P (D|1 , M1 )d1
BF = =R , (7.15)
P (D|M0 ) P (0 |M0 )P (D|0 , M0 )d0
ami a Laplace-approximci segtsgvel kzelthet [Marchini et al. 2007].
Lthat, hogy ezek a mdszerek a SNP-eket egymstl fggetlen entitsoknak tekintik,
ami egyrszt nem valsgh, msrszt az interakcikban s a komplex fggsgi hlza-
tokban lv rtkes informci gy elvsz.
7.5. Tbbvltozs mdszerek

A tbbvltozs mdszerek egyfell lehetv teszik a komplex fggsgi mintzatok vizsg-
latt, msfell rendszerint nagy szmtsi ignnyel rendelkeznek. A ktrtk kategorikus
fenotpus-vltozk esetben a logisztikus regresszi egy gyakran alkalmazott elemzsi esz-
kz, amely hasznlhat mind egy-, mind tbbvltozs elemzshez.
7.5.1. Logisztikus regresszi

A logisztikus regresszi egy binris clvltoz esetn alkalmazott regresszis elemzsi md-
szer [Agresti 2002]. A magyarz vltozk (faktorok) rtkein alapulva ltrehozhat egy
logisztikus regresszis modell, ami lehetv teszi azon esly (odds) jslst, miszerint egy
adott minta az esetek kz tartozik. A logisztikus regresszi alapja a logisztikus fggvny,
ami 0 s 1 kztt vesz fel rtkeket.
1
F (z) = , (7.16)
(1 + ez )
ahol z jelli az X1 , X2 , . . . Xk magyarz vltozk lineris kombincijt oly mdon, hogy
1
(x) = , (7.17)
(1 + e0 +1 x1 +2 x2 +...+k xk )
ahol (x) annak a valsznsge, hogy a clvltoz eset. A 0 -t konstansnak (intercept)
a tbbi i -t pedig regresszis koefficiensnek nevezzk. Felhasznlva (x)-et a log odds (lo)
felrhat ebben az alakban:
(x)
lo(x) = = 0 + 1 x1 + 2 x2 + . . . + k xk , (7.18)
1 (x)
melyet logit fggvnyek neveznk (bal oldal), s ami jelen esetben ekvivalens egy line-
ris regresszis kifejezssel (jobb oldal). Ez az talakts teszi lehetv lineris regresszi
illesztst a log odds-ra. Legtbbszr maximum likelihood becsls segtsgvel kerl sor
a i regresszis koefficiensek megadsra. Ehhez egy tbb lpsbl ll iteratv folyamat
szksges, mivel nincs zrt alakja a koefficiensek likelihood fggvnyre trtn maxima-
lizlsnak. Egy kezdeti megoldst javt ez a folyamat iteratv mdon, amg el nem r

egy konvergens llapotot, azaz ahonnan mr nem lehet javtani, vagy az is lehetsges,
hogy ilyen llapot egyltaln nem rhet el. A logisztikus regresszis modell rszt kpzik
mindazok a magyarz vltozk, amelyek nem nulla regresszis koefficienssel rendelkeznek.
Br ez ebben a formban egy tbbvltozs modell, az egyes faktorok egyni hozzjrulsa
a modellhez mrhet Wald- vagy likelihood ratio teszt ltal. A Wald-teszt a Wald-
statisztikra pl W = (i2 /SE2i ), melynek eloszlsa kzelthet 2 eloszlssal. Ennek
megfelelen a teszt szignifikancijnak meghatrozsa a khi-ngyzet-teszthez hasonlan
trtnik.
7.5.2. Haplotpus-asszocici
A SNP-k egyttes vizsglatra kzenfekv vlaszts a haplotpus szint asszocicis elem-
zs. Ekkor a haplotpust forml SNP-ek (H1 : {S1 , S2 , S3 }) lehetsges alllvarinsainak
(pl.: S1 : A/G, S2 : C/T, S3 : G/A) kombincijaknt llnak el a haplotpus lehetsges
rtkei (pl.: ACG,ACA,ATA,ATG,GTG,GTA,. . .). Az gy ltrehozott tbbrtk vlto-
z clvltozval vett fggsgnek vizsglatra klnfle mdszerek alkalmazsval nylik
lehetsg, melyeknek alapveten kt lnyeges problmt kell kezelnik: a (1) haplotpus
fzisinformci hinya s (2) a haplotpus rtkkszletnek nagysga [Liu et al. 2008].
A fzisinformci megadja, hogy az adott alll az anyai vagy az apai kromoszmn
tallhat, ennek hinyban minden kombincis lehetsget figyelembe kell venni. A
haplotpus-asszocicis metdusok egy rsze felttelezi, hogy rendelkezsre ll a fzisin-
formci (akr mrs, akr becsls ltal), a mdszerek egy msik rsze pedig integrltan
tartalmazza a fzisinformci becslst.
A haplotpus rtkkszletnek szmossga azrt jelenthet gondot, mert jellemzen nem
elegend a mintahalmaz ahhoz, hogy a legritkbb haplotpus-varinsokat is statisztikai-
lag elgsges mrtkben tartalmazza. Pldul ahhoz, hogy egy 4 bialllikus SNP-et (pl.:
A/G esetben AA, AG, GG genotpust) tartalmaz haplotpus (melynek kardinalitsa:
3 3 3 3 = 81) minden lehetsges varinshoz elgsges mintaszm (> 10) lljon
rendelkezsre, 810 mintra lenne szksg egyenletes gyakorisgot felttelezve. Valjban
azonban nem helytll az egyenletessg felttelezse, ehelyett jellemzen egy pr gyakori
haplotpusrtk mellett a lehetsges varinsok nagy rsze ritka, azaz 1% alatti gyakorisg.
A ritka haplotpusok kezelsnek egy lehetsges mdja a hasonlsg alap sszevons pl-
dul hierarchikus klaszterezssel [Durrant et al. 2004] vagy evolcis fa alap valsznsgi
klaszterezssel [Tzeng 2005]. Egy tovbbi lehetsges mdszer a slyozott log-likelihood
alap megkzelts [Souverein et al. 2006].
Haplotpus-asszocicis teszt
A haplotpus asszocicis tesztek legegyszerbb vltozata azt vizsglja, hogy a haplotpus
eloszlsa az eseteknl s kontrolloknl klnbzik-e (ez az n. goodness-of-fit teszt). Ehhez
egy likelihood-arny statisztika (LHR) kszthet, melynek ltalnos formja
LHR = 2(ln Leset kontroll

H + ln LH Ltotal
H ), (7.19)

amely aszimptotikusan 2 eloszlst kvet H 1 szabadsgfokkal nullhipotzis esetn, ahol

H a lehetsges haplotpusok szma. Ennek htrnya, hogy nagyszm haplotpus esetn
kicsi lesz a teszt statisztikai ereje egy lehetsges asszocici detektlsra, tovbb elfor-
dulhat, hogy olyannyira kevs a minta, hogy a nullhipotzishez tartoz eloszls nem 2
eloszlst kvet.
Egy lehetsges megolds a nemlineris transzformcik alkalmazsa a haplotpusok
eloszlsn oly mdon, hogy a transzformci felnagytsa a klnbsget az eset s a kont-
roll haplotpusok kztt. Ennek kvetkeztben az alkalmazott 2 teszt statisztikai ereje
megnvekszik [Zhao et al. 2006].
Mivel egy GAS sorn rendszerint tbb lkusz vizsglatra kerl sor egyszerre, gy
nem elhanyagolhat a tbbszrs hipotzistesztels okozta problma, amelyet megfelel
korrekcival kezelni kell. Erre a clra az egyik gyakran alkalmazott mdszer a permutcis
tesztels, amelyet az egyik npszer haplotpus-asszocicit vizsgl programcsomag, a
Haploview is alkalmaz [Barrett et al. 2005].
Haplotpus-megoszls
A haplotpus-megoszlst vizsgl mdszerek arra fkuszlnak, hogy az egyes mintahalma-
zokon bell mennyire hasonlak a haplotpust alkot alllok. Teht egy adott L lkusz
s s(.) hasonlsgi mrce esetn U1 , U2 , . . . UN kontroll haplotpusokat s V1 , V2 , . . . VM
eset haplotpusokat vizsglva ngyfle haplotpus-megoszlst mr metrika adhat meg
[Nolte et al. 2007].
A kontrollcsoporton belli haplotpus-megoszls:
N 1 X
N
2 X
HSkontroll (L) = s(Ui , Uj , L). (7.20)
N (N 1) i=1 j=i+1
A betegcsoporton belli haplotpus-megoszls:

M 1 X
M
2 X
HSeset (L) = s(Vi , Vj , L). (7.21)
M (M 1) i=1 j=i+1
A beteg s kontroll csoportok kztti haplotpus-megoszls:

N X M
1 X
HSkereszt (L) = s(Ui , Vj , L). (7.22)
N M i=1 j=1
sszestett haplotpus-megoszls:
N 2 HSkontroll (L) + M 2 HSeset (L) + 2N M HSkereszt (L)
HStotal (L) = . (7.23)
(N + M )2
Ezek segtsgvel klnbz haplotpus-megoszlst tesztel statisztikk hozhatk lt-
re, gymint a HSS -teszt s a CROSS -teszt [Nolte et al. 2007]. A HSS -teszt az eset s a

kontroll haplotpusok sszehasonltsn alapszik, azzal a feltevssel, hogy az eset haplo-

tpusok kztti megoszls nagyobb, mint a kontrollok kztti megoszls. Ennek oka az,
hogy jellemzen egy adott betegsgre hajlamost haplotpusok egymshoz hasonlak, mg
a kontrollokhoz tartoz haplotpusok vltozatosabbak.
HSeset (L) HSkontroll (L)

tHSS (L) = p , (7.24)
((HSeset (L)))2 + ((HSkontroll (L)))2
ahol (.) az adott haplotpus-megoszlsokhoz tartoz becslt szrst jelli. Nagy min-
taszm esetn HSeset (L) s HSkontroll (L) norml eloszlst kvet, a kztk lv eltrs
szignifikancija egy N + M 2 szabadsgfok t-teszttel adhat meg.
A CROSS -teszt ehhez kpest azon alapszik, hogy az esetek s a kontrollok kztti
haplotpus-megoszls kisebb, mint kt vletlenszeren vlasztott haplotpus kztt:
HSkereszt (L) HStotal (L)

zCROSS (L) = , (7.25)
(HSkereszt (L) HStotal (L))
ahol (.) jelli a szrst. A zCROSS (L) statisztika eloszlsa norml eloszlssal kzelt-
het az extrm L rtkeket leszmtva, ahol egy transzformcit kveten 2 eloszlssal
becslhet [Nolte et al. 2007].
Tovbbi statisztikk is kialakthatak az ismertetett metrikk felhasznlsval, melyek
tbbsge az albbi kvadratikus formban rhat fel:
Q
Q = Htv Av Hv Htu Au Hu , T = , (7.26)
(Q)
ahol Hv = (hv1 , . . . , hvr ) s Hu = (hu1 , . . . , hur ) haplotpus-eloszlst jell a beteg s a

kontroll csoportok esetben, A egy szimmetrikus mtrix, melyet a tetszleges i s j hap-
lotpus kztti hasonlsgot ler K(Hi , Hj ) szimmetrikus kernelfggvny definil, (Q)
pedig Q szrst jelli. Amennyiben Hu , illetve Hv szingularitstl mentes, akkor T
megkzeltleg standard normlis eloszlst kvet [Tzeng et al. 2003].
Haplotpus-asszocici vizsglata regresszis modellekkel

A regresszis modellek egy elnye, hogy egyszerre teszik lehetv egy adott haplotpus
rekonstrulst (fzisinformci nlkli adathalmaz esetn), illetve hatsnak vizsglatt.
A regresszin alapul mdszereket prospektv illetve retrospektv likelihood szmtst vgz
csoportokba sorolhatjuk.
Jellje Gi a megfigyelt genotpus-informcit, Hi (hi , hi ) egy lehetsges haplotpust
(anyai s apai haplotpusprt) az i-adik mintnl. P (Hi ) jellje a Hi (hi , hi ) haplotpus
apriori valsznsgt, Z jellje a betegsgre val hajlamot befolysol krnyezeti tnyez-
ket (pl.: letkor, nem, dohnyzs), Y pedig a betegsg jelenltt tkrz vltozt. Tovbb
S(Gi ) legyen azon haplotpusok halmaza, melyek konzisztensek az i-adik mintnl meg-
figyelt Gi = gi genotpussal. Mindezek segtsgvel a vizsglt adaton alapul prospektv

likelihood a kvetkezkpp szmthat [Schaid 2004]:

N D
Y X
Lpro = P (Yi |Zi , Hi , ) P (Hi ), (7.27)
i=1 Hi S(Gi )
ahol a regresszis koefficiensek vektort jelli, N D pedig a teljes mintaszmot. E pros-

pektv regresszis modell illesztse trtnhet maximum-likelihood [Lake et al. 2003], illetve
EM alap mdszerekkel [Zhao et al. 2003].
A prospektv szemllet lnyege, hogy az adathalmazbl kiindulva, a genotpus (Gi ),
haplotpus (Hi ) s a krnyezeti faktorok (Zi ) ltal hordozott informcit felhasznlva
kerl sor a betegsg meglte (Yi ) valsznsgnek vizsglatra. Ezzel szemben a retros-
pektv megkzeltsnl a betegsg ler llapotbl kiindulva vizsgljuk a haplotpusok
valsznsgt. Ennek megfelelen a retrospektv likelihood az albbiak szerint fejezhet
ki [Epstein and Satten 2003]:
Y X X
Lret = [ P (Hi |Yi = 0)]ug [ P (Hi |Yi = 1)]vg , (7.28)
g Hi S(g) Hi S(g)
ahol ug s vg a g genotpussal rendelkez kontroll-, illetve betegmintk szmt jelli.

A retrospektv likelihood elnye, hogy legalbb akkora vagy nagyobb statisztikai ervel
rendelkezik, mint a prospektv likelihood, azonban htrnya, hogy kevsb robusztus a
HardyWeinberg-egyenlsgtl val eltrsekre [Satten and Epstein 2004].
Egy tovbbi lehetsg a regresszis modellek ltalnostsa, a generalizlt lineris mo-
dell (GLM), mint statisztikai keretrendszer alkalmazsa. A GLM alapvet feltevse, hogy
a fgg vltoz (esetnkben a betegsgler) Y eloszlsa megadhat egy az exponencilis
eloszlsok csaldjba tartoz eloszlssal, melynek vrhat rtke a fggetlen X vlto-
zktl (pl.: genotpus, krnyezeti faktorok) fgg. A fggetlen X vltozk egy lineris
prediktort () alkotnak a nekik megfelel paramterek lineris kombincijaknt, azaz
= X . A prediktor s az eloszls vrhat rtke kztti kapcsolatot a L link
fggvny adja meg = L1 (). Mindezek alapjn teht a GLM ltalnos egyenlete az
albbi formt veszi fel:
E(Y ) = = L1 (X ), (7.29)
ahol E(.) a vrhat rtk szmtst jelli. Megjegyezzk, hogy Y variancija szintn a
vrhat rtk () fggvnyeknt fejezhet ki. A GLM mint keretrendszer felhasznlhat
haplotpus-asszocicit mr statisztika kialaktsra az albbi formban [Schaid 2004]:
ND
X yi yi
W = E[Hi |Gi ], (7.30)
i=1
f ()
ahol yi az i-adik minta betegsgler rtke, yi pedig a GLM-mel illesztett becsls, kizr-
lag krnyezeti faktorok alkalmazsval, f () pedig egy normalizcis faktor a GLM-ben
hasznlt eloszlsnak megfelelen. E[Hi |Gi ] a haplotpusok eloszlsa felett szmtott felt-
teles vrhat rtket jelli az adathalmaz ltal megadott genotpus fggvnyben. A W

statisztika voltakpp a krnyezeti faktorokat hasznl GLM modell rezidulisainak (a yi

becslseknek a vals yi rtkekhez kpest mrt hibi) s a haplotpusok vrhat rtknek
kovariancijt mri [Schaid 2004].
7.5.3. Statisztikai er vizsglata

A statisztikai er (P wr) azt fejezi ki, hogy egy statisztikai teszt mekkora valsznsggel
veti el a nullhipotzist(T H0 = 0), amikor az valban hamis (H0 = 0), azaz P wr = p(T H0 =
0|H0 = 0). Ez voltakppen a II. faj hiba, vagyis a hamis negatv rta (F N R) ellentte
(P wr = 1 F N R). A statisztikai ert alapveten hrom f faktor befolysolja:
1. Mintaszm. A rendelkezsre ll minta nagysga lnyeges tnyez, hiszen minl tbb

minta ll rendelkezsre, annl kisebb a mintavtelezsi hiba (a teljes populcihoz
kpest), azaz annl megbzhatbb kvetkeztetseket vonhatunk le.
2. Hatserssg. A vizsglt genetikai vagy krnyezeti faktor hatserssge azrt fon-

tos szempont, mivel egy relatve kis hatserssg faktor vizsglathoz tbb minta
szksges, mint egy hozz kpest nagy hatst mutat faktorhoz.
3. Szignifikanciaszint. A statisztikai teszteknl alkalmazott kszbrtk, amely megad-

ja annak a valsznsgt, hogy a statisztika alapjn elvethet a nullhipotzis, holott
valjban az igaz (I. faj hiba, hamis pozitv rta). Egyik leggyakoribb vlaszts az
= 0,05.
Szmos ms tnyez befolysolhatja ezeken kvl a statisztikai ert, azonban ezek jel-
lemzen kisebb hatsak s az adott vizsglat jellemzitl fggenek.
A statisztikai er elemzsre sor kerlhet a priori, a vizsglat (mintagyjts) elvgzse
eltt, illetve post-hoc jelleggel a vizsglatot (mintagyjtst) kveten. Az elbbi esetben
az erelemzs clja - adott szignifikanciaszint s hatserssg mellett - a kitztt statiszti-
kai erhz szksges mintaszm meghatrozsa. Mg post-hoc esetben a cl a tnylegesen
rendelkezsre ll mintaszm alapjn add statisztikai er kiszmtsa. Az erelemzs a
priori alkalmazsa teljes mrtkben elfogadott, a post-hoc felhasznls azonban vitatott,
mivel a statisztikai er fgg a statisztikai teszttel elrt p-rtktl. Klnsen akkor add-
hatnak flrevezet eredmnyek, amikor a minta eleve nem volt megfelelen nagy egy adott
nagysg hats vizsglathoz.
A statisztikai er szmtsnak egy mdja a bemutatott fbb tnyezket tartalmaz
regresszis modell maximum-likelihood mdszerrel trtn illesztse. Ezt valstja meg
pldul a Quanto program [Gauderman and Morrison 2006] vagy az online elrhet Ge-
netic Power Calculator [Purcell et al. 2003], de szmos ms statisztikai programcsomag is
alkalmas a statisztikai er szmtsra.

Irodalomjegyzk
[Agresti 2002] A. Agresti, Categorical Data Analysis. Wiley-Interscience, New York, 2002.
[Armitage 1955] P. Armitage, Tests for linear trends in proportions and frequencies. Bio-
metrics, 11(3):375386, 1955.
[Balding 2006] D. J. Balding,A tutorial on statistical methods for population association
studies. Nat. Rev. Genet., 7(10):781791, 2006.
[Barrett et al. 2005] J. C. Barrett, B. Fry, J. Maller, and M. J. Daly, Haploview: analysis
and visualization of LD and haplotype maps. Bioinformatics, 21(2):263265, 2005.
[Benjamini and Hochberg 1995] Y. Benjamini and Y. Hochberg, Controlling the false dis-
covery rate: a practical and powerful approach to multiple testing. J. R. Stat. Soc.,
57(1):289300, 1995.
[Cochran 1954] W. G. Cochran, Some methods for strengthening the common chi-squared
tests. Biometrics, 10(4):417451, 1954.
[Dunn 1961] O. J. Dunn, Multiple comparisons among means. Journal of the American
Statistical Association, 56(293):5264, 1961.
[Durrant et al. 2004] C. Durrant, K. T. Zondervan, L. R. Cardon, S. Hunt, P. Deloukas,
and A. P. Morris, Linkage disequilibrium mapping via cladistic analysis of single-
nucleotide polymorphism haplotypes. Am. J. Hum. Genet., 75(1):3543, 2004.
[Epstein and Satten 2003] M. P. Epstein and G. A. Satten, Inference on haplotype ef-
fects in case-control studies using unphased genotype data. Am. J. Hum. Genet.,
73(6):13161329, 2003.
[Gauderman and Morrison 2006] W. J. Gauderman and J. Morrison, QUANTO 1.1: A
computer program for power and sample size calculations for genetic-epidemiology
studies. 148, http://hydra.usc.edu/gxe, 2006.
[J. E. Wigginton et al. 2005] J. E. Wigginton, D. J. Cutler, and G. R. Abecasis, A note
on exact tests of HardyWeinberg equilibrium, Am J Hum Genet, 76:887893, 2005.
[Lake et al. 2003] S. L. Lake, H. Lyon, K. Tantisira, E. K. Silverman, S. T. Weiss, N. M.
Laird, and D. J. Schaid, Estimation and tests of haplotype-environment interaction
when linkage phase is ambiguous. Hum. Hered., 55(1):5665, 2003.

[Liu et al. 2008] N. Liu, K. Zhang, and H. Zhao, Haplotype-association analysis. Adv Ge-
net., 60:335405, 2008.
[Marchini et al. 2007] J. Marchini, B. Howie, S. Myers, G. McVean, and P. Donnelly, A
new multipoint method for genome-wide association studies via imputation of geno-
types, Nature Genetics, 39:906913, 2007.
[Nolte et al. 2007] I. M. Nolte, A. R. deVries, G. T. Spijker, R. C. Jansen, D. Brinza, A.
Zelikovsky, and G. J. teMeerman, Association testing by haplotype-sharing methods
applicable to whole-genome analysis. BMC Proc., 1(Supp 1):S129, 2007.
[Purcell et al. 2003] S. Purcell, S. S. Cherny, and P. C. Sham, Genetic Power Calculator:
design of linkage and association genetic mapping studies of complex traits. Bioin-
formatics, 19(1):149150, 2003.
[Purcell et al. 2007] S. Purcell, B. Neale, K. Todd-Brown, L. Thomas, M. A. R. Ferreira,
D. Bender, J. Maller, P. Sklar, P. I. W. deBakker, M. J. Daly, and P. C. Sham, PLINK:
a tool set for whole-genome association and population-based linkage analyses. Am.
J. Hum. Genet., 81(3):559575, 2007.
[Satten and Epstein 2004] G. A. Satten and M. P. Epstein, Comparison of prospective
and retrospective methods for haplotype inference in case-control studies. Genet.
Epidemiol., 27(3):192201, 2004.
[Schaid 2004] D. J. Schaid, Evaluating associations of haplotypes with traits. Genet. Epi-
demiol., 27(4):348364, 2004.
[Souverein et al. 2006] O. W. Souverein, A. H. Zwinderman, and M. W. T. Tanck, Est-
imating haplotype effects on dichotomous outcome for unphased genotype data using
a weighted penalized log-likelihood approach. Hum. Hered., 61(2):104110, 2006.
[Stephens and Balding 2009] M. Stephens and D.J. Balding, Bayesian statistical methods
for genetic association studies. Nature Review Genetics, 10(10):681690, 2009.
[Tzeng et al. 2003] J. Y. Tzeng, B. Devlin, L. Wasserman, and K. Roeder, On the identi-
fication of disease mutations by the analysis of haplotype similarity and goodness of
fit. Am. J. Hum. Genet., 72(4):891902, 2003.
[Tzeng 2005] J. Y. Tzeng, Evolutionary-based grouping of haplotypes in association analy-
sis. Genet. Epidemiol., 28(3):220231, 2005.
[Zhang et al. 2012] F. Zhang, X. Guo, S. Wu, J. Han, and Y. M. Liu, Genome-wide path-
way association studies of multiple correlated quantitative phenotypes using principle
component analyses. PLoS ONE, 7(12):e53320, 2012.
[Zhao et al. 2003] J. Zhao, S. S. Li, and N. L. Khalid, A method for the assessment of dise-
ase associations with single-nucleotide polymorphism haplotypes and environmental
variables in case-control studies. Am. J. Hum. Genet., 72(5):12311250, 2003.
[Zhao et al. 2006] J. Zhao, L. Jin, and M. Xiong, Nonlinear tests for genomewide associ-
ation studies. Genetics, 174(3):15291538, 2006.

8. fejezet
Gnexpresszis adatok standard

asszocicis elemzse
8.1. Bevezets
A DNS molekula ketts hlixet alkot. A hlix szlai egyms tkletes komplementerei:
minden adeninnel szemben egy timin s minden guaninnal szemben egy citozin ll a msik
szlon. A hibridizci folyamata sorn a kt komplementer DNS (vagy RNS) szl sszekap-
csoldik. A microarray-technolgik ezt hasznljk ki: egy microarray-chip felsznhez ren-
geteg egyszl gnszekvencia darabka (n. prba) van hozzcsatolva, amellyel egy adott
mintban tallhat komplementer RNS molekula mennyisgt mrhetjk meg. Az RNS a
DNS-bl szrmaz genetikai zenetet tovbbtja (a gnek megfelel szakaszainak lemso-
lsval) a citoplazmba, ahol a fehrjk kszlnek a gnmsolatok aminosav-szekvencikra
val lefordtsval. A microarray-k egyetlen ksrletben tbb tzezer gn expresszis szint-
jt (az RNS formjban trolt zenet mennyisgt) kpesek megmrni. Megfestett RNS-t
ntenek a microarray felletre, majd ha az RNS megtallja a komplementer szekven-
cijt az array felletn, akkor hibridizldik hozz. A mrs sorn a kibocstott fny
mennyisge elrulja, hogy az adott gnhez mennyi RNS kszlt a mintban. Ez lehetv
teszi a kutatk szmra, hogy hipotzismentes mdon sszehasonltsk klnbz biolgiai
rendszerek, folyamatok s betegsg-llapotok transzkripcis profiljt [1].
A mikroarray-ket a sok klnfle clra hasznljk: betegsgek csoportostsra, illetve
besorolsra; egy adott kezels in vivo vagy in vitro hatsainak azonostsra; betegsg-
gnek, vagy bizonyos folyamatokban rszt vev gnek keressre [2].
Ebben a fejezetben megprblunk egy rvid zeltt nyjtani abbl, hogy hogyan tr-
tnik egy mikroarray-ksrlet elemzse. A ltez szmtsi mdszerek s eszkzk kimert
ttekintse helyett arra fkuszlunk, hogy bemutassuk a leggyakrabban hasznlt md-
szereket s az ltalnos megkzeltseket. Elszr is, a prbk nyers intenzitsrtkeinek
megmrstl hossz t vezet a gnek, illetve transzkriptumaik genomszint expresszis
szintjnek meghatrozsig. A gyakorlatban szmos forrsbl szrmaz variabilits lp be,
amelyet figyelembe kell venni, illetve a megfelel mdon kezelni kell: szmos mdostst
kell vgezni, hogy megfelelen pontos eredmnyeket kapjunk. Ezeket a lpseket sszefog-
Gzsi Andrs www.interkonyv.hu

lalan elfeldolgozsnak nevezzk, amelyrl az 8.2. alfejezetben beszlnk rszletesebben.

A 8.3. alfejezetben az adatok s a biolgiai krdsek kztti kapcsolatra koncentrlunk.
Olyan krdsekre keressk a vlaszt pldul, hogy: Milyen gnek fontosak egy adott szitu-
ciban? Kt (vagy tbb) llapot kztt milyen gnek expresszldnak klnbzkppen?
Milyen biolgiai folyamatok jtszdnak le egy adott szituciban?
Megjegyzs: a fejezet sorn egycsatorns mikroarray-kkel foglalkozunk, amelyekben
egyetlen mintbl szrmaz RNS-t vizsglnak egyszerre egy array-n. A ktcsatorns
mikroarray-kkel nem foglalkozunk. (A kt mintbl szrmaz RNS-t kt klnbz szn-
nel festik meg, s egyszerre hibridizljk az array felsznhez. A kt szn intenzitsnak
arnya egy adott pontban a megfelel kt gn differencilis expresszijrl rulkodik a
mintkban.)
8.2. Elfeldolgozs
Az elfeldolgozs t lpsbl ll [3]: (1) kpelemzs, amely sorn a szkennelt kpeken
lv kppontok intenzitsrtkeit prba-szint adatokk konvertljuk, (2) httrkorrek-
ci, amelyben a lemrt prba-intenzitsok nem-specifikus hibridizcijt s a httrzajt
kiszrjk az intenzitsadatokbl, (3) normalizci, amely sorn tbb forrsbl szrmaz
variabilitst korriglunk annak rdekben, hogy a klnbz array-kbl szrmaz mr-
sek sszehasonlthatak legyenek egymssal, (4) sszegzs, amelyben a prbk httrzajra
korriglt s normalizlt intenzitsadatit sszegezzk minden transzkripthez, amelybl az
adott prba szrmazik; s gy egy olyan rtket kapunk, amely megbecsli az adott transzk-
riptnek megfelel RNS mennyisgt a mintban, vgl (5) minsgellenrzsi lps, amely
sorn a kilg mrsi eredmnyeket, amelyek az elfogadhatnl nagyobb mrtk fluktu-
cival rendelkeznek, kiszrjk.
8.2.1. Httrkorrekci
A kpelemzsi lps utn (amellyel jelen fejezetben nem foglalkozunk) az elfeldolgozs
els lpse, a httrzaj hatsainak kiszrse kvetkezik. Ez azrt nagyon fontos, mert a
httrzaj ersen befolysolja a differencilis expresszira vonatkoz becslseinket. Kpzel-
jk el a kvetkez esetet: Kt klnbz mintban egy adott gn valdi expresszijnak
mrtke legyen s1 illetve s2 . A kppontok krl azonban kzel egyenl mrtkben pozitv
httrzajt is rzkelnk, amelyek torztjk a mrseinket, legyen ezek szintje b1 illetve b2 .
Ebben az esetben a kt gn expresszijnak valdi arnya s1 /s2 , azonban a megfigyelt
(s1 + b1 )/(s2 + b2 ) arny kzelebb van 1-hez mint a valdi arny, s minl kzelebb van a
valdi expresszis szint a httrzajhoz, annl inkbb kzelebb lesz a mrt arny 1-hez.
Tbbfle httrkorrekcis mdszer ltezik, pldul az RMA algoritmus httrkorrekcis
rsze, amelyet Irizarry s munkatrsai fejlesztettek ki [4], vagy pldul az Affymetrix ltal
kifejlesztett MicroArray Suite 5.0 (MAS) szoftver httrkorrekcis algoritmusa [5].

8.2.2. Normalizci
A normalizci f clja az, hogy a httrzajra korriglt intenzitsadatokat mdostsa gy,
hogy a klnbz mrsekbl szrmaz array-k sszehasonlthatak legyenek. ltalban
a normalizcis mdszerek a kvetkez kategrik valamelyikbe sorolhatk [6]: (1) skl-
zs, amely azt felttelezi, hogy minden egyes array-n az intenzitsoknak hasonl tlagak-
nak kell lennie, vagy hasonl medin rtkkel kell rendelkeznie; (2) kvantil-normalizci,
amely felttelezi, hogy minden egyes array-n a jelintenzits-rtkeknek azonos eloszls-
aknak kell lennie; (3) loklis regresszis (loess) normalizci, amely azt felttelezi, hogy
a technikai forrsbl szrmaz torzuls intenzitsfgg, s egy loess-grbt illeszt ennek
kikszblsre s (4) modell-alap normalizci, amely bizonyos technikai forrsbl szr-
maz variancikra explicit mdon modelleket illeszt, s ezek segtsgvel szri ki a nem
megfelel variancikat.
Sklzs. Vlasszunk ki egy alap array-t, s a tbbi array-t sklzzuk t gy, hogy a
jelintenzitsok tlagos vagy medin rtke legyen ugyanakkora, mint a kivlasztott alap
array-n. Pldaknt lsd az 8.1. brt.
Array1 Array2 Array3 Array1 Array2 Array3 Array1 Array2 Array3

7,4
Prba1 6,2 11,9 3,9 6,2 11,9 6,8 3,9 7,4
7,2 6,2 12,95 4,0
7,4
Prba2 4,8 7,8 9,2 4,8 7,8 6,8 9,2 7,4
7,2 4,8 8,49 9,46
Prba3 12,5 4,6 12,1 12,5 4,6 7,4
6,8 12,1 7,4
7,2 12,5 5,0 12,44
Prba4 6,3 3,9 4,5 6,3 3,9 7,4
6,8 4,5 7,4
7,2 6,3 4,25 4,63
Prba5 7,2 5,8 6,3 7,2 5,8 7,4
6,8 6,3 7,4
7,2 7,2 6,31 6,48
tlag 7,4 6,8 7,2 7,4 6,8 7,4
6,8 7,2 7,4
7,2 7,4 7,4 7,4
8.1. bra. Sklzs alap normalizci. Bal oldalon: Az eredeti adatmtrix: 5 prba
jelintenzits-rtke 3 array-n. Az els array-t vlasztjuk ki alapknt. Kzpen: A msodik
s a harmadik array-t tsklztuk, hogy a jelintenzitsok tlaga ugyanakkora legyen, mint
az els array-n. Jobb oldalon: A normalizlt adatmtrix
Kvantil-normalizci. Elszr minden egyes array-n sorba rendezzk a jelintenzits-

rtkeket. Majd, minden egyes sorszmra kiszmtjuk az tlagos jelintenzitst. Vgl
minden array-n minden prba normalizlt rtke a sorszmnak megfelel tlagos rtk
lesz. Pldaknt lsd a 8.2. brt.
8.2.3. sszegzs
Mivel az array-n minden egyes gnhez tbb prba is hozz van rendelve, ezrt ezeket a tech-
nikai repliktumokat (n. prbahalmazokat, probe set) sszegezni kell annak rdekben,
hogy a gnhez egyetlen expresszis rtket kapjunk. Ezt tbbflekppen is megtehetjk,
pldul a logaritmikusan transzformlt expresszis rtkek tlagolsval, az eredeti exp-
resszis rtkek tlagnak logaritmikus transzformcijval, a logaritmikus skla medin-
jval, a medin rtkek logaritmusval, vagy kifinomultabb, modell-alap mdszerekkel [3].

Array1 Array2 Array3 Array1 Array2 Array3

Prba1 6,2 11,9 3,9 12,5 (3) 11,9 (1) 12,1 (3)
Prba2 4,8 7,8 9,2 7,2 (5) 7,8 (2) 9,2 (2)
Prba3 12,5 4,6 12,1 6,3 (4) 5,8 (5) 6,3 (5)
Prba4 6,3 3,9 4,5 6,2 (1) 4,6 (3) 4,5 (4)
Prba5 7,2 5,8 6,3 4,8 (2) 3,9 (4) 3,9 (1)
Array1 Array2 Array3 PrbaID Array1 Array2 Array3

12,17 (3) 12,17 (1) 12,17 (3) Prba1 5,1 12,17 4,2
8,07 (5) 8,07 (2) 8,07 (2) Prba2 4,2 8,07 8,07
6,13 (4) 6,13 (5) 6,13 (5) Prba3 12,17 5,1 12,17
5,1 (1) 5,1 (3) 5,1 (4) Prba4 6,13 4,2 5,1
4,2 (2) 4,2 (4) 4,2 (1) Prba5 8,07 6,13 6,13
8.2. bra. Kvantil-normalizci. Balra fent: Az eredeti adatmtrix: 5 prba jelintenzits-

rtke 3 array-n. Jobbra fent: A jelintenzits-rtkeket minden egyes array-n egymstl
fggetlenl cskken sorrendbe rendezzk (mikzben az eredeti prba-azonostkat fel-
jegyezzk itt zrjelben lthat). Balra lent: Minden egyes sorszmra (itt: sorra)
kiszmtjuk az tlagos jelintenzitst. Jobbra lent: A normalizlt adatmtrix
8.2.4. Szrs
A normalizcis lpsek utn bevett gyakorlat, hogy a prbahalmazok egy rszt a tovb-
bi adatelemzsi lpsek elvgzse eltt kiszrjk. Ennek szmos oka van: Elszr is az
array-k feldolgozsnak, ill. kezelsnek szmos olyan technikai aspektusa van, amelynek
kvetkeztben zavar hatsok s potencilis variabilits lphet fel, ami kilg vagy meg-
bzhatatlan expresszis rtkekhez vezet. Msodszor ltalnosan elvrt, hogy a ksrlettl
fggen a gnek egy nagy rsze vrhatan nem expresszldik egyik ksrleti krlmnyben
(llapotban) sem. A szrsek sorn megprbljuk azonostani s kizrni a megbzhatat-
lan, nem vltoz expresszij vagy nem expresszld prbahalmazokat annak rdekben,
hogy pontosabb, megbzhatbb eredmnyeket kapjunk a tovbbi statisztikai elemzsek
sorn [6].
Az elbbiek szemlltetsre lerjuk Kaminski s Friedman [2] szrsi javaslatait: Els
lpsben meghatrozzk az n. leglis gnek halmazt; ezek azok a gnek, amelyeknek
expresszija legalbb egy array-ben meghalad egy bizonyos elre meghatrozott kszb-
rtket. Ez utbbit gy hatrozzk meg, hogy ugyanazt a mintt kt mikroarray-re is
felviszik s sszehasonltjk az expresszis szinteket. Mivel ezek konzisztencija fgg az
rtkktl (a nagyobb intenzitsrtk tartomnyokban kisebb mrtkben klnbznek a
kt array-n mrt rtkek, mint a kisebb jelintenzitsok esetn), gyakran megllapthat
egy olyan kszbrtk, amely fltt az array-k konzisztencija meggyz. Ez a lps lta-
lban harmadval vagy felvel cskkenti a gnek szmt. Ezt kveten meghatrozzk az
n. aktv gnek halmazt, amelybe azok a gnek tartoznak, amelyek megvltoztak vala-
mely ksrleti krlmnyek (llapotok) kztt. A gyakorlatban ez azt jelenti, hogy kiszrik
azokat a gneket, amelyek expresszija nem vltozott legalbb msflszeres mrtkben a
ksrletek legalbb 5%-ban. Ez a lps rendszerint jelents mrtkben lecskkenti a gnek
szmt a tovbbi elemzsi lpsek eltt.

8.3. Adatelemzs
8.3.1. Klaszterezs
A klaszterezs fleg feldert jelleg clokat szolgl a mikroarray-k elemzse sorn. Ezek
a mdszerek sokkal inkbb az intucin, mintsem valamifle formlis elmleten alapulnak.
Az alaptletk az, hogy meghatrozzk gnek vagy mintk olyan csoportjait, amelyek va-
lamilyen mdon elklnlnek egymstl, mikzben a csoport elemei kztt bels kohzi,
hasonlsg van. Ezek a klaszterek ltalban termszetes mdon is addnak a ksrle-
tnk trgybl ereden. A klnfle klaszterez mdszerek szma zavarba ejt; ebben
a fejezetben rviden sszefoglaljuk a leggyakrabban hasznltakat s a htterkben rejl
elgondolsokat.
Mintk klaszterezse
A mintink klaszterezsnek clja a ksrletnk tpustl fgg.
Az idbeli vltozsokat kvet (time-course) ksrletekben egy organizmust klnbz
fejldsi llapotokban mintavteleznk. Ebben az esetben a mintink klaszterezsvel
felderthetjk ezeknek az llapotoknak a hasonlsgt vagy klnbzsgt. Pldul ha
asztms szemlyeket vizsglunk az asztmarohamok kialakulsa eltt, alatt s utn, akkor
megbecslhetjk, hogy mennyi idre van szksg ahhoz, hogy a sejtek visszanyerjk az
eredeti llapotukat.
sszehasonlt vizsglatokban klnbz szemlyeket vizsglunk eltr ksrleti krl-
mnyek kztt annak rdekben, hogy a krlmnyeknek a gnek expresszijra gyakorolt
hatsait feldertsk. Ezekben a ksrletekben egy adott ksrleti krlmnyhez ltal-
ban tbb szemlybl s egynenknt tbb technikai ismtlssel vesznk mintt. Ilyenkor
a klaszterezs segthet a minsgellenrzsben, ugyanis ha egy minta nem ugyanabba a
klaszterbe kerl, mint a technikai vagy biolgiai repliktumai (mg a tbbi minta igen),
akkor ez fnyt derthet az adott minta normalizcis vagy hibridizcis problmira.
Klinikai ksrletekben hasonl fenotpusos jeggyel rendelkez (pl. mellrkos) egyneket
mintavteleznk azzal az a priori tudssal, hogy az egyes szemlyek genetikailag klnbz-
nek egymstl. Ebben az esetben a mintk klaszterezse nagyon fontos, ugyanis segthet
meghatrozni az egynek klnll csoportjait, amelyek hasonl genotpussal (azaz jelen
rtelemben hasonl gnexpresszis profillal) rendelkeznek.
A klaszterezs eltt kt dolgot kell meghatroznunk: (1) Mit rtnk az alatt, hogy a
csoportok elemei kztt bels kohzi van? s (2) Mit rtnk az alatt, hogy a klnfle
csoportok elklnlnek egymstl?
A mintk kztti tvolsg Elszr is, definiljuk az adatpontjaink kztti tvolsg
fogalmt. Ha a clunk a mintk klaszterezse, akkor tekinthetjk ezeket gy, mint olyan
pontokat, amelyeket a gnexpresszis rtkek reprezentlnak a gnek nagy-dimenzis te-
rben. Ezek utn a mintk kztti tvolsgot definilhatjuk geometriai tvolsgok (Lp

normk) segtsgvel: v
ungenes
uX
p
dp (x, y) = t |xi yi |p , (8.1)
i=1
ahol xi s yi az i-edik gn expresszis szintjeit jelentik az x, illetve y mintban. Minl

nagyobb a p rtke, annl rzkenyebb az Lp mrtk a kilg adatpontokra. A legrob-
osztusabb a Manhattan-tvolsg (d1 ). Ez nem ms, mint a kt klnbz array-n mrt,
azonos gnek kztti tvolsgok abszolt rtknek sszege. Az euklideszi-tvolsg (d2 )
rzkenyebb a kilg rtkekre, emiatt gyakrabban hasznljk minsgellenrzsre, amikor
a cl a kilg array-k azonostsa.
Klaszterek kztti tvolsg Ezutn definilnunk kell a megfigyelseink csoport-
jai kztti tvolsgot. Mit jelent a kzeli, amikor nem egyedi adatpontokat, hanem
adatpontok csoportjait hasonltjuk ssze? Ez attl fgg, hogy az egy klaszterbe tartoz
adatpontokat hogyan tmrtjk egyetlen, reprezentatv adatpontba. A leggyakrabban
hasznlt mdszerek: az tlagos tvolsg (average linkage, a kt csoport kztti tvolsg a
pronknti tvolsgok tlaga), median tvolsg (median linkage, a pronknti tvolsgok
medinja), centroid tvolsg (centroid linkage, a kt csoport valamilyen rtelemben
kzppontjai kztti tvolsg), egyszer tvolsg (single linkage, a pronknti tvolsgok
kzl a legkisebb) and teljes tvolsg (complete linkage, a pronknti tvolsgok kzl a
legnagyobb).
Agglomeratv hierarchikus klaszterezs A mikroarray-ksrletekben az egyik
leggyakrabban hasznlt klaszterezsi algoritmus az agglomeratv hierarchikus klaszterezs.
Szmos elnye van, pl. a vizualizcija (a jl ismert dendrogram) knnyen rtelmezhet,
s szmos olyan kapcsolatra derthet fnyt, amely egybknt rejtve maradna. Klnsen
hasznos azokban az esetekben, amikor a mintknak eleve hierarchikus termszetk van.
Pldul rkos szvetek vizsglatakor a klnbz rktpusok jl elklnl klaszterekbe
tmrlnek. Ezekben szmos klnbz genotipikus profilnak megfelel tovbbi alcso-
portok lehetnek, s a legals szinten az egynek technikai repliktumai tmrlnek egy-egy
klaszterbe. Az agglomeratv hierarchikus klaszterezs folyamata sorn els lpsben ki-
szmtjuk az sszes minta kztti tvolsgot. Ezt kveten a kt legkzelebbi adatpontot
egy csoportba soroljuk, gy kialaktva egy klasztert. Mindig, amikor egy j klasztert ho-
zunk ltre, kiszmtjuk a tvolsgt az sszes tbbi klasztertl. Ezutn megkeressk a kt,
egymshoz legkzelebb ll klasztert, s sszevonjuk. Ez egy folytonosan sszefsl fo-
lyamatot eredmnyez, amelynek sorn egyelem klasztereket vonunk ssze, hogy nagyobb
klasztereket kapjunk. Az gy kialakul hierarchit egy dendrogrammal brzolhatjuk (lsd
az 8.3. brt).
Fkomponens-elemzs A fkomponens-elemzs (Principal Component Analysis,
PCA) egy jl ismert dimenzicskkent mdszer, ami arra (is) hasznlhat, hogy egy
nagy-dimenzis adatot kett vagy hrom (vagy tbb) dimenziban brzoljunk. A PCA
olyan j, egymsra ortogonlis tengelyeket hoz ltre, amelyek az eredeti tengelyek lineris
kombincii (azaz az adatunk eredeti dimenzii, amit a gnexpresszis rtkek reprezen-
tlnak). Az els tengelyt (az els fkomponenst) gy hatrozza meg az algoritmus, hogy

8.3. bra. Plda egy agglomeratv hierarchikus klaszterezs eredmnyre
az adatunkban rejl legnagyobb variancij komponenseket foglalja magba. A msodik

komponenst gy alaktja ki, hogy az els tengelyre ortogonlis legyen, s a megmaradt
variancia legnagyobb rszt magyarzza meg. A harmadik tengely ortogonlis lesz az el-
s kettre, s szintn a megmaradt variancia legnagyobb rszt foglalja magba, s gy
tovbb. Ha a gnek kztt korrelci van, akkor az els pr tengely az adatban rejl
variancia legnagyobb rszt kpes lesz megmagyarzni; gy ha a mintinkat az els pr
tengely alapjn kirajzoljuk, akkor ez kpes lesz feltrni a kztk lv hasonlsgokat,
illetve klnbzsgeket (lsd a 8.4. brt).
Gnek klaszterezse
A mintink klaszterezse mellett rdekes lehet a hasonl expresszij gncsoportok azo-
nostsa (azaz a gnek klaszterezse) is. Ennek a f mozgatrugja az, hogy az egyttes
expresszi (co-expresszi) a gnek kzs szablyozsra derthet fnyt (co-regulci). Az-
az az olyan gnek, amelyek klnbz krlmnyek kztt is hasonl mdon viselkednek,
valsznleg kzs jegyeket mutatnak, pldul kzs szablyozsi mechanizmusokkal ren-
delkeznek, vagy kzs funkcikat ltnak el. Teht a gnek esetn a hasonlsgi s tvolsgi
mrtkek jellemzen msok, mint a mintk esetn. A leggyakrabban hasznlt tvolsgi
metrika az egyttes expresszin alapul:
d = 1 (x, y), (8.2)

8.4. bra. Plda egy fkomponens-elemzs eredmnyre
ahol (x, y) az n. Pearson korrelcis koefficiens, amit a kvetkez kplet ad meg:
cov(x, y)
(x, y) = , (8.3)
x y
ahol cov(x, y) a kovariancia s x s y az x, illetve y expresszis profilok standard eloszlsa.

A korbban rszletezett hierarchikus klaszterezsen kvl szmos mdszer ltezik gnek
klaszterezsre, pldul a k-kzp algoritmus [7], az nszervezd trkpek (self organising
map, SOM) [8], vagy klnbz grfelmleti megkzeltsek [9]. Ezek kzl a tovbbiakban
rviden bemutatjuk a k-kzp klaszterezst.
k-kzp klaszterezs A k-kzp klaszterezs iteratv folyamatban els lpsben
eldntjk, hogy hny darab elklnl klasztert vrunk. Ezutn az algoritmus vletlen
mdon kivlaszt ennyi szm klaszterkzppontot, s minden gnt a hozz legkzelebb ll
klaszterhez rendel. Ezt kveten az algoritmus mdostja minden klaszter kzppontjt
gy, hogy a klaszterbe tartoz pontok kzpponttl val tvolsgnak sszege minimlis
legyen. Ezutn a mdszer minden gnt jra hozzrendel ahhoz a klaszterhez, amelynek
kzppontja hozz legkzelebb esik. Ezt az iteratv eljrst addig folytatjuk, amg konver-
gencit nem rnk el, azaz a kzppontok s a klaszterbe sorolsok nem lesznek llandak.
A mdszer htrnya, hogy a klaszterek szmt elre definilni kell, illetve nem lehetsges
az eredmnyek szemlletes megjelentse [2].

8.3.2. Differencilis expresszi

A gnek expresszis szintjnek klnbz krlmnyek hatsra trtn megvltozst az
n. differencilis expresszi szmszersti. Pldul ha egy gn transzkripcijnak mrtke
klnbzik egszsges s beteg egynek kztt, akkor elkpzelhet, hogy az adott gn
szerepet jtszik a betegsg patomechanizmusban.
Klasszikus hipotzistesztels
A differencilisan expresszld gnek meghatrozsra a leggyakrabban hasznlt statisz-
tikai technika a klasszikus hipotzistesztels [1]. Ennek sorn minden egyes gnre teszteljk
azt a hipotzist, hogy az adott gn nem expresszldik differencilisan. Ez az n. nullhi-
potzis, H0 . Hacsak nincs elegend bizonytkunk arra, hogy ez a hipotzis nem igaz, akkor
nem tudjuk elvetni, azaz nem tudjuk elfogadni az n. alternatv hipotzist, H1 -et, ami azt
lltja, hogy az adott gn differencilisan expresszldik. Hipotzistesztelsnek nevezzk
azt a mdszert, amivel sszegezzk az adatainkban tallhat bizonytkokat (az n. teszt-
statisztika kiszmtsval) annak rdekben, hogy vlasztani tudjunk a kt hipotzis kzl.
A tesztstatisztika kiszmtsnak eredmnye egy valsznsg (az n. p-rtk ), ami a null-
hipotzis abszurditsnak mrtkt jelzi. Ms szval, ha a p-rtk kzel van nullhoz, az
azt jelzi, hogy a nullhipotzis nagyon valszntlen, abszurd, gy el kell vetnnk, s helyet-
te el kell fogadnunk az alternatv hipotzist. A hipotzistesztels folyamatt sszefoglalva
a 8.5. brn lthatjuk.
Felttelezs A nullhipotzis, H0 igaz, azaz a g gn expresszija nem klnbzik

lnyegesen a kt llapot kztt
Ezutn Kiszmtjuk a tesztstatisztikt, zg -t, s azt talljuk, hogy a p-rtk
(annak valsznsge, hogy legalbb zg rtket figyelnk meg abban az
esetben, ha a nullhipotzis H0 igaz) nagyon kzel van nullhoz
De ppen az elbb figyeltk meg zg -t
Teht A nullhipotzis hamis, s az alternatv hipotzis (majdnem biztosan)
igaz, azaz a g gn differencilisan expresszldik
8.5. bra. A hipotzistesztels menete a differencilis expresszi meghatrozsra
Kt tlag kztti eltrs (pl. kt klnbz llapot sorn mrt expresszis rtkek
tlagnak eltrse) tesztelsre a legnpszerbb statisztika az n. t-statisztika. Ennek
rtke egy g gn esetn valjban a kt llapot kztti tlagos eltrs standardizltja:
xg yg
zg = q 2 , (8.4)
sxg s2yg
nx
+ ny
ahol xg s yg a g gn expresszis rtkeinek tlaga az x, illetve y llapotokban; s2xg s s2yg

a variancik; s nx s ny a kt llapotban megfigyelt mintk szma.

A nullhipotzis mellett belthat [10], hogy a t-statisztika megkzeltleg kveti a t-

eloszlst, gy a p-rtk kiszmthat a zg rtk s a Student t-eloszls sszehasonltsbl
a megfelel szabadsgi fok mellett.
A standard t-teszt nagyon sok fle varicijt vezettk be s hasznljk rendsze-
resen mikroarray-ksrletekben. Ezek vagy bootstrap-pet, permutcis vagy variancia-
poolozsos megkzeltseket alkalmaznak, hogy az eredeti t-teszt ers megktseit eny-
htsk. A leggyakrabban hasznlt mdszerek a limma [11] s a Significance Analysis of
Microarrays, SAM [12].
Tbbszrs hipotzistesztelsi problma

A mikroarray-k statisztikai elemzsnek egy slyos problmval kell szembenznie, ami ak-
kor jelentkezik, ha egyszerre prhuzamosan tbb hipotzist is tesztelnk. Ez az n. tbb-
szrs hipotzistesztelsi problma [1]. Nem szmt, hogy milyen statisztikai mdszert
is hasznlunk, minl nagyobb szm hipotzisnk van, annl nagyobb annak valszns-
ge, hogy vletlenl extrm tesztstatisztika-rtkeket figyelnk meg, gy egyre valsznbb,
hogy tvesen el fogjuk utastani a nullhipotzist (s ezzel hamis pozitv kijelentst te-
sznk, n. elsfaj hibt kvetnk el). Sokfle megkzelts ltezik ennek a problmnak
a kezelsre, amik abban klnbznek, hogy milyen hibt prblnak meg kontrolllni s
mennyire konzervatvak.
A legkonzervatvabbnak tartott mdszer az n. Bonferroni eljrs, amely a csaldi-
szint hibt (familywise error rate, FWER) kontrolllja. Ez annak a valsznsge, hogy
az sszes gn kzl, amelyek nem differencilisan expresszldnak, legalbb egyrl tvesen
azt lltjuk, hogy differencilisan expresszldik. A Bonferroni mdszer sorn egyszeren
elosztjuk alpha-t (a megkvnt FWER szignifikanciakszbt) a hipotzisek szmval.
Pldul annak biztostsra, hogy 10 000 statisztikai teszt elvgzse esetn is a csaldi-
szint hiba arnya kisebb legyen, mint 0,05, az elfogadsi kszbt 106 -ra kell lltanunk.
Mindazonltal egy mikroarray-ksrlet inkbb feldert jelleg, mintsem megerst jel-
leg eszkz. gy a hamis felfedezsi hibaarny (false discovery rate, FDR) kontrolllsa
taln blcsebb dnts. Az FDR azoknak a gneknek a vrhat arnya, amelyek nem
expresszldnak differencilisan azok kzl, amelyekrl azt lltjuk, hogy differencilisan
expresszldnak. Ms szval, ha a clunk az, hogy ellljunk hipotzisek egy olyan halma-
zval, amelynek a legnagyobb rsze igaz, akkor az FDR-t rdemes kontroll alatt tartani.
Benjamini s Hochberg javasolt [13] erre egy lefel lpeget eljrst: a gneket sorren-
dezzk a p-rtkk szerint, majd egy folyamatosan nvekv kszbrtkhez viszonytsuk.
Ez egy kevsb konzervatv korrekcis eljrst eredmnyez, amit elszeretettel hasznlnak
mikroarray-ksrletek elemzse sorn.
8.3.3. Az eredmnyek biolgiai rtelmezse

A statisztikai analzis gyakran differencilisan expresszld gnek (hossz) sort eredm-
nyezi, amelyek egy rsze ismers lesz a ksrletet vgz kutat szmra, ms rsze viszont
nem. Mindazonltal nem felttlenl egyszer szemmel meghatrozni a gnek rtelmes

biolgiai kontextust. Ebben az alfejezetben rviden bemutatjuk azokat a koncepcikat,

amelyek segthetnek megtlteni az eredmnyeket biolgiai rtelemmel.
Gene Ontology elemzs

Egy alapvet krds lehet, hogy Mit csinlnak az alul-, illetve fellexpresszld gnek a
sejtben? vagy Milyen biolgiai folyamatokban vesznek rszt?. Ezeknek a krdseknek
a megvlaszolsban a Gene Ontology adatbzis jhet a segtsgnkre. A Gene Ontology
(GO) [14] egy standardizlt s strukturlt sztr (ontolgia) biolgiai kifejezsek: mole-
kulris funkcik, biolgiai folyamatok s sejtes komponensek lersra; s a kzttk lv
kapcsolatok definilsra [15]. Emellett minden gnhez hozz vannak rendelve azok a ki-
fejezsek, amelyek a legjobban lerjk annak funkcionalitst. gy ha a korbbi statisztikai
elemzsek ellltak (kt llapot kztt) alul- vagy fellexpresszld gnek listjval, ak-
kor az n. hipergeometrikus tesztet hasznlhatjuk annak eldntsre, hogy mely Gene
Ontology kifejezsek vannak alul- vagy fellreprezentlva bennk.
Tekintsk azt az esetet, hogy ki akarjuk szmtani annak valsznsgt, hogy egy
adott biolgiai folyamat fellreprezentlt egy szmunkra rdekes gnlistban. Kpzeljnk
el egy urnt, amelyben minden egyes gnnek egy goly felel meg (a mikroarray-n lv N
darab gn), s kpzeljk el, hogy azok a golyk, amelyek az adott biolgiai funkcit ellt
gneknek felelnek meg, fehrek (K darab gn), mg a tbbi goly, amelyeknek megfelel
gnek nem asszociltak az adott funkcival, feketk (N -K darab gn). Ezutn hzunk n
darab golyt az urnbl; mghozz azokat, amelyek a szmunkra rdekes gneknek felelnek
meg (pl. fellexpresszldnak egy adott llapotban egy msikhoz kpest). Ezek kzl azt
ltjuk, hogy k darab goly fehr; ezek azoknak a gneknek felelnek meg, amelyek rdekesek
is, s asszociltak is a krdses biolgiai funkcival. Ezek utn annak a valsznsgt, hogy
pontosan k darab ilyen golyt hztunk, a hipergeometrikus eloszls adja meg:
K N K

k nk
P (X = k) = N
. (8.5)
n
Ebbl ereden, azon felttelezs mellett, hogy nincs asszocici a biolgiai funkci s az r-
dekes gnlista kztt, az adott funkcival br rdekes gnek szmnak a hipergeometrikus
eloszlst kell kvetnie. A megfigyelt rtk alapjn kiszmthat a nullhipotzis abszurdi-
tst jelz p-rtk, s a nullhipotzist elvethetjk, ha ez a p-rtk kzel van nullhoz. Ha
egyszerre tbb tesztet is vgrehajtunk, akkor szksges valamilyen korrekci is a tbbsz-
rs hipotzistesztelsi problma kezelsre a korbban ismertetett mdok valamelyikn. Ez
az elemzs tbb szoftverben is kszen elrhet, pl. a Cytoscape [17] szoftver BiNGO [16]
bepl moduljban.
Gnhalmazok feldsulsnak elemzse

A gnhalmazok feldsulsnak elemzse (Gene Set Enrichment Analysis, GSEA) [18] fon-
tos kiegszt mdszer, ha gnlistkat szeretnnk megtlteni biolgiai rtelemmel. Ennek
segtsgvel azt hatrozhatjuk meg, hogy egy elre definilt gnhalmaz (pl. egy adott

biolgiai funkcit ellt gnek halmaza) mennyire mutat statisztikailag szignifikns, kon-
kordns klnbsgeket kt llapot kztt [19]. A legfontosabb klnbsg a fent ismertetett
hipergeometrikus teszt s a GSEA kztt az, hogy az utbbi nem kvnja a gnek rdekes
s rdektelen csoportokba sorolst. Ehelyett a gnek egy teljes sorrendjt hasznlja, ahol
a gneket valamilyen folytonos rtk pontszm (pl. a t-statisztika rtke) alapjn sorren-
dezzk. Ez alapjn kiszmt egy n. feldsulsi pontszmot (enrichment score, ES), ami
arrl nyjt informcit, hogy egy elre definilt gnlista milyen mrtkben van fellrepre-
zentlva a sorrend elejn vagy vgn. Ha a feldsulsi pontszm pozitv, akkor a gnlista
a sorrend elejn csoportosul (lsd a 8.6. brt); ha pedig negatv, akkor a sorrend vgn.
A GSEA alapvet elgondolsa az, hogy pldul egy adott metabolikus tvonalba es
gnek expresszijnak 20%-os megnvekedse drmai mdon fogja befolysolni az adott
tvonalon tmen fluxust, s ez valsznleg sokkal fontosabb, mint egyetlen gn expresszi-
jnak 20-szoros megnvekedse [18].
8.6. bra. Plda egy gnhalmaz-feldsulsi elemzs eredmnyre
A GSEA mdszer szabadon elrhet egy szoftvercsomagban [19] a MSigDB nev, tbb
mint 8500 elre definilt gnhalmazt tartoz adatbzissal egytt (a v3.1-es verzi szerint).

Irodalomjegyzk
[1] Ernst Wit and John McClure, Statistics for Microarrays: Design, Analysis and Infe-
rence. Wiley, 1st ed., July 2004.
[2] Naftali Kaminski and Nir Friedman, Practical approaches to analyzing results of
microarray experiments. American journal of respiratory cell and molecular biology,
27(2):125132, August 2002. PMID:12151303.
[3] Bioinformatics and Computational Biology Solutions Using R and Bioconductor.

http://www.springer.com/computer/bioinformatics/book/
978-0-387-25146-2
[4] Rafael A. Irizarry, Bridget Hobbs, Francois Collin, Yasmin D. Beazer-Barclay, Kris-
ten J. Antonellis, Uwe Scherf, and Terence P. Speed, Exploration, normalization,
and summaries of high density oligonucleotide array probe level data. Biostatistics
(Oxford, England), 4(2):249264, April 2003. PMID: 12925520.
[5] Affymetrix Web Site. http://www.affymetrix.com
[6] S. B. Pounds, C. Cheng, and A. Onar, Statistical Inference for Microarray Studies. In:
D. J. Balding, M. Bishop, and C. Cannings, editors, Handbook of Statistical Genetics,
pages 231266. John Wiley & Sons, Ltd, 2008.
[7] M. Bittner, P. Meltzer, Y. Chen, Y. Jiang, E. Seftor, M. Hendrix, M. Radmacher,

R. Simon, Z. Yakhini, A. Ben-Dor, N. Sampas, E. Dougherty, E. Wang, F. Marinco-
la, C. Gooden, J. Lueders, A. Glatfelter, P. Pollock, J. Carpten, E. Gillanders, D.
Leja, K. Dietrich, C. Beaudry, M. Berens, D. Alberts, and V. Sondak, Molecular
classification of cutaneous malignant melanoma by gene expression profiling. Nature,
406(6795):536540, August 2000. PMID: 10952317.
[8] P. Tamayo, D. Slonim, J. Mesirov, Q. Zhu, S. Kitareewan, E. Dmitrovsky, E. S. Lan-

der, and T. R. Golub, Interpreting patterns of gene expression with self-organizing
maps: methods and application to hematopoietic differentiation. Proceedings of the
National Academy of Sciences of the United States of America, 96(6):29072912,
March 1999.

[9] R. Sharan and R. Shamir, CLICK: a clustering algorithm with applications to gene
expression analysis. Proceedings / ... International Conference on Intelligent Systems
for Molecular Biology; ISMB. International Conference on Intelligent Systems for
Molecular Biology, 8:307316, 2000. PMID: 10977092.
[10] F. E. Satterthwaite, An approximate distribution of estimates of variance components.
Biometrics Bulletin, 2(6):110114, December 1946.
[11] Gordon K. Smyth, Linear models and empirical Bayes methods for assessing diffe-
rential expression in microarray experiments. Statistical applications in genetics and
molecular biology, vol. 3, issue 1, 2004. PMID: 16646809.
[12] V. G. Tusher, R. Tibshirani, and G. Chu, Significance analysis of microarrays applied
to the ionizing radiation response. Proceedings of the National Academy of Sciences
of the United States of America, 98(9):51165121, April 2001. PMID: 11309499.
[13] Yoav Benjamini and Yosef Hochberg, Controlling the false discovery rate: A practical
and powerful approach to multiple testing. Journal of the Royal Statistical Society.
Series B (Methodological), 57(1):289300, January 1995.
[14] M. Ashburner, C. A. Ball, J. A. Blake, D. Botstein, H. Butler, J. M. Cherry, A. P.
Davis, K. Dolinski, S. S. Dwight, J. T. Eppig, M. A. Harris, D. P. Hill, L. Issel-
Tarver, A. Kasarskis, S. Lewis, J. C. Matese, J. E. Richardson, M. Ringwald, G. M.
Rubin, and G. Sherlock, Gene ontology: tool for the unification of biology. The Gene
Ontology Consortium. Nature genetics, 25(1)2529, May 2000. PMID: 10802651.
[15] Louis du Plessis, Nives Skunca, and Christophe Dessimoz, The what, where, how
and why of gene ontologya primer for bioinformaticians. Briefings in bioinformatics,
12(6):723735. November 2011. PMID: 21330331.
[16] Steven Maere, Karel Heymans, and Martin Kuiper, BiNGO: a Cytoscape plugin to
assess overrepresentation of gene ontology categories in biological networks. Bioinfor-
matics (Oxford, England), 21(16):34483449, August 2005. PMID: 15972284.
[17] Michael E. Smoot, Keiichiro Ono, Johannes Ruscheinski, Peng-Liang Wang, and Trey
Ideker, Cytoscape 2.8: new features for data integration and network visualization.
Bioinformatics (Oxford, England), 27(3):431432, February 2011. PMID: 21149340.
[18] Aravind Subramanian, Pablo Tamayo, Vamsi K. Mootha, Sayan Mukherjee, Benjamin
L. Ebert, Michael A. Gillette, Amanda Paulovich, Scott L. Pomeroy, Todd R. Golub,
Eric. S. Lander, and Jill P. Mesirov, Gene set enrichment analysis: A knowledge-
based approach for interpreting genome-wide expression profiles. Proceedings of the
National Academy of Sciences of the United States of America, 102(43):1554515550,
October 2005.
[19] GSEA. http://www.broadinstitute.org/gsea/index.jsp

9. fejezet
Biomarker-elemzs
Elsknt sszefoglaljuk a biomarker-kutats legfbb kihvsait. Majd ismertetjk a feltte-

les valsznsgi megkzeltsbl szrmaz relevancia-fogalmakat s az ezekhez kapcsold
strukturlis tulajdonsgait a Bayes-hlknak. Ismertetjk az ilyen strukturlis jegyeken
alapul, utfeldolgozsban sklzhat Bayes-hl alap relevancia-elemzst.
Jellsek
x,x,x skalr, (oszlop)vektor vagy halmaz, mtrix
X, x, p(X) vletlen vltoz X, rtk x,
valsznsgi tmegfggvny/srsgfggvny X
EX,p(X) [f (X)] f (X) vrhat rtke p(X) szerint
varp(X) [f (X)] f (X) variancija p(X) szerint
Ip (X|Z|Y ) X s Y megfigyelsi fggetlensge Z felttellel p esetben
(X Y |Z)p Ip (X|Z|Y )
(X 6 Y |Z)p ) Ip (X|Z|Y )
CIp (X; Y |Z) X s Y beavatkozsi fggetlensge Z felttellel p esetben
(rszleges) sorrendezs
c a vltozk egy teljes sorrendezse
G adott G irnytott krmentes grffal kompatibilis sorrendek halmaza
(n) n objektum sorrendjeinek (permutciinak) a halmaza
G, Bayes-hl struktrja s paramterei
G G irnytott krmentes grf esszencilis grfja
G(n)/G k (n) n csompont maximum k szlj DAG-ok halmaza
G adott sorrenddel kompatibilis DAG-ok halmaza
GG adott G DAG-gal megfigyelsi ekvivalens DAG-ok halmaza
kompatibilitsi relci
pa(Xi , G) pa(Xi , G) szli halmaz kompatibilis sorrendezssel
MBp (Xi ) Markov-takarja Xi -nek p-ben

Tovbbi konvencik az egyes fejezetekben jelltek.
Antal Pter www.interkonyv.hu

pa, pa(Xi , G) szli vltozk halmaza, Xi szleinek halmaza G-ben

paij a j. konfigurcija a szli rtkeknek egy sorrendben
bd(Xi , G) Xi szleinek, gyerekeinek s gyerekei egyb szleinek halmaza G-ben
MBG(Xi , G) a Markov-takar algrfja Xi -nek G-ben
MBM(Xi , Xj , G) a Markov-takarbelisg relcija
n valsznsgi vltozk szma
k maximlis szlszm DAG-okban
N mintaszm
V sszes valsznsgi vltozk szma
Y vlasz, kimeneteli, fgg vltoz
N+ /N...,+,... Ni /N...,i,... megfelel sszegei
D|X X vltozhalmazra szktett adathalmaz
|| kardinalits
1() indiktorfggvny
0 00
f ,f f fggvny els s msodik derivltjai
T
A A mtrix transzponltja
xy x s y vektorok skalrszorzata
+
/ informatv/nem informatv informcis kontextus
, , , 6=, standard logikai opertorok
, , \, standard halmazmveletek
KB `i bizonythatsga KB-bl
a Gamma fggvny
Beta(x|, ) a Bta eloszls srsgfggvnye (pdf)
Dir(x|) a Dirichlet-eloszls srsgfggvnye
N(x|, ) az egyvltozs norml eloszls srsgfggvnye
N(x|, ) a tbbvltozs norml eloszls srsgfggvnye
BD,BDe Bayesian Dirichlet-prior, megfigyelsi ekvivalens BD-prior
BDCH Bayesian Dirichlet (BD) prior 1 hiperparamterekkel
BDeu megfigyelsi ekvivalens s uniform BD prior
L(; DN ) p(DN |) likelihood fggvnye
H(X, Y ) X s Y entrpija
I(X; Y ) X s Y klcsns informcija
KL(XkY ) X s Y KullbackLeibler-divergencija
H(XkY ) X s Y keresztentrpija
L1 (, ), L2 (, ) az abszoltrtkbeli (Manhattan) ngyzetes (euklidszi) tvolsgok
L0 (, ) 0-1 vesztesg
O()/() aszimptotikus, nagysgrendi fels s als hatr
Rvidtsek
ROC Receiver Operating Characteristic (ROC) grbe
AUC ROC-grbe alatti terlet

BMA Bayes-i modell tlagols

BN Bayes-hl
DAG irnytott krmentes grf
FSS jegykivlasztsi problma
MAP maximum a posteriori
MI klcsns informci
ML maximum likelihood
MBG Markov-hatr grf
MB Markov-takar
MBM Markov-takarbelisg
(MC)MC (Markov-lncos) Monte Carlo
NBN naiv Bayes-hl
9.1. Bevezet
Az lettani tudomnyok tern a kzelmltban vgbement technikai fejlds lehetv tette a
genomok szekvenlst, s a nagy teresztkpessg genomikai, proteomikai, metabolikai
technikk jradefiniltk a biolgit s az orvostudomnyt, tovbb megnyitottk a geno-
mikai s poszt-genomikai korszakot. E korszak nagy gretei a szemlyre szabott megelzs,
diagnzis, hatanyagok s kezels. A klinikum nzpontjbl azonban ezek aztmeneti
gretek mg mindig bevltsukra vrnak, s folyamatosan mind ksbbi idpontokra to-
ldtak. Adatelemzsi nzpontbl sem magyarz jelleg, diagnosztikai biomarkerek, sem
j oki clpontok s j hatanyagok, sem objektv klinikai vgpontok felfedezse nem vl-
totta be a vrakozsokat, amint azt olyan hrhedt problmk s cikkek pldzzk, mint a
missing heritability, missing the mark s a production gap a gygyszerszetben.
Az utbbi kt vtizedben egyre gyorsul temben felhalmozd rendkvl sokrt, he-
terogn s nagy mennyisg orvosbiolgiai adatra s tudsra gondolva valban paradoxon-
nak tnik a gygyszerkutatsok egyre roml kltsghatkonysga, vagy akr a szemlyre
szabott medicina remltnl lassabb fejldse. A remlttl elmarad teljestmnye az oki,
diagnosztikai, leri biomarkereknek azrt is meglep, mert a hatanyagokhoz, gnekhez s
betegsgekhez tartoz felhalmozd informciforrsok gazdagsga megdbbent: ez tar-
talmaz olyan gygyszerszeti informcikat, mint a hatanyag taxonmik, kmiai ujjle-
nyomatok, clfehrjk, hatanyagok s betegsgek gnexpresszis profiljai, mellkhatsok,
indikcik, off-label gygyszeralkalmazs. Tovbb nvekszik a mennyisge a betegs-
gek molekulris biolgiai htterrl rendelkezsre ll informciknak, gymint tvonal-
informcik, gnregulcis mechanizmusok, fehrje-fehrje hlzatok, gn-betegsg hl-
zatok s a genetikai, epigenetikai varicik hatsai. Megoldst az j, egyre rszletesebb s
kiterjedtebb molekulris biolgiai adatok mellett legalbb annyira az egyre hatkonyabb,
tudsgazdag informatikai s statisztikai elemzsektl is vrnak a szakrtk, klnsen a
betegsgek genetikai htternek feldertse kapcsn.
Paradox mdon azonban a potencilis biomarkerek nagy szma is statisztikai kihvst
jelent, illetve az informcikszlet sokflesge is komoly kihvst tmaszt az integrlt elem-

zs, fzi szempontjbl. Ezek kvetkeztben a biomarker-felfedezs tbb szempontbl is

tekinthet a transzlcis kutatsok egyik kritikus szk keresztmetszetnek. j biomarker-
elemzsi mdszerek ennek megfelelen a nagy mennyisg httrtuds befogadst, rend-
szerszemllet integrcit, rtelmezhetsget s dntselmleti felhasznlst prbltak biz-
tostani. A fejezetben sszefoglaljuk a Bayes-hlk felhasznlst a biomarkerek kvetkez
ngy tulajdonsgnak jellemzsre:
1. Kzvetlensg.
2. Oksgi szerep.
3. Hatserssg.
4. Interakcik.
Az adatok s a tuds integrlt elemzsre tbb keretrendszerben is folynak kutatsok,

mint pldul logikai, valsznsgi logikai vonalon az adatok relcis voltra tekintettel
lv mdszerek, vagy (ler) hlzati vonalon a nagylptk hlzatok szablyszersgeit
vizsgl mdszerek. A fejezetben trgyalt rendszeralap megkzelts a Bayes-statisztikai
keretrendszerben az gynevezett Bayes-hl alap Bayes-i tbbszint relevancia elemzs
(Bayesian network-based Bayesian Multilevel Analysis of relevance, BN-BMLA). Ez komp-
lex modellek felett tlagolva szrmaztat a vltozk ers relevancijra s azok egyre ma-
gasabb szint interakciihoz a posteriori valsznsgeket. A rendszeralap megkzeltst
s a Bayes-statisztikai keretrendszert integrl mdszertanok npszersgt az magyarz-
za, hogy egyrszt gyakran a komplex modell identifikcihoz nincs elg adat, de a Bayes-i
megkzelts lehetv teszi rdekes modelltulajdonsgok kikvetkeztetst is, msrszt ma-
ga a rendszeralap megkzelts biztostja, hogy a priori ismeretek elrhetek legyenek az
induktv kvetkeztetsbe val integrlshoz. A rendszeralap megkzeltsben a Bayes-
hlzatok hasznlata azrt indokolt, mivel uniklis, hromfle rtelmezst is lehetv tev
modellezst knlnak, nevezetesen egy trgyterlet valsznsgi eloszlsnak hatkony al-
gebrai reprezentlst, a feltteles fggetlensgek tfog rendszernek reprezentlst s
az oksgi modell lerst, lsd a 9.1. bra.
A Bayes-hl-modellosztly tovbbi elnye, hogy adott esetekben a modellparamte-
rek feletti tlagols analitikusan kezelhet, amely analitikus kezelst rszben lehetsges
a modellstruktrk feletti tlagolsra is kiterjeszteni tbbvltozs relevancia-elemzsek
esetben is. A fennmarad mintavteli eljrsokat pedig Monte Carlo-mdszerek prhuza-
mostsval tehetk hatkonny, kihasznlva a szmtstechnikai ilyen irny fejldst.
A jegyzet valsznsgszmtsi s valsznsgi grfos modellekkel kapcsolatos httere
a Valsznsgi dntstmogats jegyzetben trgyalt.
9.2. Elmleti httr

Az orvosbiolgiai kutatsok egyik alapkrdse egy vagy tbb kimeneteli vltoz esetn azon
vltozk beazonostsa, amelyek prediktv (diagnosztikai) vagy beavatkozsi (terpis)
lehetsgeket knlnak.

P(M)
P(K|M) Mutci
Kezdet
P(B|K,M)
Betegsg
3. Egyttes eloszls reprezentlsa P(S|B) P(T|S,M)
P( M , K , B, S , T ) Szimptma Terpia
P( M ) P( K | M ) P( B | K , M ) P( S | B) P(T | S , M )
1. Oksgi modell
MP={IP,1(B;T|M),...}
2. Fggetlensgek grfos reprezentlsa
9.1. bra. Bayes-hlk reprezentcijnak hrom aspektusa
Tbbvltozs megkzeltsben mind a diagnosztikai, mind az oksgi aspektus optima-

litsa tbbflekppen is formalizlhat. Diagnosztikai aspektusban nyilvnval kvetel-
mnyek a prediktv er, binris esetben az rzkenysg, specificits, pozitv s negatv
prediktv rtk, de fontos kvetelmny a redundanciamentessg is, amit mind a predik-
torok minimlis szma, de a prediktorok egymshoz viszonytott egyedisge is jelezhet.
Oksgi aspektusban szintn nyilvnval kvetelmny a hatserssg, illetve itt is a rend-
szerszint egyedisge a vltozknak. Mindkt esetben kzs szempont lehet az elrhetsg
s a kltsg aspektusa. A formalizls kidolgozshoz tekintsk a kvetkez fogalmakat.
A feltteles vagy prediktv megkzeltsben, amikor egy vagy tbb kimeneti vltozt be-
folysol bemeneti (vagy prediktor) vltozt keresnk, a jegyrszhalmaz kivlasztsi prob-
lma (Feature Subset Selection, FSS) s a relevancia fogalma definilhat a modellosztly
s a predikciban hasznlt vesztesgfggvny felhasznlsval, st akr a rendelkezsre ll
mintamret s az optimalizci is ebbe belefoglalhat (ezen csomagol megkzelts le-
rst lsd [9]). Az axiomatikusabb szr megkzeltsben az FSS fogalmai s mdszerei
a kvetkez valsznsgi, egyttes eloszlsra tmaszkod defincira tmaszkodnak [14].
9.1. Definci. Egy vltozhalmazt, M BP (Xi )-t Xi Markov-takarjnak neveznk

P (X1 , . . . , Xn ) eloszlsban, ha (Xi
V \ M B(Xi )|M B(Xi ))P (egyrtelmsg esetn P
nem jellt). A minimlis Markov-takart Markov-hatrnak nevezzk s M Bo(Xi )P jelli.
Ha a Markov-takar egyrtelmen ltezik, akkor bevezethet egy szimmetrikus pron-

knti relci a Markov-takarbelisgre: M BM (Xi , Xj )P fennll Xi s Xj kztt P -ben,

ha
M BM (Xi , Xj )P Xj M Bo(Xi )P (9.1)
A Markov-hatrbelisgen bell definilhat egy szigorbb kategria is, amelyet kzvet-
len fggsnek neveznk, ha minden diszjunkt Z V halmazra (X 6 Y |Z) fennll (ebben
az esetben a fggs kt vltoz kztt is ltezik, amikor Z = , ami nem felttlenl igaz a
Markov-hatrbeli vltozproknl).
A feltteles valsznsgi analgja, amely modellosztlytl, vesztesgfggvnytl, adat-
halmaztl, optimalizcitl fggetlen, a kvetkez:
9.2. Definci. Egy Xi bemeneti (prediktor) vltoz vagy jegy ersen relevns Y -ra, ha
ltezik egy olyan Xi = xi , Y = y s
si = x1 , . . . , xi1 , xi+1 , . . . , xn , Si = {X1 , . . . , Xi1 , Xi+1 , . . . , Xn },
hogy p(xi , si ) > 0 s p(y|xi , si ) 6= p(y|si ). Az Xi jegy gyengn relevns, ha nem ersen
relevns, s van egy olyan Si0 rszhalmaza az Si jegyeknek, amelyekre ltezik egy olyan
xi , y s s0i , hogy p(xi , s0i ) > 0 s p(y|xi , s0i ) 6= p(y|s0i ). Egy jegy relevns, ha gyengn vagy
ersen relevns; amgy irrelevns [9].
A Bayes-hlk sokoldalsga rengeteg lehetsget knl a relevancia reprezentls-

ra [14]. A kvetkez ttel egy elgsges felttelt ad a relevns jegyek Bayes-hls repre-
zentlsra.
9.1. Ttel. Egy (G, ) Bayes-hl ltal definilt p eloszls esetben a bd(Y, G) vltozk
Y Markov-takarja, ahol bd(Y, G) Y szleinek, gyerekeinek s gyerekei egyb szleinek
halmaza [14]. Ha a p eloszls stabil s G perfekt trkpe, akkor bd(Y, G) az egyrtelm
s minimlis Markov-takarja Y -nak (MBSp (Y )), tovbb, Xi MBSp (Y ) ha Xi ersen
relevns [16].
A tovbbiakban bd(Y, G)-re mint Y G-beli Markov-takarjra hivatkozunk MBS(Y, G)

jellssel, azzal az implicit feltevssel, hogy p Markov-kompatibilis G-vel . Hasonlan, a
szrmaztatott (szimmetrikus) pronknti relcit is
MBM(Y, Xj , G) Xj bd(Y, G) (9.2)
Markov-takarbelisgnek hvjuk.
A Markov-takar jelentsgt az adja, hogy egy olyan minimlis vltozhalmazt azo-
nost, amely szksges s elgsges egy vltozhalmaz esetn. A 9.2. bra egy vals orvosi
diagnosztikai modell Markov-takarjt mutatja.

Egy ltalnos Bayes-i formalizciban (pldul Dirichlet-eloszlsok alkalmazsval p(|G) paramter
prioroknl), a bd(Y, G) szomszdok 1 valsznsggel alkotnak Markov-hatrt [13].

9.2. bra. Egy preoperatv petefszekrk diagnosztikai modell [3]. A Pathology clvltozt
flkvr kiemels jelzi, Markov-takarjt szrke keret.
9.3. Bayes-i tbbszint relevancia-elemzs

Korbbi relevancia-elemzsi mdszerek, amelyek Bayes-hlkat hasznltak: a Markov-
takar Kzelt Algoritmus [11], a kiterjesztsei [18], illetve az IAMB algoritmus s vari-
nsai [2, 16, 17]. Az optimalizcis alap, maximum likelihood vagy maximum a posteriori
(MAP) identifikcis mdszerek sztochasztikus s Bayes-i kiterjesztsei is megjelentek (egy
randomizlt mdszert lsd [15]). A szmtsignyesebb, Bayes-i megkzeltsben az adott
Y clvltozra vonatkoz relevancik klnbz reprezentciinak az a posteriori valsz-
nsgi eloszlsst szeretnnk megismerni. Korbbi munkkban a cl a trgyterlet tfog
jellemzse volt MBM poszteriorokkal [8, 10, 12].
Az FSS problmt knnyedn ki lehet terjeszteni, hogy tartalmazza a relevns vltozk
interakcis struktrjt is, nevezetesen a Markov-takar grf mint strukturlis modelltu-
lajdonsg vezethet be (osztlyozsi algrfknt is gyakran hivatkozott [1, 2].
9.3. Definci (Markov-takar grf). A G Bayes-hl-struktra Markov-takar rszgrf-
ja vagy hatrol mechanizmusok modellje MBG(Y, G) az Y vltozra, ha tartalmazza a
bd(Y, G) Markov-takart s az Y -ba s gyerekeibe befut leket.
Az MBG-knek ltezik valsznsgi s kauzlis rtelmezse. Minderrl, valamint a
megfigyels ekvivalens MBG-krl, a szmossgukra adhat korltrl s a predikciban
val hasznlatukrl bvebb informci a [1, 2] irodalmakban tallhat. Az MBG-k egy
fontos tulajdonsga, hogy teljes adathalmaz esetn az MBG ismerete elgsges felttel a
relevns vltozk meghatrozshoz. Sajnos az MBG poszterior szmtsa exponencilis

komplexits, azonban egy vltozsorrendre alapozott sorrend feltteles poszterior poli-

nom idben szmthat, ami kihasznlhat sorrendi MCMC-mdszerekkel [2]. Az MBM
s az MBS (vagy MBG) elemek a Bayes-hls jegyeken alapul modellezs kt klnbz
megkzeltse. Az elbbi esetben a jegyek s lehetsges rtkeik szma knnyen kezelhet
( a vltozk fggvnyben lineris vagy kvadratikus). Ekkor az egyes MBM-jegyek a teljes
modell egy kis rszt reprezentljk, s ezek integrlsval jutunk a teljes modellt ler
kphez. Ilyen jegyek a pronknti lek, a knyszertett lek s a Markov-takarbelisg
(MBM). Egy lehetsges msik megkzeltsben egy komplex jegy szolgl tfog kppel a
teljes modellrl. Ilyen jegyek lehetnek statisztikailag szignifikns algrfok, mint pldul
Markov-takar grfok (MBG-k). A tbbszint Bayes-i relevanciaanalzis annyival nyjt
tbbet, hogy mindkt megkzeltst magba foglalja, ezltal mg teljesebb kpet ad a
teljes modellrl. Lehetv teszi tovbb az egyes egyszer jegyek (MBM), jegyek hal-
mazai (MBS), illetve a jegyalgrfok (MBG) a posteriori valsznsgeinek szmtst s
sszekapcsolst. Tovbbi szintek is lehetsgesek trgyterlet-specifikus tuds felhaszn-
lsval, mellyel a vltozk tpus szerinti csoportostsa vlik lehetv. Tovbb lehetsges
az MBG-k ltal kifesztett trnl szkebb CRPDAG-ok ltal kifesztett teret hasznlni.
A sklzhatsg megrtshez vegyk szre, hogy az MBM, MBS, s MBG jegyek egyre
nvekv komplexits szinteket definilnak (|M BM | | MBS | < |MBG| < |BN |).
9.4. Tbbvltozs sklzhatsg: a k-MBS jegy

A tbbszint Bayes-i relevanciaanalzis- (BMLA-) mdszer a klnbz absztrakcis szin-
tek alkalmazsval szleskr elemzst tesz lehetv. Az MBS s az MBG jegyek sokkal
kifejezbbek az MBM jegyeknl, m kardinalitsuk exponencilis, illetve szuperexponenci-
lis, mg az MBM esetn ez lineris a vltozk szmnak fggvnyben. Ennek megfelelen
elfordulhat, hogy az MBS s az MBG a posteriori valsznsgek laposak, mikor MBM
poszteriorok mr rgcscsosak (azaz 0-hoz vagy 1-hez vannak kzel). A lapos poszte-
rior azt jelenti, hogy szmos, akr szz jegy rendelkezik kzepesen magas valsznsggel,
s nincs igazn kzttk legjobb. A cscsos poszterior ezzel szemben azt jelenti, hogy
a jegyek sokasga kzl van egy-kt olyan, amelyik marknsan nagyobb valsznsggel
rendelkezik a tbbinl. Tipikusan - mg lapos poszteriorok esetn is a legvalsznbb MBS
s MBG jegyek rendelkeznek kzs rszekkel. Ennek kezelsre vezethetek be a k-MBS
s k-MBG jegyek, melyek a k paramter segtsgvel sklzhat komplexitsak.
9.4. Definci (k-MBS). Egy p(V ) eloszls esetn (|V | = n), ha minden Xi s vltoz,
ahol s V , Markov-hatrbeliek mbs s |s| = k, akkor s egy k-s Markov-hatr subset
k-MBSp (s, Y ) (mbs : MBSp (mbs, Y ), s mbs.
A k-MBSp fogalom grf-alap meghatrozsa a kvetkez.

Mivel p 1 valsznsggel stabil Dirichlet-paramtereloszlsok esetn [13], szintn hasznljuk az in-
diktorfggvnyt k-MBS(s, Y, G) feltve, hogy p kompatibilis G-vel. Azonban a nem-stabil esetek miatt,
ezeket a halmazokat k-s Markov-takar rszhalmazoknak is nevezik.

9.1. Propozci. Egy stabil p eloszls esetn, amit (G, ) Bayes-hl definil, s egy k-s
Markov-hatr k-MBSp (s, Y ), ha s bd(Y, G) s |s| = k.
A k-MBS jegyek elnye, hogy sklzhatak, kardinalitsuk polinomilis O(nk ), ppen

ezrt jl alkalmazhatak a relevanciaanalzis sorn. A gyakorlatban ez azt jelenti, hogy
megvizsglhatjuk a legvalsznbb k-MBS(Y ) jegyeket a k paramter egy elg szles tar-
tomnyban. Tovbbi elnyk, hogy a k-MBS s k-MBG poszteriorok offline szmthatk
a MBS s MBG poszteriorok kzelt rtkbl. A legnagyobb k rtk, amelynl az egyes
modell-tulajdonsgok (egyes strukturlis jegyek) nagy valsznsggel megjelennek, prob-
lmafgg. Megfelel k rtk vlasztshoz bottum-up vagy top-down megkzeltst kell
alkalmazni, azaz rtelemszeren az elbbi esetben a vizsglt k paramter kezdeti rtke
k = 1, mg az utbbinl k = |V |.
Szimmetria-okok miatt addik a kvetkez ltalnostsa a k-as Markov-takar hatr
egy k prediktorra korltozott fogalmnak [5].
9.5. Definci. Legyen az mbs vltoz halmaz egy Markov-takar a p(V ) eloszls esetn.
Egy s vltozhalmazt relevnsbelinek s k-as Markov-takar-rszhalmaznak (k-subMBS)
neveznk, ha |s| = k s s mbs. Egy s vltozhalmazt rszben relevnsnak s k-as
Markov-takar-fedhalmaznak nevezzk (k-supMBS), ha |s| = k s mbs s.
A k-subMBS s k-supMBS fogalmak a relevns vltozk jelenltt s hinyt hiva-

tottak kifejezni. Egy ssub k-subMBS halmaz azokat a vltozkat tartalmazza, amelyek
biztosan (szksgszeren) ersen relevnsak. Egy scsup k-supMBS halmazban nem szerep-
l vltozk a biztosan nem ersen relevns vltozkat tartalmazza (azaz egy k-supMBS
rszben relevns halmaz egy elgsges vltozhalmazt tartalmaz). Vegyk szre, hogy a k-
subMBS s k-supMBS fogalmak egy k-ban indexelt hierarchikusan kapcsold, tlapold
hipotzishalmazt jellnek. Valjban a k-subMBS-ek s k-supMBS-ek k-ban polinomilis
szmossga az MBM jegyek lineris szmossgt s az MBS-ek exponencilis szmossgt
hidalja t: O(n) < O( nk ) < O(2n ), ahol n jelli vltozk szmt. Mivel az MBG-k s
DAG-ok szmossga mg ennl is magasabb [6], az MBM-ek, k-subMBS-ek/k-supMBS-ek,
MBS-ek, MBG-k, esszencilis grfok s DAG-ok egy egymsba gyazott, egyre komple-
xebb hipotzisosztlyt alkotnak a relevancival kapcsolatban. Ennek megfelelen ezek a
hierarchia-szintek termszetes mdon hasznlhatak fel egy tbbszint relevancia elemzs-
ben, amelyben a k-MBS-ek vltoz k-ra egy sklzhatan tbbvltozs relevancia-elemzst
tesznek lehetv.
A Bayes-i megkzeltsben egy s halmaz relevnsbelisgnek poszteriorja:
X
p(s|DN ) = p(MBS(Y, G) = s|DN ) + p(MBS(Y, G) = s0 |DN ), (9.3)
s0 :ss0
Analg mdon, egy s halmaz rszbenrelevns voltnak poszteriorja:

X
p(s|DN ) = p(MBS(Y, G) = s|DN ) + p(MBS(Y, G) = s0 |DN ). (9.4)
s0 :ss0

9.5. Tbbclvltozs relevancia

Egy sszetett vizsglatnl elfordulhat, hogy egyszerre tbb clvltozt kell egyttesen
megvizsglni. Ilyen esetben a clvltozk Y halmazhoz keressk a relevns vltozkat,
s a clvltozk kztti kapcsolat nem jtszik szerepet. Tekinthetnk erre gy is, mint
egyfajta aggreglsra, ami hasonlt a korbban bemutatott jegyek aggreglsra, csak ez-
ttal a clvltozkon elvgezve. Szerencsre a relevancia alapvet sszefggsei egyszeren
kiterjeszthetek clvltoz halmazokra.
9.6. Definci (Multi-target relevance). Egy jegy (vletlen vltoz) Xi ersen (gyengn)
relevns Y clvltozkra, ha ersen (gyengn) relevns brmely Yi Y elemre.
A Markov-takar rszgrf tbb clvltozra val kiterjesztse hasonlkpp trtnik. A

tbb clvltozra szmtott MBG szintn meghatrozza a szksges s elgsges fggsgi
struktrt s clvltozk predikcijhoz szksges paramtereket.
9.7. Definci. Egy Bayes-hl G rszgrfjt Y clvltozhalmaz Markov-takar rsz-

grfjnak nevezzk (MBG(Y , G)), ha az tartalmazza az Y clvltozhalmaz Markov-
takarjnak csompontjait s clvltozkba valamint azok gyermekeibe fut leket.
9.6. Poszterior-dekomponlson alapul interakci s re-

dundancia
A relevancia-analzis sorn a hangsly jellemzen a nagy a posteriori valsznsg jegyek
elemzsre kerl, habr az alacsony valsznsg is jelezhet fontos sszefggseket. Tb-
bek kzt ltrehozhatk olyan mrtkek, melyek rvn magasszint szemantikus jellemzk
mrhetek. Ilyen az ltalunk ltrehozott interakci s redundancia felfedst elsegt
mrtk (score). Ennek szmtshoz az egzakt k-MBS poszterior s annak MBM alap
approximcija szksges. Az approximci a k-MBS-beli vltozk (egy adott Y kzponti
vltozra vonatkoz) MBM valsznsgeinek szorzataknt ll el az albbiak szerint:
Y
p(k-MBS(X0 , Y, G)|Dn ) p(MBM(Y, Xi , G)|Dn ), (9.5)
Xi X0
Ez a kzelt szmts alapveten a struktra poszterior dekomponlhatsghoz ktdik

s egy kzvetlen Bayes-i megkzeltst tesz lehetv a redundancia s az interakci tulaj-
donsgok vizsglatra. Ugyanis ha egy magasabb rend k-MBS poszterior nagyobb, mint
egy approximlt alacsonyabb rend k-MBS poszterior, az azt jelenti, hogy a relevns vl-
tozk halmazban vannak interakcis tagok. Az ellenkez eset vagyis ha az approximlt
poszterior a nagyobb, mint a kzvetlenl szmtott pedig redundns vltozk jelenltt
jelzi. Ez azzal magyarzhat, hogy az approximlt k-MBS poszterior szmtsa gy tr-
tnik, mintha a k-MBS fggetlen vltozkbl llna, viszont a szmtott k-MBS poszterior
a vltozk egyttes hatsrl ad kpet. Mindez a kvetkez defincival formalizlhat:

9.8. Definci (Interaction and redundancy). Az X0 = {Xi1 , . . . , Xik } jegyek 1,k-szorzat

interakcisak
Q (redundnsak), ha a poszterior p(k-MBS(X0 , Y, G)|DN ) nagyobb (kisebb)
mint j p(MBM(Xij , Y, G)|DN ).
Megjegyezzk, hogy ez a definci ltalnosthat magasabb rend k-ra (azaz k > 1),
illetve tbb clvltozra. A redunds jegyek feltrsra lehet gy is tekinteni, mint a
stabil jegyek feltrsnak komplementerre, vagyis legegyszerbb esetben olyan jegyeket
kereshetnk, melyek a stabil jegyek mellett tnnek fel. A k-(sub)MBS poszterior a sta-
tisztikai interakci j, rendszerszint jellemzst teszi lehetv, amely a valdi poszterior
s alacsonyabb rend k-subMBS poszteriorokon alapul kzelts klnbsgn alapul, s a
vltozk modellen keresztli klcsns informcitartalmval fgg ssze.
9.7. MBS poszteriorok utfeldolgozsa s megjelentse

Az MBS poszterior utfeldolgozsban s megjelentsben a kvetkez fogalmak s md-
szerek kiemelked fontossgak (rszletes bemutatsuk a Bioinformatika jegyzetben tall-
hat).
1. Feltteles MBS poszteriorok megjelentse a modell struktrra vettve: A Bayes-

hl-struktra felhasznlhat az MBSs s az MBM marginlis poszteriorok megjele-
ntsre, amely akr a kvetkez feltteles formban is megkonstrulhat:
p(mbs|DN , (mbs)), ahol (mbs) egy tetszleges logikai kifejezs a prediktorok MBS
sttuszrl.
2. MBS s k-MBS poszteriorok megjelentse rszhalmaz hln: Mind a megjelents,
mind az utfeldolgozs kihasznlhatja a rszhalmazok azon tulajdonsgt, hogy a
metszet s uni mveletekkel egy hlt alkotnak, ahol a minimlis s maximlis
elemek az res s a teljes halmazok. A megjelentsben a hl tranzitv reduklt
trkpe (TRM) hasznlhat, ahol a csompontok a k. oszlopban a k mret rsz-
halmazokhoz tartoznak. A TRM egy DAG-knt is brzolhat, ahol az lek a part
of relcit jellik.
3. A relevancia-fa: A relevancia-fa a relevanciabelisg poszteriorja szerint mutatja a
prediktorok halmazait. A prediktorok rszhalmazai mret szerint rendezve jelenik
meg, mivel egy halmaz megjelentsnek vzszintes pozcija, szne, mrete a halmaz
relevanciabelisgtl fgg (ami rtelemszeren monoton vltozik a mrettel).
4. A relevancia-interakci: A pronknti, relevancia alap statisztikai interakci egy
hierarchikus interakcis diagramon brzolhat. Ezen az egyes prediktorok (pldul
SNP-k) ers relevancijt egy oszlop jelzi a bels krn, a bels gyr egy maga-
sabb aggregcis szintnek felel meg (pldul gneknek), a kls rsz reprezentlja a
legmagasabb szint entitsok relevancijt (pldul nagyobb kromoszomlis rgik).
Az lek vastagsga arnyos az interakcik erssgvel, illetve piros jelzi az interakcit
s kk a redundancit.

9.8. Tuds alap utaggregls

A relevancia Bayes-i megkzeltsnek az az elnye, hogy a modell poszterior elmleti meg-
ktsek nlkl transzformlhat s rtelmezhet. Jelen esetben a Bayes-hl-struktrk
tert alkalmazva ez azt jelenti, hogy a poszterior aggreglhat a G modellstruktrk felett,
ahol minden particionls egy potencilisan j rtelmezst tesz lehetv. Jellemzen kevs
partci rendelkezik ltalnos vagy trgyterlet-specifikus rtelmezssel. A nem-informatv
modellaggregls mellett lehetsges informatv aggregls is az a priori trgyterleti tu-
ds felhasznllsval. Mindkt esetben az aggregls (1) lehetv teszi a trgyterleti
relevancia-relcik ltalnos lerst, valamint (2) magasabb konfidencia-szint numeri-
kus eredmnyeket eredmnyez. Pldul egynukleotidos polimorfizmusok (SNP-k) esetn a
gnszintre aggregls egy termszetes lps, mivel szmos SNP ktdik egy adott gnhez.
Az aggregls rvn a gnek szintjn is szmthat a Markov-takarba tartozs (MBM) s
a Markov-takar halmaz (MBS) relcik. A szmts mdja levezethet a megfelel SNP
szint szmtsokbl. Az albbiakban erre lthat egy plda, amely egy adott gnhez
tartoz SNP-k Y vltoz Markov-takarjba tartozsnak valsznsgt adja meg:
X
p(M BM (Y, g|D)) = p(G|D). (9.6)
G:s:onGene(g,s))M BM (Y,s,G)
9.9. sszefoglal
A Bayes-hln alapul tbbszint Bayes-i metodolgia egy igen rszletes relevancia-elem-
zst tesz lehetv, amely rvn tbbek kztt kpet kapunk a mintaszm elgsges voltrl
is. Tovbb lehetsget nyjt szleskr trgyterleti a priori tuds felhasznlsra, s ki-
vlan alkalmazhat kis mintamret esetn is. Az interakcik MBG jegy alap egzakt
modellezse lehetv teszi a relevns jegyek s a kztk lv interakcik tanulsi bizonyta-
lansgnak szmszerstst. Az MBS s MBG komplex modelltulajdonsgok clvltoz-
fkuszltak, de rendszerszemlletek, sklzhatak, polinom komplexitssal. Tbb clvl-
toz (clvltozhalmaz) egyttes vizsglatt is lehetv teszi, illetve interakci s redun-
dancia feltrsra is alkalmas, ami alapveten a struktra poszterior dekomponlhats-
gn alapszik.

Irodalomjegyzk
[1] S. Acid, L. M. de Campos, and J. G. Castellano, Learning Bayesian network classifiers:

searching in a space of partially directed acyclic graphs. Machine Learning, 59:213
235, 2005.
[2] C.F. Aliferis, I. Tsamardinos, and A. Statnikov, Large-scale feature selection using
Markov blanket induction for the prediction of protein-drug binding, 2003.
[3] P. Antal, G. Fannes, Y. Moreau, D. Timmerman, and B. De Moor, Using literature

and data to learn Bayesian networks as clinical models of ovarian tumors. Artificial
Intelligence in Medicine, 30:257281, 2004.
[4] P. Antal, G. Hullm, A. Gzsi, and A. Millinghoffer, Learning complex Bayesian net-
work features for classification. In Proc. of third European Workshop on Probabilistic
Graphical Models, pages 916, 2006.
[5] P. Antal, A. Millinghoffer, G. Hullm, Cs. Szalai, and A. Falus, A Bayesian view
of challenges in feature selection: Feature aggregation, multiple targets, redundancy
and interaction. Journal of Machine Learning Research: Workshop and Conference
Proceedings, 4:7489, 2008.
[6] G. F. Cooper and E. Herskovits, A Bayesian method for the induction of probabilistic
networks from data. Machine Learning, 9:309347, 1992.
[7] N. Friedman and D. Koller, Being Bayesian about network structure. In Proc. of
the 16th Conf. on Uncertainty in Artificial Intelligence(UAI-2000), pages 201211.
Morgan Kaufmann, 2000.
[8] N. Friedman and D. Koller, Being Bayesian about network structure. Machine Lear-
ning, 50:95125, 2003.
[9] R. Kohavi and G. H. John, Wrappers for feature subset selection. Artificial Intelli-
gence, 97:273324, 1997.
[10] M. Koivisto and K. Sood, Exact Bayesian structure discovery in Bayesian networks.
Journal of Machine Learning Research, 5:549573, 2004.

[11] D. Koller and M. Sahami, Toward optimal feature selection. In International Confe-
rence on Machine Learning, pages 284292, 1996.
[12] D. Madigan, S. A. Andersson, M. Perlman, and C. T. Volinsky, Bayesian model

averaging and model selection for Markov equivalence classes of acyclic digraphs.
Comm.Statist. Theory Methods, 25:24932520, 1996.
[13] C. Meek, Causal inference and causal explanation with background knowledge. In
Proc. of the 11th Conf. on Uncertainty in Artificial Intelligence (UAI-1995), pages
403410. Morgan Kaufmann, 1995.
[14] J. Pearl, Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Fran-
cisco, CA, 1988.
[15] J.M. Pena, R. Nilsson, J. Bjorkegren, and J. Tegnr, Towards scalable and data effici-
ent learning of Markov boundaries. International Journal of Approximate Reasoning,
45:211232, 2007.
[16] I. Tsamardinos and C. Aliferis, Towards principled feature selection: Relevancy, fil-
ters, and wrappers. In Proc. of the Artificial Intelligence and Statistics, pages 334342,
2003.
[17] I. Tsamardinos, C. F. Aliferis, and A. Statnikov, Algorithms for large-scale local

causal discovery and feature selection in the presence of limited sample or large causal
neighbourhoods. In The 16th International FLAIRS Conference, 2003.
[18] Lei Yu and Huan Liu, Efficient feature selection via analysis of relevance and redun-
dancy. Journal of Machine Learning Research, 5:12051224, 2004.

10. fejezet
Hlzatbiolgia
10.1. Bevezets
A XXI. szzad els vtizedben j korszak ksznttt be az orvosbiolgiai kutatsok tr-
tnetben. Ezen gyakran poszt-genomikus nvvel illetett korszak sajtossga a k-
lnbz sejtszint komponensek holisztikus, rendszerszint szemllete; egyes entitsok (pl.
gnek, fehrjk) vizsglata helyett komplex kapcsolatok s interakcis mintzatok lersa.
A szmtstechnika s mrstechnikk fejldse hatalmas ugrshoz vezetett a heterogn,
klnbz omikai szinteken ltez biolgiai adatok mennyisgben, j kihvsokat teremtve
napjaink tudsainak. A rendszerbiolgia clja, hogy jszer betekintst nyjtson, illetve
tbb sejtbiolgiai szinten egyszerre operl eszkzkkel tmogassa a kutatkat ezen er-
prba sorn.
Nem kell sokig keresglnnk, ha a rendszerbiolgiai szemletet matematikai keretbe
prbljuk foglalni: a hlzatelmlet az egyik kzenfekv vlasztsknt addik. A grfel-
mlet ezen alterletnek megltsa szerint az egsz tbb, mint a rszek sszessge, gy
az rdeklds kzppontjban diszkrt entitsok kztti kapcsolatok, mintzatok, illetve
a hlzatok emergens tulajdonsgai llnak. A hlzat kifejezs azonban kiss pongyola,
szmos klnbz fogalmat jellhet, amelyek gyakorlati haszna eltr lehet. Tisztzzuk
teht, hogy mit is rthetnk hlzat alatt az albbi ngy fogalmi szint elklntsvel:
1. Hasonlsgi hlzatok, pl. szekvencia hasonlsgi hlzatok egyszeren generl-

hatk tetszleges hasonlsgi mtrixokbl. Br szmos alkalmazs sorn igen hasz-
nosnak bizonyultak, jval kevsb kifinomultak, mint a 3. s 4. pont kvantitatv
modelljei.
2. Ler grfok, pl. a fehrjefehrje interakcis hlzatok a hlzatbiolgia framt

kpviselik; szmos kutat ezt a szintet tartja A rendszerbiolgia szintjnek.
3. Fggetlensgi trkpek s oksgi diagramok, pl. a Bayes-hlk nagy npsze-

rsgnek rvendenek a bioinformatika terletn, br hagyomnyosan inkbb tartjk
egyfajta statisztikai megkzeltsnek, mint a hlzatelmlet s hlzatbiolgia rsz-
nek.
Bolgr Bence www.interkonyv.hu

10. Hlzatbiolgia 136
4. Kvantitatv szablyozsi hlzatok kifinomult matematikai modelljei klnbz

sejtszint folyamatoknak s funkciknak; gyakran kznsges s parcilis differenci-
legyenletek segtsgvel modelleznek biokmiai reakcikat.
Ebben a fejezetben bevezetjk az olvast a ler hlzatelmlet alapfogalmaiba, amelyek

elssorban az els kt kategrihoz tartoznak, s nem felttlenl rendelkeznek generatv
kvalitsokkal. Egyes rvelsek szerint az igazi rendszerbiolgia ppen az utols kt ka-
tegriban tallhat; egyelre azonban nincs egyetrts abban, hogy egyes tudsok mit is
rtenek rendszer- (hlzat-) biolgia alatt. Vgl megjegyezzk, hogy egy kimert ssze-
foglals messze meghaladn e tanknyv kereteit, gy teljesebb ttekintsekrt ms szerzk
mveire hivatkozunk [1, 2].
10.2. Biolgiai hlzatok

A biolgiai hlzatok a legegyszerbb sejtektl teljes koszisztmkig kzs jellemzi
az sszetett interakcik az egyes komponensek kztt. Szmos pldja ismert az ezek
lersra trekv biolgiai hlzatoknak, ezek kzl lljon itt nhny ismertebb:
Szekvencia/szerkezeti hasonlsgi hlzatokat entitsprokra rtelmezett ha-

sonlsgmrtk meghatrozsval tudunk szrmaztatni. Entits alatt leggyakrab-
ban gneket, fehrjket, kismolekulkat (pl. gygyszereket), vagy a struktrn s
szekvencin tl elvontabb objektumokat rtnk (pl. betegsgek, gnexpresszis
profilok). A hlzatok ezen vlfaja szles alkalmazsi terlete folytn meglehetsen
npszer (pl. funkci s interakcik predikcija [3, 4], gygyszerkutats [5]).
Fehrje-fehrje interakcis hlzatok (PPI, PIN) ptse fizikai fehrjekt-

dsi adatok alapjn trtnik, rendszerint nagy teresztkpessg eszkzk felhasz-
nlsval. Elsdleges alkalmazsi terletk a fehrjk funkcijnak meghatrozsa
interakciik elemzsvel. Nhny publikus adatbzis: DIP [6], MINT [7].
Metabolikus hlzatokat l szervezetek metabolikus tvonalainak vizsglatra

hasznlunk. ptelemei kztt tallunk enzimeket, ezek szubsztrtjait s termkeit
(metabolitok), valamint a katalizlt reakcik reprezentciit. A legszlesebb krben
elterjedt nylt adatbzisok pl. a KEGG [8] s a BioCyc [9].
Szignl transzdukcis hlzatok a szignlok tovbbtst, relevns molekulris

tvonalakat s a cross-talk mechanizmusokat helyezik a kzppontba. Elbbire plda
a MiST [10] s TRANSPATH [11] adatbzisok; kifejezetten cross-talk mechanizmu-
sok elemzsre szolgl a SignaLink [12].
Szablyozsi hlzatok (GRN) a gnexpresszi szablyozst vizsgljk, ide-

rtve a szablyozsi rgikat, transzkripcis faktorokat, RNS interferencit, poszt-
transzlcis mdostsokat s ms faktorokkal trtn interakcikat. Kt publikus
adatbzis a JASPAR [13] a TRANSFAC [14].

Egyb integrlt hlzatok hozhatk ltre tbb heterogn informciforrs kom-

binlsval, gy az entitsokat egysges nzpontbl vizsglhatjuk. Ilyenek pldul
a tbbrteg szablyozsi hlzatok, gygyszerbetegsggn hlzatok s szmos
ms publikus eszkz itt emlthet a Connectivity Map, amely betegsgeket, kis-
molekulkat s gnexpresszis adatokat integrl [7].
10.3. Grfelmleti alapok

Ebben a fejezetben nhny grfelmleti alapfogalommal ismerkednk meg. A grf egy
cscsokbl s l ekbl ll gyjtemny, amelyet a G = (V, E) rendezett prral jellnk,
ahol V a cscsok (vagy csompontok ) halmaza, mg E az lek (vagy kapcsolatok ) halmaza.
Minden l megfeleltethet egy V -beli cscsprnak egy l mindig kt, szomszdosnak ne-
vezett cscsot kt ssze (m ez a kett lehet ugyanaz a cscs). Szmos esetben szksgess
vlik az lek irnytsa kpzeljnk csak el egy csaldft, amely gy az irnytott grfok
csoportjt gazdagtja. E grfokban az lek rendezett cscsprokknt reprezentlhatk;
ms esetekben a kapcsolatok szimmetrikus volta ezt nem kveteli meg (irnytatlan gr-
fok ). Az irnytott grfok specilis esetei az irnytott krmentes grfok (DAG), amelyek,
ahogy azt nevk is sugallja, nem tartalmazhatnak krt e tulajdonsg szmos alkalma-
zsban nagyon fontosnak bizonyul. Nhny esetben hasznos, ha az lekhez szmszer
rtkeket rendelnk. Ezeket slyozott lek nek nevezzk, a grfot pedig slyozott grf nak.
Egy adott cscsra illeszked (kapcsold) lek szmt nevezzk a cscs fokszmnak.
A szablyos grfok ban minden cscs fokszma megegyezik. A teljes grf az elbbinek spe-
cilis esete, ahol brmely kt cscsra illeszkedik l. rtelemszeren nem minden grf teljes,
st, mg csak nem is felttlenl sszefgg. sszefggnek nevezzk a grfot, ha brmely
kt cscsa kztt ltezik t ellenkez esetben a grf nem sszefgg. Egy grf rszgrf ja
az eredeti grf kivlasztott cscsaibl s leibl ll, ahol a kivlasztott lek kivlasztott
cscsokra illeszkednek. A maximlis (lehet legnagyobb) sszefgg rszgrfokat kompo-
nenseknek nevezzk, azaz egy nem sszefgg grf tbb komponens tartalmaz, mg egy
sszefgg grf pontosan egyet. Egy grf teljes rszgrfjait klikkek nek nevezzk, a lehet
legnagyobb klikkeket pedig maximlis klikkek nek. A grfok egy specilis fajtja a pros
grf, ahol a cscsok kt diszjunkt halmazt alkotnak, ahol azonos halmazbeli cscsokra nem
illeszkedik l kpzeljnk el egy sakktblt, ahol minden fekete mez csak fehrrel szom-
szdos, s fordtva. Vgl, egy klaszter a cscshalmaz egy olyan rszhalmaza, amelyben a
cscsok sokkal ersebben kapcsoldnak egymshoz, mint a grf tbbi rszhez.
A grf klaszterezdsnek mrshez a klaszterezdsi egytthat klnbz definciit

lehet ignybe venni. Tovbbi fontos mrtkek pldul a legrvidebb t, az tlagos thossz,
a hlzati centralizci, csomponti centralitsok (pl. fokszm-, kzelsgi, sajtvektor- stb.
centralits). Ezek trgyalsa tlmutat a knyv keretein, gy a rszletekrt ms mvekre
hivatkozunk [1, 2].

10.4. Hlzatelemzs
A hlzatelemzs a hlzat kvalitatv s kvantitatv tulajdonsgait vizsglja, idertve a
mgttes strukturlis alapelveket, funkcionlis szervezdst, loklis mintzatokat, emer-
gens tulajdonsgokat s dinamikus viselkedst. Interdiszciplinris terletrl lvn sz,
alkalmazsi terlete nem korltozdik a hlzatbiolgira; hasonl eszkzket hasznlnak
a telekommunikciban, szocilis hlzatok elemzsben s szmos egyb terleten.
10.4.1. Hlzati topolgia

A hlzati topolgia a csompontok s kapcsolataik elrendezdst jellemzi, azaz lerja,
hogyan kapcsoldnak, kommuniklnak egymssal az egyes csompontok. Ahogy a 10.3.
alfejezetben lthattuk, a grfok gyakran rendelkeznek jl meghatrozott strukturlis ele-
mekkel (pl. klikkek, klaszterek); ebben az alfejezetben hasonl, hlzatelemzsben gyakran
vizsglt elemekkel ismerkednk meg, amelyek jelentsen befolysoljk a hlzat viselked-
st.
Az tlagosnl sokkal tbb kapcsolattal rendelkez csompontokat hub-oknak nevezzk.
A hubok bizonyos rtelemben a hlzat kulcsszerepli trlsk rendszerint a hlzat gyors
degradcijhoz, izollt klaszterekre val sztesshez vezet. Ez a jelensg PPI hlzatok
esetn centralitsiletalitsi szably nven ismert, mivel a hub-ok gyakran nlklzhe-
tetlen fehrjknek felelnek meg. Loklis topolgiai struktrk mg a motvumok (szig-
nifiknsan fellreprezentlt irnytott rszgrfok) s graphletek (az elbbiek irnytatlan
megfeleli).
A hlzatbiolgia nevezktanban a modul tbb-kevsb a grfelmleti klaszternek
felel meg. Gyakran funkcionlis alrendszereket reprezentlnak, pl. bizonyos sejtszint fo-
lyamatokat vagy funkcikat. sszetett rendszerekben tbb tpus interakci is elkpzel-
het az egyes modulok kztt, pldul tlapoldson vagy hidak on (modulokat sszekt
csompontokon) keresztl. Ha egy hd az egyetlen sszekt elem kt modul kztt, bottle-
neck -nek nevezzk. A modulok hierarchikus elrendezdst is mutathatnak; kisebb, inter-
akciban lv modulok nagyobb, lazbb modulok alkotiknt szerepelhetnek. A hlzatok
klaszterezse intenzven kutatott terlet, amely a modulok azonostst clozza. Szles
eszkztrban megtallhatk grfelmleti, statisztikai s gpi tanulsi eljrsok egyarnt.
A csomponti centralits ltalnossgban befolysos csompontok jelenltre utal; ha
lteznek a hlzat egyfajta globlis koordintoraknt viselked csompontok, ezek ma-
gas centralitssal brnak. Nhny centralitsi mrtket emltettnk az elz alfejezetben.
Idevg fogalom a hlzati centralizci, amely a csomponti centralitsok eloszlst veszi
figyelembe, teht a hlzat egszre vonatkozik ersen centralizlt hlzatok gyakran
csillagszer topolgit mutatnak, a skla msik vgn egyenletesebb eloszlssal tallkoz-
hatunk. A magas centralits csompontokbl ll alhlzatot csontvz nak nevezzk.
A vals hlzatok egyik lenygz tulajdonsga a meglepen alacsony tlagos t-
hossz, a hlzat esetenknt hatalmas mrete ellenre. Ezt a jelensget gyakran kisvi-
lg-tulajdonsgnak nevezik. A kifejezs a trsadalomtudomnybl s Stanley Milgram
kutatsaibl szrmazik, br elsknt Karinthy Frigyes vetette fel; pldjban kifejti, hogy

brmely szemly a fldn elrhet szemlyes ismeretsgek tjn legfeljebb t lpsben

(ksbb: six degrees of separation).
10.4.2. Hlzati modellek s dinamika

A valsgban sok hlzat klnsen a biolgiai rendszereket modellezk idben folya-
matosan vltozik s fejldik. A hlzati dinamika rohamosan gyarapod terlete ezeket a
temporlis aspektusokat hivatott vizsglni. A komplex hlzatok tulajdonsgainak meg-
rtshez clszer megfigyelni azok kialakulst s fejldst, felfedezni a mgttes szer-
vezdsi alapelveket. Ezek a modellek lnyegben prototpusai a valsgban fellelhet
hlzatoknak, cljuk pedig betekintst nyjtani abba, hogyan kvetkeznek az emergens
tulajdonsgok kis szm egyszer konstrukcis szablybl. Az elmlt tven vben szmos
modellt alkottak, amelyek kzl a leghresebbek az ErdsRnyi-modell [16], a Watts
Strogatz-modell [17] s a BarabsiAlbert-modell [18].
Az ErdsRnyi-modell az egyik legegyszerbb modell vletlen grfok lersra. A
konstrukci N csomponttal indul, majd vletlenszeren hz be leket az N (N 1)/2
lehetsgbl. E modell pldnyai rendelkeznek a kisvilg-tulajdonsggal, m a foksz-
mok kztt csak kis variancia tapasztalhat, azaz nem kpesek megmagyarzni a vals
hlzatok klaszterezdsi tendencijt (pl. hubok formldst).
10.1. bra. Az ErdsRnyi-modell egy pldnya, 30 csomponttal s p = 0.1 valsznsgi

paramterrel
A WattsStrogatz-modell mind a kisvilg-tulajdonsgot, mind a loklis klaszterezdst

reproduklja. Kezdetben az N darab csompont egy krben van elrendezve, tovbb
minden csompont ssze van ktve k/2 legkzelebbi szomszdjval. Ezutn minden l
egy kis p valsznsggel thuzalozdik, azaz egyik vge egy vletlenszeren kivlasztott
csomponthoz csatlakozik ennek ksznhet a kisvilg-tulajdonsg. Ha p-t megfelelen,

de nem extrm mdon kicsire vlasztjuk, elfogadhat mrtk loklis klaszterezds marad
a hlzatban; p = 1-re az ErdsRnyi-modellt kapjuk vissza.
10.2. bra. A WattsStrogatz-modell egy pldnya, 30 csomponttal s p = 0.1, k = 3

paramterezssel
A BarabsiAlbert-modell nemcsak a fenti tulajdonsgokat mutatja, hanem sklafg-

getlen fokszmeloszlst is, amely gyakran megfigyelhet vals hlzatokban, pldul a
biolgia terletn vagy az Interneten (lsd a kvetkez alfejezetet). A modell alaptlete a
nvekeds s preferencilis kapcsolds alkalmazsa. A hlzat ismtelten j csompontok-
kal egszl ki (nvekeds), ezek kapcsolatai pedig valsznsgi alapon, a tbbi csompont
aktulis fokszmt figyelembe vve alakulnak ki; ms szavakkal, az j csompont a mr
eddig is sok kapcsolattal rendelkezket preferlja a kapcsolds sorn (preferencilis kap-
csolds, a gazdag mg gazdagabb vlik). A preferencilis kapcsolds hen modellezi
szmos vals (pl. szocilis) hlzat formldsi szablyait; meggyz magyarzatok ll-
nak rendelkezsre arrl is, hogy sejtszint hlzatok mirt kvetik szintn ezt a smt s
rendelkeznek sklafggetlen topolgival [19].
10.4.3. Asszortativits, fokszmeloszls s sklafggetlen hlza-

tok
Az asszortativits a csompontok hasonl csompontokhoz trtn preferencilis kap-
csoldst rja le; hasonl alatt rendszerint hasonl fokszmot rtnk. Asszortatv h-
lzatokban a sok kapcsolattal rendelkez csompontok ms, sok kapcsolattal rendelkez
csompontokat preferlnak; a biolgiai hlzatok rendszerint diszasszortatvek, azaz magas
fokszm csompontok alacsony fokszmakhoz kapcsoldnak [20].

10.3. bra. A BarabsiAlbert-modell egy pldnya, 30 csomponttal s = 2 fokszm-

kitevvel
A biolgiai hlzatok tovbbi kulcsfontossg tulajdonsga, hogy a fokszmeloszls

hatvnyfggvnyt kvet, n. sklafggetlen hlzatot eredmnyezve. A fokszmeloszls
(p(k)) annak valsznsgt adja meg, hogy egy csompont fokszma pontosan k. Az
ErdsRnyi-modellben a fokszmeloszls binomilis, ami nagy hlzatokban Poisson-
eloszlssal becslhet, teht az tlagos fokszmnl ersen cscsosodik (az tlagostl na-
gyon eltr fokszm csompontok extrm ritkk). A sklafggetlen hlzatok p(k) k
alak fokszmeloszlst kvetnek, gy nhny magas fokszm csompontra (hubok) sok
alacsony fokszm jut (10.4. bra). A fokszmkitev alapveten meghatrozza a hl-
zat viselkedst. Minl magasabb az rtke, a p(k) fggvny annl meredekebb lesz, gy
> 3 rtkeknl nagy hubok mr csak elvtve fordulnak el s nem jtszanak lnyeges
szerepet; fordtva pedig, alacsonyabb rtkeinl a hubok jelenlte kifejezett. A legtbb
biolgiai hlzat fokszmkitevje 2 s 3 kztt van. Mint kiderlt, ezek a hlzatok rad-
sul ultra-kicsik abban az rtelemben, hogy az tlagos thossz jelentsen rvidebb, mint
vletlen hlzatok esetben. Tovbbi rszletekrt ajnljuk Barabsi s munkatrsainak
kzlemnyeit [18, 19].
10.4.4. Feladatok s kihvsok

A gyakorlatban a biolgiai rendszerekrl rendelkezsre ll tudsunk sosem teljes. Ennek
szmos oka lehet elmleti tudatlansg, gyakorlati korltok, eredend bizonytalansgok,
hibk, lustasg, csak hogy nhnyat emltsnk. Ebbl kvetkezik, hogy a legjobb md-
szertannal s vgrehajtssal is csak tkletlen modellekhez juthatunk. Br a tkletessg
elrse a gyakorlatban kivitelezhetetlen, a modellek jelentsen javthatk az adatokba
gyazott rejtett struktrk s kapcsolatok kihasznlsval, ezzel eddig ismeretlen infor-
mcit hozva felsznre. Ez a hlzatbiolgia kontextusban hlzatelemzsi problmk

BarabsiAlbert modell (10000 csompont)

0.100

Frekvencia

0.001

1 10 100
Fokszm
10.4. bra. Fokszmeloszlsok klnbz fokszmkitevkkel
megoldst jelenti, amelyeknek szmos vlfaja ismert:
Csompontok s kapcsolatok jslsa az egyik legkzenfekvbb feladat. Csom-

pontok s kapcsolatok jsolhatk pldul hasonlsgok, topolgiai vagy temporlis
tulajdonsgok, vagy hlzati sszehasonlts felhasznlsval [3].
Klaszteranalzis hasznlhat funkcionlis modulok felismersre s interakciik

elemzsre biolgiai rendszerekben.
Klasszifikci, regresszi s rangsorols a gpi tanuls terletrl szrmaz

ltalnos fogalmak. A hlzatelemzsi problmk szles krben alkalmazhatk, pl.
csompontok vagy kapcsolatok jslsra, tulajdonsgaik feldertsre stb.

Centralits-elemzs, tkeress, robosztussg elemzse hasznlhat a hlzat

szervezdsnek megrtsre s a csompontok kommunikcijnak lersra. Egy
nyilvnval alkalmazs gygyszerclpontok azonostsa, azaz annak eldntse, hogy
milyen csompontokat vagy leket rdemes megtmadni a betegsg hatsainak kik-
szblse rdekben, a legkevesebb mellkhats elrse mellett vagy ppen hogyan
lehet a sejtet minl hatkonyabban elpuszttani (antibiotikumok, rkellenes szerek).
Grf-izomorfizmus s hlzatilleszts a hlzatintegrcival rokon j kelet fel-

adatok. Egy kutatsban pldul tbb faj PPI hlzatait illesztettk s fehrjk
funkcionlis ortolgijra kvetkeztettek [22].
Grf motvumkeress, amely az elbbihez hasonl, sikeresen alkalmaztk pldul

metabolikus hlzatokra a szerkezetk s ptelemeik mlyebb megrtshez [23].
Hlzatok becslse vagy visszafejtse (reverse engineering) alatt a hlzat struk-

trjnak adatokbl trtn meghatrozst rtjk. Fontos megjegyezni, hogy az
gy meghatrozott szerkezet nagyban fgg az alkalmazott mdszertl, ezrt egyre
inkbb tbb becsls integrcijra s egyttes felhasznlsra kerl a hangsly.
Hlzat-integrci, clja tbb hlzat kombincija, amellyel a tudsfzi terle-

tre jutunk.
Hlzat-vizualizci a legegyszerbb, mgis a legfontosabb feladatok egyike. A

Cytoscape rendszer valsznleg a legnpszerbb eszkz biolgiai hlzatok vizuali-
zcijra; emellett rendkvli segtsget jelenthet a hlzatelemzsi problmk szles
skljn.
10.5. Nhny alkalmazs

A gygyszerkutats s -fejleszts hagyomnyosan elssorban olyan molekulk tervezst
tzte ki clul, amelyek egyetlen, legfeljebb nhny clponthoz ktnek maximlis szelekti-
vitssal. Br rgta ismert, hogy szmos sikeres gygyszer kifejezetten sok clponton hat
egyszerre, a hlzati biolgia s a gygyszerkutats csak az utbbi nhny vben kezd-
tek egymsra tallni (network pharmacy). Ez az egyesls j, hatsosabb s alacsonyabb
toxicits gygyszerek grett rejti magban. A hlzati megkzelts az n. gygyszer-
jrapozicionls szempontjbl is vonz. Mivel a gygyszeripar j molekula-kibocstsa
vrl vre cskken, a mr forgalomban lv gygyszerek jrahasznostsa ms indikci-
kban sszer stratgit kpvisel.
E szakterlet fiatal kora ellenre jnhny kzlemny szletett, amelyek a hlzat-
elemzs mdszereit ksreltk meg a gygyszerfejleszts s gygyszer-jrapozcionls te-
rletn kamatoztatni. Ezek kzl szmos prblkozs gygyszerclpontok azonostsra
trekedett az elz alfejezetben ismertetettekhez hasonl eljrsokkal; msok a hasonls-
gi megkzeltst kvetve tbb informcis szintet hoztak ltre (pl. gygyszergygyszer s
betegsgbetegsg hasonlsgi hlk), majd ad hoc mdon kombinltk ezen szinteket.

A Lamb s mtsai ltal fejlesztett Connectivity Map a gnexpresszis vltozsok nyelvt

hasznlta fel a gygyszerek, betegsgek s gnek szintjeinek egyestsre [7]. A gnexp-
resszis profilok vltozsait experimentlisan hatroztk meg szmos gygyszer s beteg-
sg esetben; a gygyszerbetegsg kapcsolatokat a profilok ellenttes irny vltozsai
alapjn llaptottk meg. A PREDICT rendszer [24] nagyszm hasonlsgot definil
gygyszerek kztt (kmiai lersok, mellkhatsok, szekvencia, PPI-hlzatbeli kzelsg
s funkcionlis annotci alapjn), valamint betegsgek kztt (pl. fenotpusos s genetikai
jellemzk alapjn). Ezutn egy gpi tanulsi megkzeltst hasznlva gygyszerbetegsg
prokat azonostanak ismert prokhoz val hasonlts alapjn.
Minden drugi diseasej prhoz jellemzk szmolhatk az albbi pontozfggvnnyel:

q
score(drugi , diseasej ) = max sim(drugi , drugk ) sim(diseasej , diseasel ),
k6=i,l6=j
ami lnyegben a legkzelebbi ismert gygyszerbetegsg prhoz val hasonlsgot sz-

mtja ki minden sim hasonlsgmrtkre. Ezeket jellemzkknt hasznlva az ismeretlen
prok klasszifiklhatk logisztikus regresszi tjn, amely egyben a jellemzk slyozst
is elvgzi, s egy vgs klasszifikcis pontszmot ad.

Irodalomjegyzk
[1] G. A. Pavlopoulos, M. Secrier, C. N. Moschopoulos, T. G. Soldatos, S. Kossida,

J. Aerts, R. Schneider, and P. G. Bagos, Using graph theory to analyze biological
networks. BioData Min, 4:10, 2011.
[2] Bjrn H. Junker and Falk Schreiber, Analysis of Biological Networks. Wiley Series in
Bioinformatics, Wiley-Interscience, 2008.
[3] T. Phuong and N. Nhung, Predicting gene function using similarity learning. BMC
Genomics, 14 Suppl 4:S4, Oct. 2013.
[4] Q. Chen, W. Lan, and J. Wang, Mining featured patterns of MiRNA interaction based
on sequence and structure similarity. IEEE/ACM Trans Comput Biol Bioinform,
10(2):415422, 2013.
[5] P. Csermely, T. Korcsmaros, H. J. Kiss, G. London, and R. Nussinov, Structure and
dynamics of molecular networks: a novel paradigm of drug discovery: a comprehensive
review. Pharmacol. Ther., 138(3):333408, June 2013.
[6] I. Xenarios, D. W. Rice, L. Salwinski, M. K. Baron, E. M. Marcotte, and D. Eisenberg,
DIP: the database of interacting proteins. Nucleic Acids Res., 28(1):289291, Jan.
2000.
[7] A. Chatr-aryamontri, A. Ceol, L. M. Palazzi, G. Nardelli, M. V. Schneider, L. Cas-
tagnoli, and G. Cesareni, MINT: the Molecular INTeraction database. Nucleic Acids
Res., 35 (Database issue):D572574, Jan. 2007.
[8] M. Kanehisa and S. Goto, KEGG: Kyoto encyclopedia of genes and genomes. Nucleic
Acids Res., 28(1):2730, Jan. 2000.
[9] R. Caspi, T. Altman, R. Billington, K. Dreher, H. Foerster, C. A. Fulcher, T. A.
Holland, I. M. Keseler, A. Kothari, A. Kubo, M. Krummenacker, M. Latendresse, L.
A. Mueller, Q Ong, S. Paley, P. Subhraveti, D. S. Weaver, D. Weerasinghe, P. Zhang,
and P. D. Karp, The MetaCyc database of metabolic pathways and enzymes and the
BioCyc collection of Pathway/Genome Databases. Nucleic Acids Res., 42(1):D459
471, Jan. 2014.
[10] L. E. Ulrich and I. B. Zhulin, MiST: a microbial signal transduction database. Nucleic
Acids Res., 35 (Database issue):D386390, Jan. 2007.

[11] F. Schacherer, C. Choi, U. Gotze, M. Krull, S. Pistor, and E. Wingender, The TRAN-
SPATH signal transduction database: a knowledge base on signal transduction net-
works. Bioinformatics, 17(11):10531057, Nov. 2001.
[12] D. Fazekas, M. Koltai, D Turei, D. Modos, M. Palfy, Z. Dul, L. Zsakai, M. Szalay-
Bek, K. Lenti, I. J. Farkas, T. Vellai, P. Csermely, and T. Korcsmaros, SignaLink
2 - a signaling pathway resource with multi-layered regulatory networks. BMC Syst
Biol, 7:7, 2013.
[13] A. Sandelin, W. Alkema, P. Engstrom, W. W. Wasserman, and B. Lenhard, JASPAR:
an open-access database for eukaryotic transcription factor binding profiles. Nucleic
Acids Res., 32 (Database issue):D9194, Jan. 2004.
[14] E. Wingender, X. Chen, R. Hehl, H. Karas, I. Liebich, V. Matys, T. Meinhardt,
M. Pruss, I. Reuter, and F. Schacherer, TRANSFAC: an integrated system for gene
expression regulation. Nucleic Acids Res., 28(1):316319, Jan. 2000.
[15] J. Lamb, E. D. Crawford, D. Peck, J. W. Modell, I. C. Blat, M. J. Wrobel, J. Lerner,
J. P. Brunet, A. Subramanian, K. N. Ross, M. Reich, H. Hieronymus, G. Wei, S. A.
Armstrong, S. J. Haggarty, P. A. Clemons, R. Wei, S. A. Carr, E. S. Lander, and T.
R. Golub, The Connectivity Map: using gene-expression signatures to connect small
molecules, genes, and disease. Science, 313(5795):19291935, Sep. 2006.
[16] P. Erds and A. Rnyi, On the evolution of random graphs. In: Publication of the
Mathematical Institute of the Hungarian Academy of Sciences, pages 1761, 1960.
[17] M. E. Newman, S. H. Strogatz, and D. J. Watts, Random graphs with arbitrary degree
distributions and their applications. Phys Rev E Stat Nonlin Soft Matter Phys, 64(2
Pt 2):026118, Aug. 2001.
[18] A. L. Barabasi and R. Albert, Emergence of scaling in random networks. Science,
286(5439):509512, Oct. 1999.
[19] A. L. Barabasi and Z. N. Oltvai, Network biology: understanding the cells functional
organization. Nat. Rev. Genet., 5(2):101113, Feb. 2004.
[20] M. E. Newman, Assortative mixing in networks. Phys. Rev. Lett., 89(20):208701, Nov.
2002.
[21] Linyuan L and Tao Zhou, Link prediction in complex networks: A survey. Physica
A, 390(6):11501170, 2011.
[22] R. Singh, J. Xu, and B. Berger, Global alignment of multiple protein interaction
networks with application to functional orthology detection. Proc. Natl. Acad. Sci.
U.S.A., 105(35):1276312768, Sep. 2008.
[23] V. Lacroix, C. G. Fernandes, and M. F. Sagot, Motif search in graphs: application to
metabolic networks. IEEE/ACM Trans Comput Biol Bioinform, 3(4):360368, 2006.
[24] A. Gottlieb, G. Y. Stein, E. Ruppin, and R. Sharan, PREDICT: a method for inferring
novel drug indications with application to personalized medicine. Mol. Syst. Biol.
7:496, 2011.

11. fejezet
Dinamikus modellezs a sejtbiolgiban
A ksrleti biolgia nagy teresztkpessg mdszereinek ksznheten mra hatalmas

mennyisg adat van a birtokunkban. Ahogy az adatgyjts egyszerv vlt, gy vlik az
rtelmezs egyre inkbb kihvss. A modellezs a tuds formlis specifikciba rendez-
snek eszkze, ezt felhasznlva egy iteratv folyamatban felpthetnk egy biolgiai tuds-
bzist. A mrsek alapjn az elmleti biolgusok pontosabb modelleket specifiklhatnak
s szimulcis mdszerekkel a rendszer vrhat viselkedse jsolhat. Ezek a szimulcik
gy tekinthetk mint virtulis mrsek s sszehasonlthatk a ksrleti adatokkal, majd
a modell vagy megerstst nyer, vagy elvetsre kerl. Egy kzvetlenebb megkzelts a
biolgiai ksrletek modell alap tervezse azzal a cllal, hogy maximalizljuk az eredm-
nyekbl nyerhet informcik mennyisgt. gy tekinthetnk a modellekre mint kzs
nyelvre a ksrleti s az elmleti kutatk kztt, mely lehetv teszi a biolgiai adat s az
elmlet kzvetlen kapcsolatt [1].
Els lpsknt egy formlis modellt alkotunk meg a biolgiai tuds alapjn. A modell
egzakt mdon specifiklja a biolgiai rendszerrl meglv hipotziseinket, s csak biolgiai
felttelezseket tartalmaz. Ez a modellezsi szint idelis a tudomnyos trsadalmon belli,
valamint eltr mdszerekre pt szoftverek kztti tudscserre. Hogy szimulcikat
vgezhessnk finomtanunk kell a modellnket a szmtsi kerettl fgg felttelezsekkel.
Nhny esetben ez a finomts automatizlhat, de a felttelezsek elfogadsa minden
esetben modellezsi dnts eredmnye kell, hogy legyen. Pldul, ha folytonos vltozknt
kezelnk koncentrcikat, az eredmnynk helyes lesz abban az esetben, ha egy nagy
trfogatban lejtszd reakcit szimullunk, de helytelen eredmnyre vezet extrm kis
trfogatok esetben, pldul egy mitokondrium esetben, ahol a reagl rszecskk diszkrt
volta nagy jelentsget kap.
11.1. Biokmiai fogalmak, ezek szmtsos reprezentcii

A biokmiai modellek alapvet ptelemei a reakcik. A reakcikat szubsztrtjaikkal,
termkeikkel, sztchiometrikus tnyezikkel s sebessgi llandikkal specifiklhatjuk, pl.:
na A + nb B nc C + nd D : k.
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 148
A sztchiometrikus tnyez (nx ) megadja a reaktns vagy termk relatv mennyisgt,

teht definilja a reakci struktrjt. A sebessgi lland k azt a gyakorisgot fejezi
ki, amivel a reaktns molekulk na db A s nb db B kell energival sszetkznek,
hogy a termkek kpzdhessenek. A reakci aktulis sebessge a fluxus a reaktnsok
koncentrciinak szorzatval arnyos, figyelembe vve a sztchiometriai konstansokat is:
J([A], [B]) = k[A]na [B]nb ,
ahol [A] jelli A koncentrcijt, ltalban mol/L egysgben.

Szigoran vve minden reakci visszafordthat, s az albbiak szerint rhat le mint
kt irreverzibilis reakci eredje:
na A + nb B nc C + nd D : k1 ,
nc C + nd D na A + nb B : k2 ,
egyszerbb alakban
na A + nb B nc C + nd D : k1 , k2 .
Amikor a kt fluxus megegyezik:
k1 [A]na [B]nb = k2 [C]nc [D]nd ,
a rendszer egyenslyban van, s a koncentrcikat meghatrozhatjuk a fenti algebrai egyen-

let trendezsvel:
[C]nc [D]nd k1
= = Keq .
[A]na [B]nb k2
Ha k2 0 a reakci irreverzibilis , az egyenslyt akkor rjk el, ha a kiindulsi
anyagok elfogynak.
Mikroszkopikus szinten rszecske-szmokat hasznlunk molris koncentrcik helyett,
s a reakci sebessgt hazrd fggvnyek formjban fejezzk ki: hi (x), ahol x a rendszer
llapott jelli a rszecskeszm-vektor. Annak a valsznsge, hogy az i-edik reakci
megtrtnik dt idintervallum alatt: hi (x)dt. Ha az A vegylet koncentrcija [A] egy V
trfogat kompartmentben, a rszecskeszm nA [A]V , ahol nA az Avogadro-fle szm.
Ha az i-edik reakci elsrend kinetikt kvet s a j-edik vegylet a reakci szubszt-
rtja, a hazrd fggvny az albbi alak:
hi (x) = xj c.
Bimolekulris reakci esetn a hazrd fggvny alakja

xj xk ci , ha j 6= k,
hi (x) = xj (xj 1)
2
ci egybknt.
Knnyen lthat, hogy a k makroszkopikus sebessgi lland s a c sztochasztikus
sebessgi lland kztti konverzi fgg a konkrt reakci rendsgtl [2, 3].
Termszetes mdon specifiklhatunk pldul egy konstans befel irnyul fluxust a

rendszerbe a mikroszkopikus szint modellben, de a koncentrci vltozs mrtke a kom-
partment trfogattl fgg, teht a folytonos modellben k trfogatfgg:
c
k= .
nA V
Elsrend reakcik esetn k s c mindig egyenl, mivel cdt dimenzi nlkli mennyisg:
azon szubsztrt relatv mennyisge, amely talakul dt id alatt.
Magasabb rend reakcik esetn c fordtottan arnyos V -vel, mert az intermolekul-
ris tkzs valsznsge koncentrcifgg. Pldul egy msodrend reakci sebessgi
llandira igaz, ha a kt szubsztrt eltr, hogy:
k
c= ,
nA V
s ha csak egy szubsztrt van, melyhez tartoz sztchiometrikus konstans 2:
k
c=2 .
nA V
Tovbb rdemes mg megemlteni, hogy a fentiekbl kvetkezen az albbi kt rend-
szer nem egyenrtk kinetikai rtelemben:
A + B + C ABC : k,
A + B AB : k1 ; AB + C ABC : k2 .
Csatolt biokmiai reakcik rendszerei ltalban komplex hlzatos struktrval rendel-

keznek, s termszetes megkzelts, hogy grfokknt brzoljuk ket. Nincs fels korltja
azon reakcik szmnak, amelyekben egy konkrt vegylet rszt vehet, teht a vegy-
leteket csompontokknt kell formalizlnunk. Ugyanakkor egy kmiai reakcinak tbb
mint egy kiindulsi anyaga s/vagy termke lehet, teht a hlzat hiperleket tartalmaz.
Msik lehetsg, hogy a reakcikat is csompontokknt formalizljuk, s definilunk egy
V (S, R, E) cmkzett irnytott pros grfot, ahol egy irnytott l fut s S vegylet-
csompontbl r R reakci-csompontba akkor s csak akkor, ha s szubsztrtja r-nek,
vagy egy irnytott l fut r-bl s-be akkor s csak akkor, ha s termke r-nek. Minden
lre egy E N cmkzs sztchiometrikus konstansokat definil az adott reakciban. Ez
a grf formalizlja a rendszer kvalitatv struktrjt. Egy cmkzs szintn definilt a
vegylet-csompontokon melyet marking-nak (jells) neveznk , s a vegyletek r-
szecskeszmait definiljk. Ezt a fajta pros grfot Petri-hlnak nevezzk, s rszletes
elmlete van. A Petri-hlk esetben hasznlt terminolgia S-et a hely-halmaznak nevezi
(s P -vel jelli), R-et az tmenetek halmaznak (s T -vel jelli).
Most mr definilhatunk egy S n. sztchiometrikus mtrixot, ahol sij a rszecskeszm-
vltozs i vegylet esetben, amikor a j-edik reakci megtrtnik, teht a mtrix elemei
a reakci eljeles sztchiometris konstansai: ha i kiindulsi anyag, az eljel negatv,
ha i termk, az eljel pozitv. A reakci megtrtntt az tmenet tzelsnek hvjuk a
Petri-hlk terminolgijban.
Legyen M0 kezdeti llapot, s r a megtrtnt reakcik vektora, ekkor a rendszer j

llapota
M 0 = M0 + Sr.
Az S mtrix vizsglata rdekes informcikkal szolglhat a rendszer struktrjrl.
Vizsgljuk meg S mtrix magtert, azon x vektorok ltal kifesztett teret, melyek megol-
dsai az albbi egyenletnek:
Sx = 0.
Vagy intuitv defincival keressk az sszes olyan reakci-szekvencit, amely visszaviszi a
rendszert eredeti llapotba. Ha x egy megoldsa a fenti egyenletnek, akkor T-invarinsa
a Petri-hlnak, azaz elemi mdusa a biokmiai tvonalnak.
Most vizsgljuk meg S transzponltjnak, S > mtrixnak a magtert:
S > y = yS = 0.
A fenti egyenlet megoldsait P-invarinsnak nevezzk, ezek alkotjk a rendszer meg-
maradsi trvnyeit.
11.2. Modellezs differencilegyenletekkel

A koncentrci-vltozs dt id alatt Jdt, teht egy egyvltozs differencilegyenlet rhat
fel minden vegylet koncentrcijra (llapotvltozk):
d[A] d[B]
= = k1 [A]nA [B]nB + k2 [C]nC [D]nD ,
dt dt
d[C] d[D]
= = k1 [A]nA [B]nB k2 [C]nC [D]nD .
dt dt
A fenti differencilegyenlet-rendszer egyszeren megoldhat, s a rendszer dinamikus
viselkedse vizsglhat. Az egyenslyi llapot meghatrozshoz egy algebrai egyenletet
kell megoldanunk, ahol minden derivlt nulla:
0 = k1 [A]nA [B]nB + k2 [C]nC [D]nD ,
amely ugyanannak a dinamikus egyenslynak felel meg, amelyet az egyenslyi konstans
szrmaztatsnl mr trgyaltunk.
A fenti differencilegyenlet-rendszer az albbi ltalnos vektorilis alakban rhat:
dv
= f (v),
dt
ahol v az llapotvltozk vektora, jelen esetben a koncentrcik. Vagy az albbi alakban:
dv
= SJ(v),
dt
ahol S a sztchiometrikus mtrix, s J a reakci fluxusok vektora.
A mdszer mgtt az az implicit felttelezs ll, hogy a koncentrcikat folytonos
vltozknt kezelhetjk.
11.3. Sztochasztikus modellezs

A sejtszint folyamatokban nha igen kis anyagmennyisgek vesznek rszt, ezrt az ezek-
ben rejl alapvet kvantltsg relevnss vlik. Ilyen pldul, ha a rendszerben lv mo-
lekulk szma nhny szznl kevesebb.
Ebben az esetben a rendszer llapotvltozit egsz rtk rszecskeszmokkal szimu-
lljuk koncentrcik helyett. A reakcit egy valsznsgi esemnyknt definiljuk, ahol a
molekulris tkzs valsznsge hi (x, ci )dt arnyos a kiindulsi anyagok rszecskeszma-
inak szorzatval. Ez a fajta modell Monte Carlo-mdszerekkel szimullhat. A legnyil-
vnvalbb mdja a rendszer szimulcijnak, ha diszkrt idlptkeket hasznlunk, s egy
generlt vletlen szm alapjn dntnk, hogy tkzs trtnt-e vagy sem. Amennyiben
trtnt, mdostjuk az llapotvltozkat a reakcinak megfelelen.
Ez az eljrs szmtsintenzv, s csak kzeltse a folytonos idej Markov-lncnak. Ha
egzakt mdon szeretnnk eljrni s olyan alacsony idlptket vlasztunk, hogy minden
lpsben maximum egy reakci trtnhessen, az algoritmus pazarl lesz, mivel szmos
idlpst szimullunk, amikor semmi sem trtnik.
Megmutathat, hogy egy adott idintervallumban trtn reakcik szma Poisson el-
oszlst kvet, s kt esemny kztti id eloszlsfggvnye is analitikus alakban rhat:
az idklnbsgek exponencilis eloszlst kvetnek. Ez adja az alaptlett a Gillespie-
algoritmusnak: ahelyett, hogy szmos diszkrt idlpsben kiszmtannk a rendszer l-
lapott, kiszmthatjuk a kvetkez reakci idpontjt, majd szimulljuk azt [2].
1. Inicializls: t = 0; n = 0; x = x0 .
M
P
2. Szmtsuk ki: hi (x, ci ) i = 1..M ; h0 = hi (x, ci ).
i=1
3. Vletlen szmot generlunk: r1 , r2 U (0, 1).

1
4. Szmtsuk ki: = h0
ln r11 .
1
P
P
5. Hatrozzuk meg -t amelyre hi < r2 h0 hi .
v=1 v=1
6. Alkalmazzuk R reakcis szablyt; n = n + 1; t = t + .
7. Ha t < Tmax : vissza 2-re.
Az inicializlst kveten a hazrdokat kiszmtjuk a rendszer jelenlegi llapota alap-

jn. Ezutn mintavtelezzk a kvetkez reakci idpontjt, s annak tpust az inverz
eloszlsok mdszere szerint (3.-5. lps) A 6. lpsben a megfelel reakcis szablyt al-
kalmazzuk, teht a megfelel szm reaktnst eltvoltjuk, s a termket hozzadjuk az
llapotvektorhoz.
Ahelyett, hogy a kvetkez reakci bekvetkezsnek idejt mintavteleznnk, meg-
hatrozhatjuk minden reakcira a kvetkez bekvetkezs idpontjt a rendszer jelenlegi
llapota mellett, majd a legkzelebbit vlasztjuk ki. Els rnzsre ez a mdszer kevsb
hatkony, mert minden lpsben, minden reakcihoz egy kln vletlen szm generlst
ignyli. A gyakorlatban kt esetben is gyorstst rhetnk el. Ha a reakci hazrdja nem

vltozott az elz lps ta, a reakci kvetkez bekvetkezsi ideje tovbbra is rvnyes.
0
Ha a hazard a korbbi hi rtkrl hi -re vltozott, az elzleg mintavtelezett bekvetkezsi
idig htralv intervallum jrasklzhat:
0 hi
ti = 0 ti .
hi
Ez az alaptlete a GibsonBruck-algoritmusnak, mely egy hatkony alternatvja a Gille-
spie-eljrsnak.
11.4. Hibrid mdszerek

Szmos kzbens lehetsg ltezik a mdszerkivlaszts megknnytsre. Egy rendszer-
ben, ahol a reaktnsok mennyisge alacsony, a kompartmentek kicsik, a reakcik sztochasz-
tikus termszett kezelni kell a szimulciban. Ugyanakkor a sztochasztikus szimulci,
mg egy szofisztiklt algoritmus hasznlata esetn is sokkal erforrs-ignyesebb, mint egy
differencilegyenletek megoldsra pt mdszer. Kompromisszumot kell ktnnk teht a
pontossg s a kezelhet modell maximlis komplexitsa kztt. Egy tmeneti vagy hibrid
mdszer segthet, hogy j kompromisszumot kthessnk.
A matematikban, fizikban s kzgazdasgtanban szles krben hasznlt klasszikus
mdszerek hasznlhatk a problmk sztochasztikus, de folytonos kzeltsre. Intuitv
szrmaztatsukhoz hasznljuk fel, hogy:
lim P o() N (, ),

teht diszkrt sztochasztikus szimulci helyett megoldhatunk egy sztochasztikus differen-

cilegyenlet (SDE) formjban felrt folytonos kzeltst, a folyamat Langevin-egyenlett.
dv
= f (v) + n(t),
dt
ahol n egy zajtag, az egyenletet sztenderd technikkkal megoldhatjuk. ltalnos vektori-
lis alakjban egy SDE az albbiak szerint rhat:
dX
= (X) + (X)dW,
dt
ahol W a Wiener-folyamatot jelli, melynek defincija:
W (0) = 0, W (t + ) W (t) N (0, ),
s minden nem tfed inkremens egymstl fggetlen vletlen vltoz.

A legegyszerbb numerikus eljrs SDE-k megoldsra az Euler-mdszer ltalnost-
snak tekinthet EulerMaruyama-mdszer:
Xn+1 = Xn + (Xn )t + (Xn )Wn , ahol Wn N (0, t).
Egy msik lehetsg, hogy kiszmtjuk a valsznsgi srsgfggvny idbeni viselke-

dst oly mdon, hogy szrmaztatjuk a fenti Langevin-egyenlethez tartoz Kolmogorovs
forward egyenletet:
k k k
X 1 X X 2
p(x, t) = {i (x)p(x, t)} + {i,j (x)p(x, t)}.
t i=1
xi 2 i=1 j=1 xi xj
Ezt FokkerPlanck-egyenletnek nevezzk.

Egy tovbbi lehetsg hibrid eljrsok szrmaztatsra, ha a rendszer vltozinak egy
halmazt diszkrtknt kezeljk, a tbbit folytonosknt. Ebben az esetben kezelnnk kell
a rendszer llapotnak folytonos vltozst kt szimulcis lps kztt, teht a Poisson
folyamatunk inhomogn lesz.
11.5. Reakcidiffzi-rendszerek
Minden eddig trgyalt megkzelts felttelezi, hogy a vizsglt rendszer jl kevered, a ve-
gyletek koncentrcii s tkzsi valsznsgeik azonosak a rendszer minden rszben.
Ha ezek a felttelezsek legalbb kzeltleg helytllak, minden reakcit gy kezelhe-
tnk, mintha a tr azonos pontjn jtszdnnak le. Egy sejtben azonban a reakcik jl
lokalizltak, s ez a lokalizci elengedhetetlen a komplex szablyozsi mechanizmusok
mkdshez. Ebben az esetben teht az id mellett a trbeli koordintkat is be kell ve-
zetni mint vltozkat. A trbeli transzport-folyamat formalizlsa immr elengedhetetlen,
s a legegyszerbb ilyen folyamat a diffzi. A diffzi egy statisztikai termszet spontn
folyamat. A rszecskk Brown mozgsa folyamatos keveredst vlt ki a rendszerben. Az
egyedi molekulk szintjrl nzve egy rszecske vletlen bolyongst vgez a trben. Egy
rszecske tvolsga a kiindulsi helytl vrhat rtkben N ahol N az tkzsek szma
s az tlagos szabad thossz.
Populcis szinten egy kicsi i-edik dx trrszben ni a rszecskk szma. Egy rvid
idszelet alatt annak a valsznsge, hogy a rszecske tlp egy trrsz-hatrt: p, teht
ha az i-edik trrszben a loklis koncentrci nagyobb, mint a szomszdos trrszekben, a
trrszbl kilp rszecskk vrhat szma nagyobb, mint az oda belpk vrhat szma.
A lineris kt dimenzis esetet tekintve annak a valsznsge, hogy a rszecske tlp
egy konkrt hatrt, 0,5 teht
1 1
nki = nki+1 nki + nki1 .
2 2
Vve a trrsz mretnek hatrrtkt nullban, az albbi differencilegyenlethez ju-
tunk, melyet diffzis egyenletnek neveznk:
C(x, t) 2 C(x, t)
=D ,
t 2x
ahol D a diffzis konstans [4]. A molekulris fluxus arnyos a koncentrci gradiensvel:
C(x, t)
JF (x, t) = D .
x
A fenti kt egyenletbl a makroszkopikus Fick-egyenlethez jutunk:
C(x, t) JF (x, t)
= .
t x
A fenti egyenletek egy dimenziban vannak megadva, de egyszeren szrmaztathatk
hromdimenzis megfelelik is. A reakcik ltal alkotott differencilegyenlet-rendszerrel
kombinlva megkapjuk a reakcidiffzi-rendszert reprezentl parcilis differencilegyen-
let-rendszert:
Ci (r, t)
= f (C1 , C2 , .., CN ) + Di 2 Ci (r, t).
t
Mikor megoldjuk ezeket az egyenleteket, a peremfeltteleknek, gy-mint a sejtek trbeli
alakjnak nagy hatsa van a megolds alakjra. A reakcikinetika s a diffzi sszjtka
kifejezetten komplex mintzatokat hozhat ltre, ha a kt folyamat hasonl idskln jtsz-
dik le. Ezeket gyakran Turing-mintzatoknak nevezzk, mert Alan Turing The Chemical
Basis of Morphogenesis cm hress vlt publikcijban trgyalja a jelensget [5]. A
cikkben reakcidiffzi-egyenleteket alkalmazott modell-rendszereken, s a megoldsok
tulajdonsgait vizsglta.
Az lvilgban szmos plda tallhat olyan motvumokra, melyek ersen emlkeztet-
nek a Turing-mintzatokra. Lthatak pldul llatok szrzetn, mint pldul a cirmos
macskk cskjai vagy a leoprd foltjai.
11.6. Modell-illeszts
Az alapvet kapcsolatot a modell s a ksrlet kztt az adat testesti meg. A modell
paramterei a ksrleti adatok segtsgvel hatrozhatk meg, a modell-illesztsre gpi
tanulsi mdszereket hasznlunk. A differencilegyenletes mdszer esetben az f (v) fgg-
vny meghatrozsa a modell-illeszts clja. Erre a clra tetszleges regresszis mdszert
hasznlhatunk.
Sztochasztikus szimulci esetn a modell-illeszts sokkal nehezebb feladat s jelen-
leg is aktv kutats trgyt kpezi. Az a felttelezs, hogy minden reakci bekvetke-
zsnek pontos idpontjval rendelkeznk, irrelis, teht a sztochasztikus modell-tanuls
kontextusban a hinyos adat kezelsnek problematikjval talljuk magunkat szembe.
gynevezett Markov-lnc Monte Carlo-mdszereket hasznlhatunk a sztochasztikus mo-
dellek Bayes-i paramterbecslsre [6]. Egy adat-imputcit tartalmaz mintavtelezsi
smt hasznlhatunk, hogy meghatrozzuk a modell-paramterek a posteriori eloszlst
a hinyos megfigyelsek ismeretben.
Egy alternatv megkzelts, hogy a paramtertanulst a sztochasztikus modell egy
folytonos normlis eloszls kzeltsn hajtjuk vgre. Ez a modell szintn ignyel im-
putcit, mivel ltalban nem ll rendelkezsnkre elg srn minta, hogy kzvetlenl
alkalmazhassuk a sztochasztikus differencilegyenlet EulerMoruyama-kzeltst [7].
11.7. Teljes-sejt-szimulci
Egy olyan komplex biolgiai rendszernek, mint egy teljes sejtnek a megrtse tbb szin-
ten trtnik. Amikor egy organizmus teljes genomjt szekvenljk, egyrtelm, hogy a
rejtlyek nagy rsze mg megoldatlan. Mikor minden gnt annotlnak, a gntermkeket
azonostjk, a szerkezetket meghatrozzk, mg mindig szmos nyitott krds marad. A
tuds egy kvetkez szintjt a gntermkek funkcija s a kzttk lv komplex klcsnha-
tsok kpezik. Tovbb fennllnak klcsnhatsok a gntermkek s a kromatin-struktra
kztt is. A klcsnhats lehet kzvetlen vagy kzvetett, melyet kzs metabolitok ren-
deznek biokmiai tvonalakba. Ha meg tudjuk rajzolni ezt a trkpet, s az organizmus
teljes metabolomjt ismerjk, mg mindig van a tudsnak egy fennmarad szintje: a sejt
dinamikus viselkedse [8]. Ezt a szintet tekinthetjk az organizmus legmagasabb szin-
t fenotpusnak, ha figyelmen kvl hagyjuk a krnyezetet. Az egyetlen megvalsthat
mdja, hogy a sejt dinamikus viselkedst tanulmnyozzuk, az in silico szimulci.
Az elvrsunk egy modelltl valamifle alapveten j elrejelzs. Ezeknek az elre-
jelzseknek kt eltr nzpontjt neveztk tallan Freddolino s munkatrsai a fizikus
nzpontjnak s a mrnk nzpontjnak [9]. Az els tpus egy szles krben alkalmaz-
hat rendezelv, amely segtheti a rendszerrl val tudomnyos gondolkodst, a msodik
tpus egy praktikusabb, ltalban kvantitatv becsls, mely valamely mrnki feladatban
lehet hasznos, pldul hatanyag szrsben.
A Mycoplasma genitalium nev patogn mikroba rendelkezik a legkisebb genommal
minden ismert organizmus kztt: 525 azonostott gnje s 580kb hossz genomja van.
Nem meglep teht, hogy a teljes sejt szimulcira tett els ksrletek az M. genitaliumot
hasznltk modellorganizmusknt. Mivel mg ez az organizmus is relatve nagy szm
gnnel rendelkezik, valamint a gnkitses vizsglatok megmutattk, hogy nem minden
gn esszencilis a mikroorganizmus tllshez, lehetsges egy minimlis gnhalmaz egy
minimlis genom kivlasztsa. Azt a mestersges sejtet, mely ezt a genomot tartalmazza,
minimlis nfenntart sejtnek (angolul self-surviving cell, SSC) nevezzk.
Az E-CELL modell (127 gn, 495 reakcis szably) glukzt fogyaszt a krnyezetbl
s lakttot termel mint anyacserjnek vgtermkt [10]. Ez a trivilis viselkeds in silico
szimulci nlkl is megjsolhat, de ez az egyszer modell is kpes nhny rdekes jelensg
elrejelzsre.
Ha a krnyezeti glukz-szint elri a nullt, a sejt hezni kezd. Paradox mdon a
modellek azt jsoljk, hogy az hezs nagyon korai szakaszban az ATP-szint ideiglenesen
emelkedik, majd ksbb esni kezd mindaddig, mg az ATP-kszletek kimerlnek (11.1.
bra) [8, 9].
Ez a fajta szimulci hatkonyan hasznlhat fel patolgis llapotok vagy egyni k-
lnbsgek modellezsre, hogy szemlyre szabott beavatkozsokat vlaszthassunk ki. Egy
teljes rtk humn sejt modellezse mg nem elrhet, de humn eritrocita modellek mr
lteznek. Ezek a modellek lehetv teszik bizonyos fajta rkletes anmik vizsglatt [8].
Dihydroxyaceton-
mATPHInvestmentm phosphate Triosephosphate

isomerase
Aldolase
Phosphoglucose Phosphofructokinase 2x
Hexokinase
isomerase
Glucose-6- Fructose-6- Fructose-1,6- Glyceraldehyde-3-
Glucose phosphate biphosphate phosphate
phosphate
Glyceraldehydphosphate
ATP ATP ADP dehydrogenase
ADP
Phosphoglycerate Phosphoglycerate
PyruvateHkinase Enolase mutase kinase
3-phospho- 1,3-biphospho-
Pyruvate Phosphoenol- 2-phosphoglycerate
pyruvate glycerate glycerate
ATP ADP ATP ADP Starvation

ATP
mATPHRevenuem
Time
11.1. bra. A glikolzis els felben kt ATP/glukz-molekula befektetsre van szk-

sg, a msodik felben pedig 2 2 ATP nyeresg realizlhat, teht a nett nyeresg
2 ATP/glukz. A msodik rszben a fluxus ktszerese az elsnek (lsd a 2 jelet az
sszefut reakciknl)
11.8. ttekints
Ebben a fejezetben bemutattuk a dinamikus modellezs fontossgt, s ttekintettnk
nhny szmtsi eljrst ennek vgrehajtshoz. Ezek az eljrsok leginkbb a vizsglt
rendszerre vonatkoz alapvet feltevseikben klnbznek. A trgyalt keretrendszerek
csoportostshoz lsd a 11.1. tblzatot. A reakcidiffzi-rendszerek sztochasztikus
kezelsnek lehetsgvel jelen fejezetben nem foglalkoztunk.
11.1. tblzat. Keretrendszerek kulcsszavakban
Determinisztikus Sztochasztikus
Folytonos Diszkrt Folytonos
Homogn Differencilegyenletek Poisson folyamatok, SDE, Langevin-
Gillespie algoritmus, egyenlet, Fokker
GibsonBruck- Planck-egyenlet
algoritmus
Heterogn Parcilis differencil- nem trgyaltuk nem trgyaltuk
egyenletek
Irodalomjegyzk
[1] J. M. Bower and H. Bolouri, Computational Modeling of Genetic and Biochemical

Networks. Bradford Books, MIT Press, 2001.
[2] D. T. Gillespie, Exact stochastic simulation of coupled chemical reactions. The Jour-
nal of Physical Chemistry, 81(25):23402361, 1977.
[3] D. J. Wilkinson, Stochastic modelling for systems biology, Chapter Chemical and bio-
chemical kinetics. Chapman and Hall/CRC mathematical and computational biology
series, [11], Chapman & Hall/CRC, Boca Raton, Fla., 2006.
[4] G. Bormann, F. Brosens, and E. De Schutter, Computational Modeling of Genetic

and Biochemical Networks, Chapter Diffusion. Bradford Books, MIT Press, [1], 2001.
[5] A. M. Turing, The Chemical Basis of Morphogenesis. Philosophical Transactions of

the Royal Society of London. Series B, Biological Sciences, 237(641):3772, Aug. 1952.
[6] R. J. Boys, D. J. Wilkinson, and T. B. L. Kirkwood, Bayesian inference for a discretely

observed stochastic kinetic model. Statistics and Computing, 18(2):125135, 2008.
[7] Andrew Golightly and Darren J. Wilkinson, Bayesian sequential inference for stochas-
tic kinetic biochemical network models. Journal of Computational Biology, 13(3):838
851, 2006.
[8] M. Tomita, Whole-cell simulation: a grand challenge of the 21st century. TRENDS
in Biotechnology, 19(6):205210, 2001.
[9] P. L. Freddolino and S. Tavazoie, The dawn of virtual cell biology. Cell, 150(2):248
250, July 2012.
[10] M. Tomita, K. Hashimoto, K. Takahashi, T. S. Shimizu, Y. Matsuzaki, F. Miyoshi,

K. Saito, S. Tanida, K. Yugi, J. C. Venter, and C. A. Hutchison, E-CELL: software
environment for whole-cell simulation. Bioinformatics, 15(1):7284, 1999.
[11] D. J. Wilkinson, Stochastic modelling for systems biology. Chapman and Hall/CRC
mathematical and computational biology series, Chapman & Hall/CRC, Boca Raton,
Fla., 2006.
12. fejezet
Oksgi kvetkeztetsek az
orvosbiolgiban
Ebben a fejezetben sszefoglaljuk az elmleti httert s megkzeltsi mdjt olyan induktv

kvetkeztetsi eljrsoknak, amelyek egy trgyterlet sszes vagy egy clvltozt kzvetlenl
rint oksgi relcijnak a feltrkpezst segtik. A megkzelts alapja a relcik lte-
zsnek jellemzse, amire a Bayes-statisztikai keretrendszer felhasznlst mutatjuk be.
Bemutatjuk a posztgenomikai korszak azon vltozsait is, amelyek indokoljk ezt a megk-
zeltst, s bemutatjuk a mdszer jelenlegi hatrait, nyitott krdseit.
Jellsek
x,x,x skalr, (oszlop)vektor vagy halmaz, mtrix
X, x, p(X) vletlen vltoz X, rtk x,
valsznsgi tmegfggvny/srsgfggvny X
EX,p(X) [f (X)] f (X) vrhat rtke p(X) szerint
varp(X) [f (X)] f (X) variancija p(X) szerint
Ip (X|Z|Y ) X s Y megfigyelsi fggetlensge Z felttellel p esetben
(X Y |Z)p Ip (X|Z|Y )
(X 6 Y |Z)p ) Ip (X|Z|Y )
CIp (X; Y |Z) X s Y beavatkozsi fggetlensge Z felttellel p esetben
(rszleges) sorrendezs
c a vltozk egy teljes sorrendezse
G adott G irnytott krmentes grffal kompatibilis sorrendek halmaza
(n) n objektum sorrendjeinek (permutciinak) a halmaza
G, Bayes-hl struktrja s paramterei
G G irnytott krmentes grf esszencilis grfja
G(n)/G k (n) n csompont maximum k szlj DAG-ok halmaza
G adott sorrenddel kompatibilis DAG-ok halmaza

Tovbbi konvencik az egyes fejezetekben jelltek.

12. Oksgi kvetkeztetsek az orvosbiolgiban 159
GG adott G DAG-gal megfigyelsi ekvivalens DAG-ok halmaza

kompatibilitsi relci
pa(Xi , G) pa(Xi , G) szli halmaz kompatibilis sorrendezssel
MBp (Xi ) Markov-takarja Xi -nek p-ben
pa, pa(Xi , G) szli vltozk halmaza, Xi szleinek halmaza G-ben
paij a j. konfigurcija a szli rtkeknek egy sorrendben
bd(Xi , G) Xi szleinek, gyerekeinek s gyerekei egyb szleinek halmaza G-ben
MBG(Xi , G) a Markov-takar algrfja Xi -nek G-ben
MBM(Xi , Xj , G) a Markov-takarbelisg relcija
n valsznsgi vltozk szma
k maximlis szlszm DAG-okban
N mintaszm
V sszes valsznsgi vltozk szma
Y vlasz, kimeneteli, fgg vltoz
N+ /N...,+,... Ni /N...,i,... megfelel sszegei
D|X X vltozhalmazra szktett adathalmaz
|| kardinalits
1() indiktorfggvny
f 0 , f 00 f fggvny els s msodik derivltjai
AT A mtrix transzponltja
xy x s y vektorok skalrszorzata
+ / informatv/nem informatv informcis kontextus
, , , 6=, standard logikai opertorok
, , \, standard halmazmveletek
KB `i bizonythatsga KB-bl
a Gamma fggvny
Beta(x|, ) a Bta eloszls srsgfggvnye (pdf)
Dir(x|) a Dirichlet-eloszls srsgfggvnye
N(x|, ) az egyvltozs norml eloszls srsgfggvnye
N(x|, ) a tbbvltozs norml eloszls srsgfggvnye
BD,BDe Bayesian Dirichlet-prior, megfigyelsi ekvivalens BD-prior
BDCH Bayesian Dirichlet (BD) prior 1 hiperparamterekkel
BDeu megfigyelsi ekvivalens s uniform BD prior
L(; DN ) p(DN |) likelihood fggvnye
H(X, Y ) X s Y entrpija
I(X; Y ) X s Y klcsns informcija
KL(XkY ) X s Y KullbackLeibler-divergencija
H(XkY ) X s Y keresztentrpija
L1 (, ), L2 (, ) az abszoltrtkbeli (Manhattan) ngyzetes (euklidszi) tvolsgok
L0 (, ) 0-1 vesztesg
O()/() aszimptotikus, nagysgrendi fels s als hatr

Rvidtsek
ROC Receiver Operating Characteristic (ROC) grbe
AUC ROC-grbe alatti terlet
BMA Bayes-i modell tlagols
BN Bayes-hl
DAG irnytott krmentes grf
FSS jegykivlasztsi problma
MAP maximum a posteriori
MI klcsns informci
ML maximum likelihood
MBG Markov-hatr grf
MB Markov-takar
MBM Markov-takarbelisg
(MC)MC (Markov-lncos) Monte Carlo
NBN naiv Bayes-hl
12.1. Bevezet
Az omikai mrsi technikk elterjedse lehetv tettk a hipotzismentes orvosbiolgiai
kutatsokat. Az omikai adatok nagy vltozszma s az ehhez kpesti alacsony mintasz-
ma egyszer (kevs statisztikai) teszten alapul statisztikai elemzseket indokol, amelyek
azonban a remlttl elmarad eredmnyeket hoztak pldul a biomarker-kutatsok, j
gygyszerclpontok s j klinikai vgpontok felfedezsnek terletn is. A komplexebb
modellek alkalmazsra a Bayes-statisztikai keretrendszer knl egy konzisztens, nkor-
rigl lehetsget, klnsen az azon belli Monte Carlo alap kvetkeztetsek utbbi
negyedszzadban bekvetkezett fejldse. Ennek rszben oka a szmtstechnika fejld-
se, illetve az ezredfordultl megfigyelhet trendfordulsa is, ami a prhuzamos szmtsi
erforrsok fejldst jelenti: az ltalnos cl grafikus krtyk, elosztott grid rendsze-
rek s a felh alap szmtsi kzm elterjedst. Ezen tnyezk eredmnyeknt tfog,
oksgi modellek induktv strukturlis vizsglata is lehetv vlt. Az oksgi kutatsok-
nak ez az ga klnsen relevnss vlt az omikai megkzelts miatt, amely vizsglatot
kvethetnek ms tpus oksgi kvetkeztetsek, mint pldul az adott oksgi modellen
belli hatserssg identifiklsnak s becslsnek a krdsei, illetve funkcionlis oks-
gi modelleken alapul vizsglatai kontrafaktulis jelleg kvetkeztetseknek. Az oksgi
relcik rendszerszint vizsglatt a Bayes-statisztikai keretben mutatjuk be, amelyhez
elsknt sszefoglaljuk a passzv megfigyelsekbl trtn tanuls elmleti korltait, s be-
mutatunk olyan idealisztikus tanulsi algoritmusokat, amelyek aszimptotikus mennyisg
adatot tteleznek fel. Ezt kveten bemutatjuk egy elterjedt poszterior szrmaztatst
az oksgi modellekhez, amely kpes oksgi priorokat s oksgi (beavatkozsokat is tartal-
maz) adatokat is integrlni. Vgl bemutatunk olyan strukturlis modelltulajdonsgok
feletti Bayes-kvetkeztetst, amely modelltulajdonsgok sokrt oksgi rtelmezssel br-
nak.

Az oksgi relcik tanulsval kapcsolatos kihvsok illusztrlsra rdemes felidzni,

hogy egy okozati relci
1. inkbb a determinisztikus s nem bizonytalan vilgkphez tartozik,
2. aszimmetrikus, szemben az informcis, asszocicis bizonytalansggal,
3. aktv cselekvsek, beavatkozsok kvetkezmnyeihez kapcsoldik, s nem passzv
megfigyelsekhez,
4. mechanizmusokhoz kapcsoldik, amelyek autonmok, modulrisak az ket terhel
zajok s a beavatkozsok viszonylatban,
5. idaspektussal is rendelkezik.
A bizonytalansg modellezsben az asszocicis relcik s az oksgi relcik megk-
lnbztetsre tbb szempontrendszert is megfogalmaztak, ilyen pldul az orvosbiolgiai
kutatsokbl szrmaz kvetkez lista, mely az oksgi relcikkal szemben tmasztott
kvetelmnyeket sorolja fel [21]:
1. Er. Ers statisztikai asszocici.
2. Konzisztencia, specifikussg, koherencia. Pldul az ok megszntetsvel a hats is
sznjn meg (szksgessg), s az ok bekvetkeztvel a hats is ersdjn (elgs-
gessg).
3. Gradiens. Legyen a kvetkezmny arnyos a hatssal (dzishats elv).
4. Temporalits. X idben elzze meg Y -t.
5. Plauzibilits s analgia. Ltezzen magyarzat, s ne legyenek alternatv, zavar
tnyezre is pt alternatv magyarzatok.
6. Ksrleti adatok lte.
12.2. Fggetlensgi s oksgi relcik reprezentlsa Ba-

yes-hlkkal
A feltteles fggetlensg fogalma kzponti szerepet jtszik az oksgi relcik tanulsnak
tisztzsban. Kvetve a Dawid [7] ltal bevezetett jellst a feltteles fggetlensg a
kvetkezkppen definilhat.
12.1. Definci. Legyen p(V ) egyttes eloszls esetn X, Y , Z V diszjunkt rszhalma-
zok. Jellje X s Y Z felttel melletti fggetlensgt Ip (X|Z|Y ), azaz
(X
Y |Z)p iff (x, y, z p(x, y|z) = p(x|z)p(y|z) ha p(z) > 0). (12.1)
Az (X Y |Z)p feltteles fggetlensgre egy msik jells az Ip (X|Z|Y ) s az Ip (X; Y |Z).

Egyrtelmsg esetn az alsindexet s a felttelt elhagyjuk. A fggetlensg hinyt, azaz
a fggst (X 6 Y |Z)p jelli.
Egy eloszlsban fennll fggetlensgek teljes rendszert reprezentlja a kvetkez

12.2. Definci. Egy P (X1 , . . . , Xn ) eloszls MP fggetlensgi modellje pontosan a P -ben

rvnyes IP (X, Y |Y ) fggetlensgi lltsokat tartalmazza.
Az oksgi kutatsban kzponti szerepet jtsz Bayes-hlk valsznsgi defincijhoz

szksges a kvetkez kt fogalom.
12.3. Definci. Egy G irnytott, krmentes grfban az X, Y, Z V diszjunkt csom-

pont halmazok esetben jellje IG (X|Z|Y ), illetve IG (X; Y |Z), ha X s Y d-elvlasztottak
Z ltal, azaz ha minden p t X s Y kztt blokkolt Z ltal a kvetkezkppen:
1,2 a p t tartalmaz egy Z-beli n csompontot nem sszetart lekkel (azaz gy n

vagy gy n ),
3 a p t tartalmaz egy nem Z-beli n csompontot sszetart lekkel (azaz gy n ),
amelynek nincs leszrmazottja Z-ben.
12.4. Definci. A p(X1 , . . . , Xn ) eloszlsra teljesl a globlis Markov-felttel G szerint,

ha
X, Y, Z V : IG (X; Y |Z)G (X Y |Z)p . (12.2)
Ekkor a Bayes-hl egy lehetsges defincija a kvetkez.
12.5. Definci. A G irnytott krmentes grf a P (V ) eloszls Bayes-hlja, ha minden

vltozt a grf egy csompontja reprezentl, a grfra teljesl valamelyik (s gy az sszes)
Markov-felttel, s a grf minimlis (azaz brmely l elhagysval a Markov-felttel mr
nem teljesl).
Mg ez a definci egyrtelmen a valsznsgi fggetlensgek rendszernek reprezen-

tcijaknt tekint a Bayes-hlra, addig a mrnki gyakorlatban kzkedvelt az albbi,
praktikus meghatrozs.
12.6. Definci. A V valsznsgi vltozk Bayes-hlja a (G, ) pros, ha G egy ir-

nytott krmentes grf, amelyben a csompontok jelkpezik V elemeit, pedig a cso-
mpontokhoz tartoz P (Xi |P a(Xi )) feltteles eloszlsokat ler numerikus paramterek
sszessge.
A Markov-felttel teljeslse biztostja, hogy minden grfbl kiolvasott fggetlensg

teljesljn az eloszlsban, azonban a msik irnyhoz, ahhoz teht, hogy minden fgget-
lensg kiolvashat is legyen a grfbl, annak stabilnak is kell lennie.
12.7. Definci. Egy P(U) eloszls stabil, ha ltezik olyan G DAG, hogy P(U)-ban ponto-
san a G-bl d-szeparcival kiolvashat fggsek s fggetlensgek teljeslnek benne (azaz
G perfekt trkp).
A DAG-reprezentci korltjt alapveten az jelenti, hogy numerikusan a struktra

szerint nem szksgszer fggetlensgek is lekdolhatak. A trivilis redundancikon tl
ezek rejtett formkban is megjelenhetnek, pldul nem tranzitv fggsek kpben vagy

alacsonyabb rend fggetlensgek kpben (pldul egy Markov-lncban megfelel para-

mterezs mellett elfordulhat, hogy a fggsek nem tranzitvak).
Az eloszls stabilitsnak s szigor pozitivitsnak feltevse sem zrja ki, hogy az
eloszls fggetlensgi modelljnek tbb DAG is perfekt trkpe legyen. Viszont ppen ez
a DAG-okbl d-szeparcival induklt kzs fggetlensgi modellek teszik lehetv egy
DAG-ok feletti ekvivalencia-relci bevezetst [14, 20, 13].
12.8. Definci. Kt DAG G1 , G2 megfigyelsi ekvivalens, ha pontosan ugyanazokat a

d-szeparcis relcikat definiljk, azaz ((X
Y |Z)G1 ) (X
Y |Z)G2 .
Az azonos ekvivalencia-osztlyba tartoz DAG-ok tulajdonsgainak megrtse tbb
szempontbl is fontos. Egyrszt szksges tisztzni a DAG-ok szndkolt, intuitv ok-
sgi szemantikjnak fenntarthatsgt, nevezetesen azt, hogy milyen korltok kztt
maradhatna rvnyes ez az oksgi rtelmezs. Msrszt azonos megfigyelsi ekvivalencia-
osztlyba tartoz DAG-ok Bayes-hlit azonos mdon kellene felparamterezni, ami aka-
uzlis megkzeltsben is fontos kvetkezmnyekhez fog vezetni. Az azonos ekvivalencia-
osztlyba tartoz DAG-ok jellemzse kt szrevtelen nyugszik. Az els, hogy az azo-
nos megfigyelsi ekvivalencia-osztlyba tartoz DAG-ok irnytatlan vza azonos, mivel a
DAG-ban egy l egy kzvetlen fggst reprezentl, amelynek minden Markov-kompatibilis
DAG-ban meg kell jelennie [14]. A msodik szrevtel, hogy ha X, Y s Y, Z kztti
kzvetlen fggsek lteznek, gy, hogy nincs kzvetlen fggs X, Z kztt s nincs olyan
fggetlensg, hogy (X Z|{Y, S}), azt mindenkppen egy sszetart lprral kell jelezni
X Y Z, egy gynevezett v-struktrt ltrehozva. Az azonos ekvivalencia-osztlyba
tartoz DAG-ok jellemzst a kvetkez ttel biztostja.
12.1. Ttel ([14, 4]). Kt DAG G1 , G2 pontosan akkor megfigyelsi ekvivalens, ha az

irnytatlan vzuk megegyezik s ugyanazon v-struktrkat tartalmazzk (azaz konverg-
l leket, amelyek talpnl nincs l) [14]. Ha a Bayes-hlk (G1 , 1 ) s (G2 , 2 ) diszkrt
vltozkat tartalmaznak s loklis modelljeik multinomilis eloszlsok, akkor G1 , G2 meg-
figyelsi ekvivalencija egyenl dimenzionalitst s bijektv lekpezhetsget jelent a 1 s
2 paramterezsek kztt, amit eloszlsbeli ekvivalencinak neveznek [4]).
Mint lthat, ha elfogadjuk az Ockham-elv ltal diktlt modellminimalits elvt, s

egy eloszlsmodellezsnl (az egyszersg kedvrt stabil eloszlst felttelezve) a fgget-
lensgi modelljt minimlis mdon reprezentl DAG-okat tekintjk, akkor bizonyos lek
irnytsa nknyes, gy oksgi rtelmezse, a priori informcik hinyban rtelmetlen.
Azonban a 12.1. Ttelben szerepl v-struktrknl tbb lre jelenthet megktst a meg-
figyelsi osztlyba tartozs, hiszen bizonyos lek irnytsa azrt lehet egyrtelm, mert
amgy v-struktrt hoznnak ltre (ami kivezetne az ekvivalencia-osztlybl). Ez a k-
vetkez defincihoz vezet el.
12.9. Definci. Az esszencilis grf a megfigyelsi ekvivalens DAG-ok halmazt rep-

rezentlja egy rszlegesen irnytott DAG-gal (PDAG), amely grfban csak azok az gy-
nevezett knyszertett lek irnytottak, amelyek az ekvivalenciaosztlybeli DAG-okban
azonosan irnytottak. A tbbi l irnytatlansga az (lszint) eldnthetetlensget jelzi.

Az esszencilis grf meghatrozsra hatkony algoritmust kzlt Meek [13].

A klasszikus krds, hogy hogyan lehet megklnbztetni az oksgi kapcsolatokat a
fggsektl (korrelci versus kauzalits), azaz, hogy hogyan lehetne meghatrozni az
oksgi sttuszt passzvan megfigyelt X s Y kztti statisztikai fggsnek, az felbonthat
a valsznsgi Bayes-hls reprezentcikhoz tartoz fogalmakkal, mint stabilits s az
esszencilis grf. Elsknt megfontoland, hogy vajon az sszes kzvetlen fggs oksgi-e.
Ez ersen vitathat feltevs volna, amelyre hosszabban kitrnk. Msodsorban a stabilits
feltevse is megfontolhat, hiszen annak hinyban (a Bayes-hls reprezentci defincija
szerint) nem fennll fggseket is impliklni fog a struktra. Harmadsorban, meg lehet
fontolni, hogy az esszencilis grf s a knyszertett lek definilsnl hasznlt Boolean
Ockham-elv (amely szerint csak a minimlis, konzisztens modelleket vettk figyelembe) a
Bayes-i kontextusban nem terjeszthet-e ki?
Ezen krdsek megfontolshoz vezessk be az oksgi modell fogalmt, amely a korb-
bi, Bayes-hlkon alapul intucit formalizlja.
12.10. Definci. Egy DAG-ot oksgi struktrnak neveznk vltozk V halmaza felett,
ha minden csompont egy vltozt reprezentl, az lek pedig kzvetlen rhatst szim-
bolizlnak. Egy oksgi modell olyan oksgi struktra loklis valsznsgi modellekkel
p(Xi | pa(Xi )) minden egyes csomponthoz, amely lerja az adott Xi csompont sztochasz-
tikus fggst a pa(Xi ) szleitl. Mivel a feltteles modellek gyakran parametrikus mo-
dellcsaldbl szrmaznak, az Xi -hez tartoz feltteles modell paramtereit i jelli, s
jelli a teljes modell paramterezst.
A stabilits feltevsvel az esszencilis grf egzakt mdon reprezentlja a fggetlensgi
relcikat, s a Boolean Ockham-elv szerinti modellminimalitsnak megfelelen maximlis
mrtkben jelzi a potencilis oksgi relcikat, gy elfogadsval az oksgi relcik rend-
szer alap kikvetkeztetsre lthatnnk pldt. A feltevsek jogossgnak vizsglathoz
vezessk be az albbi formlis felttelt, amely egy oksgi struktra validitst s elgs-
gessgt biztostja.
12.11. Definci. Egy G oksgi struktra s p eloszls teljesti az oksgi Markov-felttelt
(CMA, ha p-ben teljesl a G szerinti loklis Markov-felttel.
Az oksgi Markov-felttel Reichenbach kzs ok elv-n alapul, amely szerint X s Y
esemnyek kztti fggs azrt ll fenn, mert vagy X okozza Y -t, vagy Y okozza X-et, vagy
kzs ok befolysolja X-et s Y -t is [16, 10]. Ennek megfelelen az oksgi Markov-felttel
akkor ll fenn (p, G) prra, ha a V vltozhalmaz oksgilag elgsges, azaz nincs rejtett,
nem V -beli, kzs ok (vagy mskppen fogalmazva: minden kzs ok X, Y V prokra
V -beli). Ez termszetesen nem azt jelenti, hogy nem lehetnek rejtett vltozk, hiszen ez
egy adott absztrakcis szinten elkerlhetetlen, de csak azon vltozknak szksges V -ben
szerepelni, amelyek kt vagy tbb vltozt is kzvetlenl befolysolnak.
Az oksgi Markov-felttel sszekapcsolja az oksgi relcikat s a fggseket, s az ok-
sgi modell (modellezs) elgsgessgt kveteli meg a megfigyelt fggsekhez (mondhatni
gy is, hogy az lek elgsgesek). rdemes szrevenni, hogy a stabilits feltevse ppen
az lek szksgessgt jelenti (mondhatni gy is, hogy nincsen felesleges l). Ez a kt

feltevs biztosthatja, hogy a Bayes-hl ltal impliklt fggetlensgek valban fennllnak

s a fggsek is egzakt mdon reprezentltak az oksgi modellben [9].
Az oksgi kvetkeztetsek valsznsgi megkzeltshez vezessk be a beavatkozs
do() mvelett a manipulcis ttel ([19]) s grf csonkols ([16]) szerint.
12.12. Definci. Egy G, oksgi modell esetn p(Y |z, do(X = x)) jellje azt az elosz-
lst, amelyet gy kapunk, hogy a (perfekt) beavatkozshoz tartoz X vltoz(k) bemen
leit trljk s ezeket a vltozkat az elrt rtkre belltjuk (azaz a faktorizciban a
belltott vltozkhoz tartoz faktorok nem szerepelnek) [15].
A beavatkozs fogalmra tmaszkodva egy ahhoz kapcsold fggetlensg is bevezet-

het.
12.13. Definci. Jellje p(.|do(.)) a megfelel beavatkozsi eloszlsokat, s legyenek

X, Y , Z V diszjunkt rszhalmazok. Ekkor a X s Y oksgi fggetlensge (irrelevan-
cija) Z esetben CIp (X; Y |Z) akkor ll fenn, ha
CIp (X; Y |Z) iff (x, y, z p(y|do(z), do(x)) = p(y|do(z))). (12.3)
Ezen oksgi fggetlensghez is tartozik grf alap reprezentci.
12.2. Ttel. Egy (G, ) Bayes-hlval definilt p stabil eloszlsban az irnytott tlefogs
egzakt mdon reprezentlja az oksgi irrelevancit, azaz int(X Y |Z)G (X Y |Z)p ,
X, Y, Z V ), ahol int(X Y |Z)G jelli, hogy Z minden irnytott utat lefog X-bl
Y -ba, azaz minden X-bl Y -ba vezet s t tartalmaz egy csompontot Z-ben.
12.3. Oksgi relcik knyszer alap tanulsa

A knyszer alap struktra-tanulsi algoritmusok lehetsg szerint minimlis szm fg-
getlensgi tesztet vgrehajtva prblnak olyan Bayes-hl-struktrt tallni, amely az
adatokban megjelen fggetlensgi viszonyokat hen reprezentlja [16, 10, 19] (minimlis
fggetlensgi trkp, lsd Valsznsgi grfos modellek fejezet). Ezekre az algoritmusokra
plda az Inductive Causation (IC) algoritmus, amely egy stabil eloszlst ttelez fel s
ekkor helyes megoldst ad:
1. Vz: Konstruljuk meg az irnytatlan grfot (vzat) gy, hogy X, Y V akkor

legyen sszektve, ha S(X
Y |S)P , ahol S V \ {X, Y } .
2. v-struktrk: Irnytsuk X Z Y , ha X, Y nem szomszdosak, Z egy kzs
szomszd s S gy, hogy (X
Y |S)P , ahol S V \ {X, Y } s Z S.
3. propagation: Irnytsuk a maradk irnytatlan leket gy, hogy nem hozunk ltre
j v-struktrt, sem irnytott krt.

12.3. Ttel. A kvetkez szablyok szksgesek s elgsgesek.

R1 Ha (a 6 c) (a b) (b c), akkor b c.
R2 Ha (a c b) (a b), akkor a b.
R3 Ha (a b) (a c b) (a d b) (c 6 d), akkor a b.
R4 Ha (a b) (a c d) (c d b) (c 6 b) (a d), akkor a b.
Br stabil eloszls esetben a mdszerek aszimptotikus adatmennyisgnl azonosan
viselkednek, vges adatmennyisgnl nincsen gyakorlati tancs a szignifikancia-szintek ke-
zelsre, sem a globlisan kiadd modell tfog szignifikancia szintjre. Azonban alacsony
szmtsi ignye miatt s rejtett vltzkat is kezel kiterjesztsei miatt ez a megkzelts
loklis oksgi rszstruktrk kikvetkeztetsre egy vonz lehetsg. Elsnek vizsgljuk
meg azt az esetet, hogy nem lehetnek zavar tnyezk [5, 17].
12.1. Plda. Az oksgi Markov-felttel garantlja, hogy hrom vltoz esetn mr oksgi
relcikat tudunk kikvetkeztetni passzv megfigyelsekbl is. Ekkor azon fggetlensgi
modell, amely tartalmazza X, Y Y, Z kztti kzvetlen fggseket, X, Z fggetlensgt s
(X 6 Z|{Y }) feltteles fggst, csak az gynevezett v-struktrt mutat X Y Z
DAG-gal reprezentlhat.
rdekes mdon oksgi relcik bizonyos esetekben zavar tnyezk potencilis jelenl-
tben is kikvetkeztethetek, azaz amikor az oksgi Markov-felttel nem teljesl (loklis
oksgi felfedez algoritmusokrt lsd [5, 17, 12].
12.2. Plda. Ha potencilis zavar tnyezk nincsenek a priori kizrva, akkor az elz
pldt folytatva mg egy vltozt meg kell figyelni ennek kizrshoz (oksgi sorrend a
priori feltevse esetn ismt elg hrom vltoz). Az elz pldban szerepl fggetlensgi
modellt folytatva ttelezzk fel, hogy megfigyelnk egy tovbbi W vltozt, Y, W direkt
fggssel s feltteles fggetlensggel (W
{X, Z}|Y ) (a stabilits feltevse miatt W fgg
X-tl s Z-tl is). Mivel az Y felttel fggetlensget jelent, a globlis d-elvlasztsos
reprezentci megkveteli, hogy legyen Y W l, hiszen egy kzvett zavar tnyez
Y W lekkel nem lenne lefogva Y ltal.
12.4. Teljes oksgi modellek Bayes-i tanulsa

Az oksgi modellek knyszer alap tanulsval szemben a pontszm alap mdszerekben
egy globlis pontszm a teljes modellnek az adathoz s az a priori ismeretekhez val
illeszkedst jelzi. A pontszmokra egy termszetes vlaszts a modellek a posteriori
valsznsge a DN adat felttelben. Egy Bayes-hl-struktra poszteriorja a struktra-
priornak s a modell-likelihood-nak a szorzata:
Z
p(G|DN ) p(G) p(DN |, G)p(|G) d = p(G)p(DN |G). (12.4)
A likelihood tnyezre egy hatkonyan szmolhat kplet vezethet le (lsd [6, 18, 11]):
qi
n Y ri
Y (ij+ ) Y (ijk+nijk )
p(G, DN ) = p(G) , (12.5)
i=1 j=1
( ij+ + nij+ ) k=1
( ijk )

Ezt Bayesian Dirichlet-poszteriornak nevezik, s ha az kezdeti hiperparamterek kiel-

gtik azt a felttelt, hogy a likelihood egy megfigyelsi ekvivalenciaosztlyon bell azonos
rtked ad, akkor BDe jelli [11]. Ha a kezdeti hiperparamterek konstans 1 rtk-
ek, akkor BDCH jelli [6]. Ha a kezdeti hiperparamterek a loklis multinomilis modell
paramterei szmnak reciproka, akkor jele BDeu [3, 11].
Beavatkozsos adatoknl az Oksgi modellek fejezetben bevezetett do szemantika
szerint annyit vltozik ez a pontszm, hogy a belltott vltozkhoz tartoz szorzatok nem
jelennek meg [10].
12.5. Oksgi jegyek kvetkeztetse Bayes-hlk feletti t-

lagolssal
A grafikus valsznsgi modellek hasznlata genetikai asszocicis vizsglatokban a csa-
ldfa-elemzsekhez kapcsoldott, majd a genetikai varinsok kapcsoltsga miatt a
tagSNP-k s a haplotpusok kezelsnl jelent meg. A genetikai interakcik, komplex
fenotpusok s letmdbeli, krnyezeti mdost hatsok figyelembevtele miatt az utbbi
vekben a grafikus valsznsgi modellek, klnsen az oksgi kapcsolatok modellezsre
alkalmas Bayes-hlzatok hasznlata genetikai asszocicis vizsglatokban egyre elterjed-
tebb vltak.
Az ismertetett mdszertan msik eleme a Bayes-statisztika. Mieltt megvizsglnnk az
oksgi Bayes-hlk felhasznlst ezen keretrendszerben, sszefoglaljuk a Bayes-statisztikai
keret ltalnos smjt. Ebben a statisztikai megkzeltsben, parametrikus modelleket
felttelezve, egy adott informcis elltottsg szituciban a megfigyelsek feletti p(x|)
bizonytalan elvrsokat gy lltjuk el, hogy els lpsknt meghatrozzuk a relevns,
paramterezs p(x|) modelleket, majd ezen paramterezs felett egy p(|) valsznsg
eloszlst (az xi mennyisgek a megfigyelhet, a paramter a tipikusan nem megfigyel-
het kategriba esnek). A informcis kontextus s a valsznsgek feltteleiben val
szerepeltetse a valsznsgek szubjektv rtelmezst hivatott hangslyozni. Gyakran
hasznlt jells a + s , amelyek a neminformatv s informatv szitucikat jellik.
A p(x, |) egyttes eloszls megkonstrulsa utn a valsznsgszmts szablyai sze-
rint tetszleges kvetkeztetsek lehetsgesek uniform mdon hasznlva a megfigyelhet xi
mennyisgeket s a nem megfigyelhet paramtereket. A gyakorlatban elterjedt megkze-
lts szerint a hierarchikus specifikciban a relevns Mi modellosztlyok specifikcijval,
majd az azokon belli Ski vagy Mki modell-struktrk specifikcijval, s vgl a modell-
struktrkhoz tartoz ki paramterek specifikcijval trtnik. Ennek megfelelen egy
adott i modellosztlybeli k struktra ki paramterezshez tartoz a priori bizonytalan
elvrs egy szorzatknt fejezhet ki:
p(ki , Mki , Mi ) = p(Mi )p(Mki |Mi )p(ki |Mki ). (12.6)
A modellek eloszlsainak specifikcijt a megfigyelhet mennyisgekre vonatkoz

p(x|, ) avagy p(x|ki , Mki ) feltteles eloszls egszti ki a Bayes-statisztikai megkzel-
tshez tartoz teljes egyttes eloszlss.

A Bayes-statisztikai orvosbiolgiai alkalmazst kezdetben olyan ltalnos tulajdons-

gok motivltk, mint a statisztikai rtelemben vett kismints esetekben trtn felhaszn-
ls, s az a priori ismeretek koherens belptetse a statisztikai kvetkeztetsbe. Az omikai
vizsglatok ezt a kt irnyt felerstettk, mivel a statisztikai rtelemben vett kismints
eset az orvosbiolgiai kontextusban rendkvl nagyra nvekedett vltozszm miatt lp fel.
Ez a problma a legegyszerbb egyvltozs statisztikai vizsglatokban, pldul genetikai
asszocicis vizsglatokban a tbbszrs hipotzistesztels problmjaknt aposztrofl-
dik. A Bayes-statisztika egyik elnye az a priori ismeretek felhasznlsnak fontossga a
viszonylagosan alacsony mintaszm s komplex modellek miatt, illetve az orvosbiolgiai
httrtuds sokrtsge s gazdagsga miatt fontos. A nagy teresztkpessg, omikai
mrsek miatt lehetsgess vlt hipotzismentes kutats azonban a Bayes-i megkzelts
msik elnyt is fontoss tette, hogy komplex modellek tulajdonsgai kikvetkeztethe-
tk lehetnek, annak ellenre, hogy a modellek kztt nincsenek dominnsak, sem nagy a
posteriori valsznsgi rgik kis kiterjedssel. Ekkor az adott adat mint felttel meg-
hatrozza az adott modellosztlyt hasznl konkrt elemzs sorn fennll statisztikai
bizonytalansgot, s az rdekes, megerstett modelltulajdonsgok utlagos, adatelemzsi
eredmnyekbl trtn felismerse egy sokrt feladatknt jelenik meg.
Elsknt is vegyk szre, hogy a Bayes-i modelltlagols a DAG-ok felett, nem csak
a modellstruktrk tulajdonsgainak Bayes-kvetkeztetsben, hanem tbb feladatban is
megjelenik ( paramterek feletti tlagolst analitikusan oldja meg a (12.5) kplet). Meg-
jelenik a krdses modelltulajdonsgot jelz Fc indiktorfggvny valsznsgnek becs-
lsben, egy adott modell (vagy akr tulajdonsg) vrhat vesztesgnek becslsben s
megjelenik az gynevezett teljes Bayes-i kvetkeztetsben is:
X
p(Fc = fc |DN ) = 1(Fc (G) = fc )p(G|DN ), (12.7)
G
X
LG|DN = Ep(G|DN ) [L(G, G)] = L(G, G)p(G|DN ), (12.8)
G
p(y|x, DN ) = Ep(G|DN ) [Ep(|G,DN ) [p(y|x, , G)]]. (12.9)
Az oksgi Bayes-hlk strukturlis rszt reprezentl DAG-ok, kzvetlenl s kzvetve

is, szmos oksgi rtelmezssel br modelltulajdonsg definilst teszik lehetv, mint
pldul az lek, irnytatlan lek, knyszertett lek, irnytott utak; pronknti, rszleges
s teljes vltozsorrendek, szli halmazok s Markov-takar grfok.
12.5.1. lek: kzvetlen pronknti fggsek

Az oksgi Markov-felttel mellett a legnyilvnvalbb oksgi Bayes-hl jegy az irnytott
l, amely egy kzvetlen (nem medilt s felttlen) pronknti relcit reprezentl (a
kzvetlensg az oksgi Markov-felttel szerint rtend, teht a modellezett szint alatt
termszetesen ltezhetnek kzvett vltozk, m azok nem befolysolnak ms modell-
beli vltozkat 12.11). Ha a hipotzisosztlyok a Bayes-hlk megfigyelsi ekvivalencia
osztlyai, akkor az ezeket reprezentl esszencilis grfokbeli knyszertett lek jellnek
egy potencilisan oksgi rtelmezssel felruhzhat relcit (a stabilits feltevse s oksgi

Markov-felttel mellett). A megfelel poszteriorok a kvetkezek:

X
p(Xi G Xj |DN ) = 1(Xi G Xj )p(G|DN ) (12.10)
G
X
p(CompE(Xi , Xj |G)|DN ) = CompE(Xi , Xj |G)p(G|DN ). (12.11)
G
12.5.2. ttteles pronknti oksgi relcik

A knyszertett l kzvetlen volta ellenre egy teljes modelltl fgg, globlis aspektusokat
is mutat pronknti relci. sszetett, azaz ttteles kapcsolatokat is megengedve sz-
mos tovbbi pronknti oksgi relci definilhat, amelyek hasonlan a teljes modelltl
fggnek. A 12.1. tblzat sszefoglal jelleggel mutat asszocicis, relevancia s oksgi
relcikat.
12.1. tblzat. Asszocicis, relevancia- s oksgi relcik defincii grfos valsznsgi
modellek felhasznlsval
Relci Rvidts Grfbeli definci

Direkt oksgi relevancia DCR(X,Y) Ltezik l X s Y kztt
Tranzitv oksgi relevancia TCR(X,Y) Ltezik irnytott t X s Y kztt
Oksgi relevancia CR DCR vagy TCR
Zavart relevancia ConfR(X,Y) X-nek s Y-nak van kzs se
Asszocici A DCR vagy TCR vagy ConfR
Tisztn (fhats nlkli) in- PIR(X,Y) X-nek s Y-nak van kzs gyermeke
terakcis relevancia
Ers relevancia SR(X,Y) PIR vagy DCR
Tbb clvltoz esetn a kvetkez komplex relcik is hasznosak lehetnek, amelyeket

az a 12.2. tblzat foglal ssze.
Egy R(X, Y ) pronknti relci poszteriorja a kvetkezkppen addik:
X
p(R(X, Y )|DN ) = 1(R(X, Y ); holds; in; G)p(G|DN ). (12.12)
G
12.5.3. Markov-takar (al)grf

A diagnosztikai biomarkereknl kzponti szerepet betlt Markov-takar halmazt ltal-
nostani lehet oly mdon, hogy a relevns vltozk interakcijt (vagy annak hinyt)
explicit mdon reprezentljuk.
12.14. Definci (Markov-takar grf). A G Bayes-hl-struktra Markov-takar rsz-
grfja vagy hatrol mechanizmusok modellje MBG(Y, G) az Y vltozra tartalmazza a
bd(Y, G) Markov-takart s az Y -ba s gyerekeibe befut leket.

12.2. tblzat. Relevancia tbb clvltoz esetn
Relci Rvidts Grfbeli definci

Kzvetlen relevancia EdgeToAny(X,Y) Ltezik l X s valamely
egy vagy tbb clhoz Y kztt.
Egyszeres kzvetlen EdgeToExactlyOne(X,Y-,Y) Pontosan egy olyan Y
relevancia van, amelyhez ltezik l
X-bl.
Tbbszrs kzvetlen MultipleEdges(X,Y) Tbb olyan Y van,
relevancia. amelyhez ltezik l
X-bl.
Kzvetlen relevancia EdgeToSomewhereElse(X,Y) Ltezik l X s valamely
ms clhoz nem Y-beli elem kztt.
Ezzel az MBG(Y, G) Markov-takar grf, mint strukturlis modelltulajdonsg vezet-

het be (osztlyozsi algrfknt is gyakran hivatkozott [1, 2].
Az oksgi rtelmezs szempontjbl az MBG-knek egy fontos tulajdonsga, hogy az
Y -ra vonatkoz autonm mechanizmusok rendszerszint kapcsoldsrl hordoz egyttes,
de mgis koncentrlt informcit. Sajnos az MBG poszterior szmtsa exponencilis
komplexits, azonban egy vltozsorrenddel vett feltteles poszterior polinom idben
szmthat [2]. A kapcsold MBG poszterior a kvetkezkppen definilt:
X
p(MBG(Y, G) = mbg |DN ) = 1(MBG(Y, G) = mbg)p(G|DN ). (12.13)
G
12.5.4. Hatsmdostk
Az interakcik kzponti szerepe ellenre genetikai asszocicis, gn-krnyezet s farma-
kogenomikai kutatsokban az interakcik tpusai jelenleg mg nincsenek kidolgozva. A
fejezetben trgyalt rendszerszint megkzelts lehetv teszi altpusok definilst, mint
pldul a 12.1. brn lthat asszocicis tpusok: pontozott vonal jelzi az asszocilt vl-
tozkat X6 -tal, a szaggatott tvonal X4 -tl X13 -ba jelzi azokat a vltozkat, amelyek po-
tencilisan befolysoltak vagy relevnsak az X4 , X13 relcira, illetve a pontozott tvonal
X1 -tl X14 -ig jelzi azokat a vltozkat, amelyek potencilisan asszociltak vagy relevnsak
az X1 , X14 oksgi relcira.
Az oksgi Bayes-hlk felhasznlsnak illusztrlsra fontoljuk meg a kvetkez kr-
dst:
Oksgi relevancia hatserssg-mdostja. Mi az a minimlis halmaz, amely elszigeteli az
X vltozn trtn beavatkozs Y -ra gyakorolt hatst a tbbi vltoztl?
Adott felttelek mellett erre a vlasz az X-bl Y -ba vezet utakon lv csompontjai-
nak a szleinek a halmaza, amelyhez a Bayes-i modelltlagolsos keretben szintn becsl-
het poszterior.

X1
X2 X3 X4
X5 X6 X7
X4
X8 X9 X10 X11
X12 X13 X14

12.1. bra. Hatsmdostk informcis s oksgi relevancia esetben
12.5.5. Vltozk sorrendje

Br a vltozk teljes sorrendje ritkn jelenik meg nll clknt, implicit mdon a DAG
reprezentciban s gy brmely tanulsi eljrsban jelen van. Az oksgi rtelmezsben egy
adott DAG-gal kompatibilis (topolgiai) sorrendek oksgi rtelmezse az eredmnyek r-
telmezse szempontjbl is alapvet fontossg lehet. A sorrendek ezen technikai s oksgi
szerepe miatt is figyelemremlt eredmny, hogy maximlt szlszm mellett egy adott
vltozsorrend poszteriorja polinom idben kiszmthat [8]. A vltozk teljes sorrendjre
(permutciira) is szrmaztatott poszterior:
X
p( |DN ) = 1(G G )p(G|DN ). (12.14)
G

Irodalomjegyzk
[1] S. Acid, L. M. de Campos, and J. G. Castellano, Learning Bayesian network classifiers:

searching in a space of partially directed acyclic graphs. Machine Learning, 59:213
235, 2005.
[2] P. Antal, G. Hullm, A. Gzsi, and A. Millinghoffer, Learning complex Bayesian net-
work features for classification. In Proc. of third European Workshop on Probabilistic
Graphical Models, pages 916, 2006.
[3] W. L. Buntine, Theory refinement of Bayesian networks. In Proc. of the 7th Conf. on
Uncertainty in Artificial Intelligence (UAI-1991), pages 5260. Morgan Kaufmann,
1991.
[4] D. M. Chickering, A transformational characterization of equivalent Bayesian network

structures. In Proc. of 11th Conference on Uncertainty in Artificial Intelligence (UAI-
1995), pages 8798. Morgan Kaufmann, 1995.
[5] G. Cooper, A simple constraint-based algorithm for efficiently mining observational

databases for causal relationships. Data Mining and Knowledge Discovery, 2:203224,
1997.
[6] G. F. Cooper and E. Herskovits, A Bayesian method for the induction of probabilistic
networks from data. Machine Learning, 9:309347, 1992.
[7] A. P. Dawid, Conditional independence in statistitical theory. J. of the Royal Statis-

tical Soc. Ser.B, 41:131, 1979.
[8] N. Friedman and D. Koller, Being Bayesian about network structure. In Proc. of
the 16th Conf. on Uncertainty in Artificial Intelligence(UAI-2000), pages 201211.
Morgan Kaufmann, 2000.
[9] D. Galles and J. Pearl, Axioms of causal relevance. Artificial Intelligence, 97(1-2):9
43, 1997.
[10] C. Glymour and G. F. Cooper, Computation, Causation, and Discovery. AAAI Press,
1999.

[11] D. Heckerman, D. Geiger, and D. Chickering, Learning Bayesian networks: The com-
bination of knowledge and statistical data. Machine Learning, 20:197243, 1995.
[12] Subramani Mani and Gregory F. Cooper, A simulation study of three related cau-
sal data mining algorithms. In International Workshop on Artificial Intelligence and
Statistics, pages 7380. Morgan Kaufmann, San Francisco, CA, 2001.
[13] C. Meek, Causal inference and causal explanation with background knowledge. In
Proc. of the 11th Conf. on Uncertainty in Artificial Intelligence (UAI-1995), pages
403410. Morgan Kaufmann, 1995.
[14] J. Pearl, Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Fran-
cisco, CA, 1988.
[15] J. Pearl, Causal diagrams for empirical research. Biometrika, 82(4):669710, 1995.
[16] J. Pearl, Causality: Models, Reasoning, and Inference. Cambridge University Press,
2000.
[17] C. Silverstein, S. Brin, R. Motwani, and J. D. Ullman, Scalable techniques for mining
causal structures. Data Mining and Knowledge Discovery, 4(2/3):163192, 2000.
[18] D. J. Spiegelhalter, A. Dawid, S. Lauritzen, and R. Cowell, Bayesian analysis in

expert systems. Statistical Science, 8(3):219283, 1993.
[19] P. Spirtes, C. Glymour, and R. Scheines, Causation, Prediction, and Search. MIT
Press, 2001.
[20] T. Verma and J. Pearl, Equivalence and synthesis of causal models, volume 6, pages
25568. Elsevier, 1990.
[21] M. Woodward, Epidemiology: Study design and data analysis. Chapman&Hall, 1999.

13. fejezet
Szvegbnyszati mdszerek a
bioinformatikban
13.1. Bevezets
Az emberisg egszen a digitlis korszak kezdete ta szmtgpet hasznlt tudsnak
tkletestsre, trolsra s megosztsra. Napjainkban vente tbb milli publikci
szletik; e hatalmas mennyisg kollektv tudssal lpst tartani a kutatk szmra re-
mnytelen vllalkozs, mg sajt szakterletkn is. A szvegbnyszat rohamosan fejl-
d tudomnya ezt a nehzsget hivatott orvosolni; pontosabban szlva, a szvegbnyszat
clja rejtett tuds felfedse nagy mennyisg szveges adat feldolgozsval. Orvosbiol-
giai kontextusban ez rendszerint cikkek tzezreinek vagy akr milliinak elemzst jelenti,
amely lehetv teszi eddig ismeretlen kapcsolatok feldertst s j hipotzisek generl-
st. A szvegbnyszatra tekinthetnk az adatbnyszat vadhajtsaknt, amelyet elszr
a 80-as vekben kezdtek alkalmazni, de a kutats framba csak a XX. szzad vgn
kerlt be. Az orvosbiolgiai szvegbnyszat azta hatalmas fejldsen ment t, rszben
a szmtstechnika, rszben ms kapcsold terletek (adatbnyszat, gpi tanuls, sta-
tisztika, szmtgpes lingvisztika) prhuzamos fejldsnek ksznheten. E fejezetben
alapfogalmakat s gyakran alkalmazott technikkat tekintnk t.
13.2. Orvosbiolgiai szvegbnyszat

ltalnossgban m nem mindig igaz, hogy az orvosbiolgiai szvegbnyszat a felhal-
mozott tudssal tudomnyos kzlemnyek formjban tallkozik; egyb forrsok lehetnek
pldul jelentsek, szabadalmak, gygyszer-tjkoztatk, blogbejegyzsek stb. A folyamat
bemeneteknt a korpusz (dokumentumgyjtemny) szolgl, amelyet gyakran ksr a kife-
jezsek egy kontrolllt sztra s a httrtuds egyb forrsai. Kimenetknt strukturlt
adatot kapunk, amelyet hasonlan a kutats sorn felmerl egyb adatbzisokhoz
trolni s rendszerezni kell, s akr nagyobb tudsbzisokba bepthet. Egy ltalnos
munkafolyamat a kvetkezkppen nzhet ki:

13. Szvegbnyszati mdszerek a bioinformatikban 175
1. Feladatlers, eszkzk megvlasztsa. Az els lpsek kz tartozik a prob-

lmaterlet meghatrozsa s a feladat lersa mi a clunk, mit remlnk elrni
a szvegbnyszat alkalmazsval. Fontos a megfelel eszkzk megvlasztsa ezen
clok elrshez; e fejezet tbbek kztt ebben kvn segtsget nyjtani.
2. Korpuszpts. A korpusz a szvegbnyszati folyamat bemenetl szolgl do-
kumentumok gyjtemnye. A korpuszpts sorn nagy mennyisg szveges adat
letltsre, szrsre kerl sor; szksges lehet tbb feladatspecifikus korpusz ltre-
hozsa is.
3. Korpusz feldolgozsa. A feldolgozs sorn az adatok knnyebben kezelhet for-
mtumba kerlnek, gy tovbbi mveletek vgezhetk rajtuk. Az ebben a fzisban
vgezhet nhny transzformci (pl. sztvezs) lersa a 13.2.1. alfejezetben tall-
hat.
4. Sztrpts (opcionlis). Bemenetknt szmos eljrs ignyli a vizsgland kife-
jezsek kontrolllt listjt. Megjegyezzk, hogy az ilyen sztrak ptse esetenknt
bonyolultsguk miatt igen fraszt s idignyes munka lehet (13.2.2. alfejezet).
5. Jegykivonatols (opcionlis). A gpi tanulsi algoritmusok jellegzetessge, hogy
az adatokat kivonatolt jegyek (feature) formjban vrjk ezek tulajdonkppen
az adatok kompakt, lnyegre tr reprezentcii. A jegykivonatols clja alkalmas
jegyek szmtsa, amelyek hatkonyan kezelhetk s nagy mennyisg informcit
hordoznak.
6. Elemzs. Rengeteg mdszer ltezik, kezdve az egyszer elforduls-alap statiszti-
kktl a termszetes nyelvi feldolgozson (NLP) t a gpi tanulsig s egyb kifino-
mult mdszerekig; a fejezet tovbbi rszben szmos pldt lthatunk.
7. Adatszervezs, integrci, tovbbi lpsek. A kimenetknt kapott strukturlt
adat ms forrsokbl szrmaz adatokkal integrlhat, gy szlesebb tudsbzishoz
juthatunk, amely szmtalan mdon felhasznlhat: pl. keress, kvetkeztets, v-
laszkeress stb.
13.2.1. Korpuszpts
A fellelhet biomediklis szvegek egsze ms nven a bibliom felfoghat a korpuszp-
tsi folyamat bemeneteknt. Az orvosbiolgiai szvegbnyszati alkalmazsok hagyom-
nyosan a bibliom egy kitntetett rszt, a tudomnyos kzlemnyek absztraktjait helyeztk
eltrbe; ennek legfbb okai a kompakt, lnyegre tr rsmd s a nylt hozzfrs voltak.
Napjainkra a hangsly egyb dokumentumtpusok (pl. szabadalmak, teljes cikkek) fel
toldott; ezek elrhetsge a szabad hozzfrs elvnek ksznheten folyamatosan nvek-
szik. A dokumentumok kzs jellemzje, hogy nem-strukturlt adatot tartalmaznak, azaz
a strukturlt adatokkal szemben semmilyen elre meghatrozott szerkezetet vagy modellt
nem kvetnek, ami egy adatbzis esetn elvrhat lenne. Nem-strukturlt adatot hordoz-
nak pldul a videk, kpek s a szabadszveges lersok. A bibliom egy kis rsze flig
strukturlt dokumentumokbl ll, pldul XML fjlok formjban, amelyek gy tmenetet
kpeznek az adatbzisok s a nem-strukturlt adatok kztt.


107

106.5

Publikcik sszesen

6
10

105.5
105

1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
v
1100000
1000000
900000

800000

j publikcik szma
700000
600000
500000

400000

300000

200000

100000

1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
v
13.1. bra. Az sszes s j publikcik szma az egyes vekben a PubMed adatbzisban

A korpuszpts lpsei kz tartozik a bibliom lekrdezse nylt eszkzkkel, pldul

PubMed, Google vagy ms keresszolgltatsok segtsgvel. A feladattl fggen szk-
sges lehet az eredmnyek szrse, a klnbz zavar tnyezk (lsd 13.3.6. alfejezet)
kikszblse s trgyterlet-specifikus korpuszok gyrtsa rdekben. A szrs rengeteg
szempont alapjn vgezhet, pl. publikcis dtum, cikktpus, kulcsszavak, MeSH term-
ek, folyiratok stb. szerint. Amennyiben a gyjtemnyt tbb-kevsb teljesnek tljk,
sor kerlhet a feldolgozsra s eltrolsra egy erre alkalmas formtumban.
A feldolgozs fogalma alatt temrdek eljrst rthetnk, pl. sztvezs, lemmatizls
(sztri alakra trtn redukci), stopsz-szrs (nemkvnatos vagy zavar szavak, pl.
ktszavak) vagy tokenizci (kisebb egysgekre, pl. mondatokra trtn szegmentci).
A feldolgozsi eljrsok egy specilis pldja a korpusz annotcija, amelynek sorn nem-
szveges informcit csatolunk a dokumentum egyes elemeihez. Ez a biomediklis terleten
rendszerint szemantikus annotcit jelent, azaz egyes elemeket, pl. a gnek vagy a fehrjk
neveit megjelljk egy elre meghatrozott ontolgia alapjn. Ilyen annotlt korpusz
pldul a GENIA [1].
13.2.2. Sztrpts
Sztr alatt a vizsgland kifejezsek egy listjt rtjk, amely a sztralap szveg-
bnyszati mdszerek elengedhetetlen bemenete. E mdszerek rendszerint a megadott
kifejezsek keressn alapulnak, s olyan feladatokat hajtanak vgre, mint pldul az enti-
tsfelismers, egytt-elfordulsi elemzs, szemantikus annotci, szvegklasszifikci stb.
A sztraknak sok formjt ismerjk:
Kontrolllt sztrak ltalnos rtelemben klnbz tudsforrsok alapjn pt-
hetk, a legfontosabbak ezek kzl a szakrti tuds s az online adatbzisok. A
kifejezsek kivonatolsa s szrse trtnhet flig vagy teljesen automatizlt mdon,
szmos online adatbzis nyjt ilyen szolgltatsokat (UMLS, HUGO, OMIM stb.).
A kifejezsek szabadszveges rsokbl is kivonhatk, ezzel jabb szvegbnyszati
terletekre jutunk (pl. ontolgik ksztse [2]).
Taxonmik alatt hierarchikus struktrval rendelkez kontrolllt sztrakat r-
tnk; a kifejezs hagyomnyosan az llnyek rendszertant jellte. Nhny em-
ltsre mlt plda: a Betegsgek Nemzetkzi Osztlyozsa (BNO), a gygyszerek
ATC-klasszifikcija, valamint egy sereg szakterlet-specifikus taxonmia.
Tezauruszok az elbbiektl eltren nem csak hierarchikus kapcsolatokat enged-
nek meg a kifejezsek kztt. Az UMLS Metathesaurus pldul orvosbiolgiai s
egszsggyi kifejezsek milliit, ezek szinonimit s kapcsolatait tartalmazza.
Ontolgikrl szigor rtelemben formlis, szmtgp ltal is olvashat reprezen-
tcis nyelven lert sztrak esetn beszlnk; a gyakorlatban azonban a fenti ka-
tegrik mindegyikre hasznljk az ontolgia kifejezst. Az Open Biological and
Biomedical Ontologies (OBO) Foundry a szakterletek szles skljn elhelyezked
ontolgikat tart fent.

13.2.3. Szvegbnyszati feladatok

Mg ha csak az orvosbiolgiai kutatsra szortkozunk is, a szvegbnyszat igen szles
alkalmazsi terlettel br. Gyakran felmerl feladatok:
Informci-visszakeress sorn relevns entitsokat adunk vissza a felhasznl

ltal meghatrozott kritriumok (lekrdezs) alapjn. Az informci-visszakeres
rendszereket gyakran keresmotoroknak is nevezik. Erre mutat pldt a PubMed,
az egyik legszlesebb krben hasznlt keresmotor [3].
Entitsfelismers. Clja a szvegben egyedi dolgokat kpvisel kifejezsek meg-
tallsa s megjelentse ilyenek pldul a gnek vagy fehrjk szimblumai, beteg-
sgek vagy ms, nvvel ellthat entitsok. A kvetkez lpsben, az n. normali-
zci sorn ezen tallatokat kls adatbzisok azonostihoz rendeljk. A kvetkez
fejezetben rszletesebben is megismerkednk az entitsfelismers elterjedt mdsze-
reivel.
Relci-kivonatols. Az ide tartoz eljrsok clja az entitsok kztti kapcsola-
tok azonostsa; gyakran kveti az entitsfelismers lpst. Br az entitsfelisme-
rst sokan megoldottnak tartjk, a relci-kivonatols sokkal sszetettebb problma,
amely a jelents erfesztsek ellenre mig sem megoldott; nhny megkzeltst
szintn lerunk a kvetkez fejezetben 13.3.4.
Hipotzis-generls. A kivonatolt relcik s statisztikai asszocicik rendszert
elemezve rejtett informcik kerlhetnek felsznre, amelyek j hipotzisek alapjul
szolglhatnak.
Klasszifikci s klaszterezs. Mindkt kifejezs az entitsok egyfajta csoporto-
stsra utal, elbbi esetben elre ismert, utbbiban ismeretlen kategrikba. Ezen
entitsok lehetnek a korbban emltett, nvvel elltott entitsok vagy magasabb
szint objektumok, pldul dokumentumok vagy tmk. A gpi tanuls terletn
a klasszifikci s a klaszterezs jl ismert feladatok, lersuk szmos tanknyvben
megtallhat.
sszefoglals. Az eljrs sorn egy kompakt sszefoglals keletkezik a dokumen-
tumrl a magas informcitartalom megrzse mellett. Rendszerint magban foglal-
ja az egyes mondatok pontozst (tbbfle szempont, pl. pozci vagy kulcsszavak
alapjn), majd a leginformatvabbnak tlt mondatok kivonst. Egy msik lehets-
ges mdszer az absztrakci: a szveg egy szemantikus reprezentcijt felhasznlva
termszetes nyelv sszefoglals generlhat. Sajnos a termszetes nyelvi generls
mg mindig gyerekcipben jr.
Ontolgiakszts. Rviden emltettk az elz alfejezetben. Tovbbi rszletekrt
lsd pl. [2].
Vlaszkeress. A vlaszkeres rendszerek felfoghatk specilis informci-visszake-
res rendszerekknt, amelyek termszetes nyelvi interfsszel rendelkeznek. Az ilyen
rendszerek szintaktikai s szemantikai elemzsnek vetik al a lekrdezst. A k-
vetkez lpsben az informatv szvegrszletek kivonsra, szrsre s pontozsra

kerl sor; a feladatra sok megkzelts alkalmas, pl. kvetkeztets, gpi tanuls vagy
informci-visszakeressi technikk.
13.3. Alapvet szvegbnyszati technikk

Ebben az alfejezetben egyszer eljrsokat, majd nhny kifinomultabb megkzeltst mu-
tatunk be, amelyeket gyakran alkalmaznak az orvosbiolgiai szvegbnyszatban. A lert
technikk vagy az ltalnos szvegbnyszat mlyebb rszletei irnt rdekldk tovbbi
informcit a [4] s [5] tanknyvekben tallhatnak.
13.3.1. Mintailleszts
A mintailleszts sorn elre meghatrozott mintkat keresnk a szvegben; ez egyben a
legtbb szvegbnyszati technika alapjt is kpezi. A mintk lehetnek egyszer sztrin-
gek (karaktersorozatok) vagy regulris kifejezsek (kvetelmnyeket reprezentl specilis
kifejezsek, amelyek tbbfle sztringhez is illeszkedhetnek). A XX. szzad msodik fel-
ben mindkt clra rengeteg algoritmust terveztek. Elbbire plda a BoyerMoore algorit-
mus [6]; a regulris kifejezsek s vges llapot automatk rszleteirt Cox sszefoglal
mvre hivatkozunk [7].
Az n. fuzzy mintaillesztssel (ms nven hibatr mintailleszts) adott tvolsgmr-
tk alapjn mrt hozzvetleges egyezsek is megtallhatk. Ezen mdszerek nemcsak a
szvegbnyszatban, hanem a szekvenciaillesztsben is hasznosak. Nhny gyakran hasz-
nlt tvolsgmrtk:
Hamming-tvolsg: egyforma hosszsg sztringekben azon pozcik szma, ahol

a karakterek eltrnek.
Levenshtein-tvolsg: inzercik, delcik s szubsztitcik szma, esetleg valami-
lyen slyozsi smval.
Manhattan-tvolsg: vektortr-reprezentciban a koordintk abszolt klnb-
sgeinek sszege.
Biolgia ltal inspirlt tvolsgok: NeedlemanWunsch, SmithWaterman t-
volsg; eredetileg szekvenciaillesztsben alkalmaztk.
13.3.2. Dokumentumok reprezentcija

A szabadszveges lersok szmtgpes elemzshez elengedhetetlen a dokumentumok
reprezentcija valamely jl definilt, gp ltal is olvashat mdon ms szval, struktu-
rlt adatknt. A feladattl fggen tbb lehetsg kzl vlaszthatunk; leggyakrabban a
vektortr-modellt s a valsznsgi megkzeltseket hasznljk.
Jellje tk , k = 1, 2, ..., m a kifejezseket, valamint di , i = 1, 2, ..., n a dokumentu-
mokat. Legyen D egy m n mtrix (kifejezsdokumentum mtrix), amelyre Dki = 1

ha a di dokumentum tartalmazza a tk kifejezst. gy a tk kifejezseknek Dk sorai felel-

nek meg, tovbb az egyes sorokra gondolhatunk egy n-dimenzis vektortr elemeiknt
innen a modell neve. Hasonlkpp, a Di oszlopok dokumentumokat kpviselnek, s egy m-
dimenzis vektortr elemeit adjk. Lthat, hogy ez a modellcsald nem veszi figyelembe
a kifejezsek dokumentumbeli sorrendjt, gyakran hvjk ezrt szzsk (bag of words)
modellnek is. A kifinomultabb vltozatok nki -t, a tk kifejezs di dokumentumbeli frekvenci-
jt hasznljk binris elforduls helyett, vagy ms sszetett slyozsi smt hasznlnak.
Igen elterjedt sma a tfidf (kifejezsfrekvenciainverz dokumentumfrekvencia), amely a
kvetkezkppen szmolhat:

nki n
Dki = tf (tk , di ) idf (tk , D) = i log ,
|D | nk
ahol tf (tk , di ) a tk kifejezs di dokumentumbeli relatv frekvencija, nk azon dokumen-
tumok szma, amelyekben a tk kifejezs elfordul, valamint idf (tk , D) jelli a tk kifeje-
zs inverz dokumentumfrekvencijt (megllapods szerint logaritmust alkalmazva). A
vektortr-modell figyelemre mlt elnye, hogy klnsen egyszerv teszi dokumentum
dokumentum s kifejezskifejezs hasonlsgok kiszmtst, ami igen jl jn egyes fel-
adatoknl (klasszifikci, klaszterezs). Rengeteg hasonlsgmrtk kzl vlogathatunk,
az egyszer koszinusz-hasonlsgtl egszen komplex, kifinomult hasonlsgmrtkekig.
Nyilvnval, hogy a vektortr-reprezrezentcik ltalban rendkvl magas dimenzi-
jak s igen ritkk. Gyakorlati problmk esetn a dimenzionalits redukcijra algorit-
musok szles krt javasoltk. Az albbi listn nhny pldt lthatunk:
Lingvisztikai megkzeltsek: sztvezs, lemmatizci, stopsz-szrs.
Mtrix-dekompozcik: szingulris rtkek szerinti felbonts (SVD, ebben a kon-
textusban mg: ltens szemantikus indexels, LSI), CUR dekompozci, ms ala-
csony rang approximcik.
Gpi tanulsi eljrsok: jegykivlaszts/kivonatols, fkomponens-analzis (prin-
ciple component analysis, PCA), multidimenzionlis sklzs (multidimensional sca-
ling, MDS), nszervezd trkpek (self-organizing maps, SOM).
A reprezentci kapcsn gyakran esik a vlaszts a valsznsgszmtsra s valsz-
nsgi modellekre. E megkzeltseket elsknt informci-visszakeres rendszerekben s
levlszemt-szrkben alkalmaztk. Mivel szmos feladatban fellmljk a tbbi modellt,
radsul kitnen alkalmazhatk orvosbiolgiai kontextusban, mra a szvegbnysza-
ti eszkztr nlklzhetetlen elemeiv vltak. Rszletes trgyalsuk sajnlatos mdon
messze tlmutat e tanknyv keretein, gy csupn nhny bevlt technikt sorolunk fel, a
valsznsgi modellek tovbbi rszleteirt ms mvekre hivatkozunk [8].
Markov vletlen mezk (Markov Random Field, MRF), feltteles vletlen mezk
(Conditional Random Field, CRF)
Rejtett Markov-modellek (Hidden Markov Model, HMM)
Bayes-i modellek

(T2T2T3T2T2T2) T2
(T1T2T1T2T2T1)
(T2T3T3T3)
T1
T3
13.2. bra. A vektortrmodell sematikus brzolsa. T1 , T2 s T3 kifejezseket jellnek, a

nyilak pedig az ezekbl ll dokumentumokat.
Bayes-hlk (Bayesian Network)

Valsznsgi krnyezetfggetlen nyelvtanok (Probabilistic Context-Free Grammar,
PCFG s LPCFG)
13.3.3. Az entitsfelismers mdszerei

Az entitsfelismers (named entity recognition, NER) egyedi, nevestett entitsok felis-
merst s megjellst jelenti. Ngy f megkzeltst ismernk:
Sztralap mdszerek, amelyek rendszerint egzakt vagy hibatr mintaillesztst

hasznlnak az entitsok azonostsra.
Szablyalap mdszerek alatt klnbz empirikus szablyokkal operl rendsze-
reket rtnk. Ismert, hogy mr nhny intuitv szably is elfogadhat teljestmny-
hez vezet: figyelembe vehetk pldul a nagybetk, kontextulis jegyek (idzjelek,
zrjelek), pozci a szvegtrzsben vagy a cmben, frekvencia, szakterlet-specifikus
jegyek stb. Hasonl szablyok akr tanulhatk is gpi tanulsi technikkkal.
Gpi tanulsi eljrsok szintn sikerrel alkalmazhatk. A klasszifikci-alap
megkzeltsek a gpi tanulsban lert klasszifikcis algoritmusok szles trhzbl
vlogatnak; ezek elzetesen annotlt korpuszon trtn tantst ignyelnek. A k-
lnbz szekvencia-alap eljrsok nhnyat mr lttunk a valsznsgi modellek
lersnl n. tag-ekkel felcmkzett korpuszok felhasznlsval parametrizlha-
tk; mkdsk sorn a legvalsznbb cmkket jsoljk az egyes szavakra.
Hibrid megoldsok tvzhetik az elzeket.
Tovbbi rszletek s nylt eszkzk lersa megtallhat a hivatkozott irodalomban [9]. A
kvetkez lps rendszerint a normalizci, azaz a felismert entitsok hozzktse klnb-

z adatbzisok azonostihoz knny feladat sztralap megoldsoknl, mg a tbbinl

munkaignyess vlhat.
13.3.4. A relcikivonatols mdszerei

A relcikivonatols entitsok kztt fennll klnbz tpus relcik felismerst jelen-
ti. Helyesen hasznlva rendkvl hatkony eszkze lehet a hipotzis-generlsnak, mivel az
adatokba gyazott, emberi lptkben lthatatlan kapcsolatokra derthet fnyt. A relci-
kivonatols azonban sszehasonlthatatlanul nehezebb feladat, mint az entitsfelismers,
mivel a relcikat meghatroz kifejezsek gyakran elszrva helyezkednek el a monda-
tokban s bekezdsekben. Az elz rszben lert megkzeltsek a relcikivonatolsban
is hasznlhatk, azaz lteznek sztralap, szablyalap s gpi tanulsi rendszerek. A
kivonatolt relcik a kvetkezkppen oszthatk fel:
Statisztikai relcik detektlsa a legegyszerbb feladat. A sztralap entits-
felismer eljrsok jl hasznlhatk kifejezs-elfordulsok megszmllsra, melye-
ket egytt-elfordulsi statisztikk kiszmtsra lehet felhasznlni. Az igen/nem
egytt-elfordulson s frekvencia-alap modelleken tl meghatrozhatunk kifino-
multabb mrtkeket is, pl. klcsns informci (mutual information). Az elkpzels
slyos htultje, hogy nem veszi figyelembe a kontextust: a csak felvetett, gyan-
tott, st, egyenesen tagadott lltsok ugyangy valid relcikknt fognak megjelen-
ni.
Szemantikai relcikat rendszerint termszetes nyelvi feldolgozs (Natural Lan-
guage Processing, 13.3.5. alfejezet) tjn azonosthatunk. E rendszerek a mondatok
szintaktikai szerkezett tkrz elemzsi ft (parse tree) ptenek, majd ezekben
klnbz szerkezeteket azonostanak a relcik felismerse rdekben. Ilyen szerke-
zetek az RDF adatmodell ltal is hasznlt trgyprediktumobjektum hrmasok:
a cAMP inhibits Ras fordulat pldul ilyen struktrra fordthat.
Szintaktikai relcik, amelyek mostanban kerltek a kutats kzppontjba, s
ersen kapcsoldnak a kernel-alap relcis tanulshoz. Az tlet lnyege, hogy a rel-
cikra szintaktikai struktraknt (elemzsi fa vagy fggsgi grf) gondolunk, majd
ismert relcikat tantmintaknt hasznlva gpi tanuls tjn prblunk tovbbi
hasonl relcikat tallni. A mdszer j teljestmnyt mutatott a gyakorlatban [10].
Korbban mr hangslyoztuk a relcikivonatols hasznt a hipotzis-generlsban.
A legels modellt, amely ezt a megkzeltst alkalmazta, Swanson javasolta 1986-ban [11].
A felfedezs ABC-modellje nven hress vlt elgondols a szakirodalom kt elszigetelt
rgijbl indul ki (azaz a kln csoportba tartoz szerzknek nincs kzs cikke, nem
idzik egymst s nem idzik ket egytt). Ekkor ha az A s B entitsok kztti relcit
lerjk az egyik csoportban, valamint a B s a C kztti relcit a msikban, akkor egy ed-
dig ismeretlen, A s C kztt fennll relcira kvetkeztethetnk. Az Arrowsmith-eszkz
egytt-elfordulsi statisztikkkal kombinlta a megkzeltst, s sikeresen hasznlta fel ki-
fejezsek kztti relcik indukcijra. Szakirodalom alap felfedezst szolgl rendszerek
s lersuk megtallhatk a hivatkozott irodalomban [12].

13.3.5. Lexikalizlt valsznsgi krnyezetfggetlen nyelvtanok

A formlis nyelvek elmlete a matematikai logika, szmtgpes nyelvszet s a szm-
tstudomnyok hatrn helyezkedik el. Br a terlet vszzadok ta ismert, mg ma
is szletnek j alkalmazsai. A lexikalizlt valsznsgi krnyezetfggetlen nyelvtanok
(LPCFG, SLCFG) a termszetes nyelvi elemzs klnsen hatkony eszkzei, amelyeket
a legkorszerbb elemzk implementlnak (pl. a Stanford Parser [13]). Az orvosbiolgiai
szvegbnyszatban ezeket az eszkzket a tudomnyos publikcikat alkot mondatok
elemzsi finak ptsre hasznlhatjuk fel, messze meghaladva a hagyomnyos egytt-
elfordulsi s szablyalap modelleket.
S
NP VP
Det N V NP
Det N PP
P NP
Det N
The drug inhibited the receptor in the experiment.
13.3. bra. Egy egyszer mondat elemzsi fja
Krnyezetfggetlen nyelvtanok (CFG) alatt a G = (N, , R, S) ngyest rtjk, ahol

N a nem-terminlis szimblumok vges halmaza, pl. S (mondat), VP (igei kifejezs),
NP (fnvi kifejezs), NN (fnv), Vi/Vt (intranzitv/tranzitv ige).
a terminlis szimblumok vges halmaza, pl. cAMP, Ras, inhibit.
R az trsi szablyok vges halmaza, amelyek a kvetkez formban rhatk: X
Y1 Y2 ...Yn , ahol X egyetlen nem-terminlis szimblum, Yi pedig brmilyen szimblum;
pl. S NP VP, NN cAMP.
S N a start szimblum, amely az elemzsi fa gykert kpezi (S).
Az trsi szablyok hasznlatval minden nyelvtanilag helyes mondathoz egy vagy
tbb elemzsi fa pthet. A valsznsgi CFG az elbbi trivilis kiterjesztse. A ktr-
telmsg feloldsa rdekben minden trsi szablyhoz valsznsget rendelnk:
P (S NP VP) = 1.0,
P (VP Vi) = 0.6,
P (VP Vt NP) = 0.4,
P (NN cAMP) = 0.001.
A lehetsges elemzsi fknl a valsznsgeket sszeszorozva kivlaszthatjuk a mondatot

legnagyobb valsznsggel jellemz elemzsi ft (13.3. bra). A lexikalizlt PCFG-k egy

tovbbi lpst jelentenek, ahol az trsi szablyokban konkrt szimblumok kerlnek a

felttelekhez:
P (VP Vt NP|Vt = inhibit, Head(NP) = Ras) = 0.1,

P (VP Vt NP|Vt = inhibit, Head(NP) = spaceship) = 0.00001.
13.3.6. Az orvosbiolgiai szvegbnyszat kihvsai

Jelents erfesztseink ellenre az orvosbiolgiai szvegbnyszat eredend buktatinak
megkerlse igen nehz feladatnak bizonyul:
Rokonrtelmsg (szinonmia) elssorban a sztralap entitsfelismerst rinti.
A kielgten pontos felismershez s normalizcihoz elkerlhetetlen a szinonimk
figyelembe vtele; ez hatalmas ugrst eredmnyez a kifejezsek szmban, amely
viszont a teljestmny cskkenshez vezet.
Azonosalaksg (homonmia) alatt azonosan rt, de teljesen ms jelents kifeje-
zseket rtnk, amely rtelemszeren az entitsfelismer rendszerek pontossgt is
befolysolja.
Visszautalsok (anafora) alatt egy korbbi szvegrszre utal nyelvtani elemet (pl.
mutatszk, nvmsok) rtnk. A visszautalsok automatikus feloldsa ma is ersen
kutatott terlet [14].
Morfolgiai varinsok gyakran fordulnak el az orvosbiolgiai szakirodalomban;
rendszerint szinonimaknt hozzadva vagy hibatr mintaillesztssel kezelik.
Bethibk szintn elkerlhetetlenek nagy terjedelm szabad szveg elemzsnl.
Hibatr mintailleszts hasznlhat az elrt entitsok felismershez.
Rvidtsek rendkvl gyakoriak a biomediklis kzlemnyekben, ami komoly ki-
hvst jelent az entitsfelismer rendszereknek; mi tbb, a rvidtsek krben azo-
nosalaksg sem ritka, amely a normalizcit is megnehezti (pl. egy gnszimblum
tbb, teljesen fggetlen gnre is vonatkozhat). Vgl pedig szmos rvidts alak-
ra teljesen azonos egyb rvid szavakkal, amely szintn rontja a tisztn sztralap
eszkzk teljestmnyt (nmikpp kikszblhet szablyalap kiegsztsek bep-
tsvel).
Kifejezs-hatrok megllaptsa nem egyrtelm az esetenknti tlapolds vagy
kontextusfggsg miatt. Szmos rendszer szablyalap megkzeltst vagy szintak-
tikai elemzst hasznl.
A sztrak elavulsa a tudomny fejldsvel viszonylag gyorsan bekvetkezik;
fenntartsuk jelents munkt ignyel.
A normalizci referencia-adatbzisai rendszerint hinyosak. A kapcsolds s
az adatbzisok kztti lekpezsek igazi kihvsnak bizonyulhatnak.
Az orvosbiolgiai szvegbnyszat kapcsn a szisztematikus hiba (bias) lehetsge is fel-
merl:

Publikcis bias. Pozitv eredmnyeket sokkal nagyobb valsznsggel pub-

liklnak, mint negatvakat; a problma megkerlshez sok hatsg s folyirat
megkveteli a tanulmny az indts eltti regisztrcijt. Ennek ellenre 2009-ben a
regisztrlt klinikai ksrletek kevesebb, mint felrl publikltak eredmnyeket [15].
Szelekcis bias. Mivel nem minden publikci szabadon hozzfrhet, a nagylp-
tk szvegbnyszati kutatsok rendszerint absztraktokra szortkoznak, amelyek
viszont csak rszleges informcit tartalmaznak. A nylt hozzfrs (Open Access)
egyre nvekv elfogadottsga lehetv teheti e hiba elkerlst.
Mintavtelezsi bias. Az orvosbiolgiai kutatsokban gyakran tanulmnyozott
entitsok irnti preferencia szintn torzthatja a levont kvetkeztetseket.
13.4. Szvegbnyszat s tudsszervezs

E fejezetben beszltnk a nem-strukturlt (szabad) szveg elemzsrl s strukturlt adat-
t trtn konverzijrl. Ez az tmeneti reprezentci szmos formt lthet; lttuk a sz-
zskmodellt, valsznsgi modelleket, elemzsi fkat vagy fggsgi/fogalmi grfokat stb.
A reprezentcik kztt alapvet klnbsg a szemantika mennyisge: mg a szzskmo-
dell csak elfordulsokat jellemz adatvektorokk reduklja a szveget, a termszetes nyelvi
feldolgozs sorn add reprezentcik sokat megriznek az eredeti gazdag szemantikbl.
Rengeteg szvegbnyszati algoritmus induktv kvetkeztetst alkalmaz az tmene-
ti strukturlt adaton, ms szval ltalnos szablyokat azonost a modellben hordozott
konkrt megfigyelsek, pl. egytt-elfordulsok alapjn. Br a kvetkeztets ezen formja
adatbnyszati terleten s szvegbnyszatban egyarnt remekl mkdik, nem hasz-
nlja ki a termszetes nyelv gazdag kifejezerejt. Sokkal termszetesebb megkzelts
volna abduktv vagy deduktv kvetkeztets tjn j tudst felfedni a szveg szemantikai
tartalmnak alkalmas reprezentcijbl.
A megkzelts tovbb ersthet a szemantikus publikci elveinek kvetsvel. A
fogalom a tudomnyos kzlemnyek szemantikai informcival val feldstst jelenti,
lnyegben egy formlis tudsreprezentcis rteg ltrehozsval, amely az informci-
visszakeresst s tudsfelfedezst tmogathatn, valamint a teljes szakirodalom egysges
szemllett tehetn lehetv. Br szmos tmutat, szemantikus nyelv s fogalom (pl.
strukturlt digitlis absztrakt) szletett, a tudomnyos publikci ezen j korszaka mg
vrat magra.

Irodalomjegyzk
[1] J. D. Kim, T. Ohta, Y. Tateisi, and J. Tsujii, GENIA corpussemantically annotated

corpus for bio-textmining. Bioinformatics, 19 Suppl 1:i180182, 2003.
[2] Philipp Cimiano, Ontology Learning and Population from Text: Algorithms, Evalua-
tion and Applications. Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[3] Z. Lu, PubMed and beyond: a survey of web tools for searching biomedical literature.
Database (Oxford), 2011:baq036, 2011.
[4] Matthew S. Simpson and Dina Demner-Fushman, Biomedical Text Mining: A Survey
of Recent Progress. In: Charu C. Aggarwal and ChengXiang Zhai, editors, Mining
Text Data, pages 465517. Springer, 2012.
[5] Sholom M. Weiss, Nitin Indurkhya, and T. Zhang, Text Mining. Predictive Methods
for Analyzing Unstructured Information. Springer, Berlin, 1st. ed. 2004.
[6] Robert S. Boyer and J. Strother Moore, A Fast String Searching Algorithm. Commun.
ACM 20(10):762772, October 1977.
[7] Russ Cox, Regular expression matching can be simple and fast, 1 2007.
[8] Yizhou Sun, Hongbo Deng, and Jiawei Han, Probabilistic Models for Text Mining. In:
Charu C. Aggarwal and ChengXiang Zhai, editors, Mining Text Data, pages 259295.
Springer, 2012.
[9] U. Leser and J. Hakenberg, What makes a gene name? Named entity recognition in
the biomedical literature. Brief Bioinform, 6(4):357369, December 2005.
[10] Chad M. Cumby and Dan Roth, On Kernel Methods for Relational Learning. In:
T. Fawcett and N. Mishra, editors, Proceedings of the 20th International Conference
on Machine Learning (ICML 2003), pages 107114, Washington, DC, USA, August
2003. AAAI Press.
[11] D. R. Swanson, Fish oil, Raynauds syndrome, and undiscovered public knowledge.
Perspect. Biol. Med., 30(1):7 18, 1986.
[12] M. Yetisgen-Yildiz and W. Pratt, Evaluation of Literature-Based Discovery Systems.
Literature-based Discovery, pages 101113. 2008.

[13] Dan Klein and Christopher D. Manning, Accurate Unlexicalized Parsing. In: Procee-
dings of the 41st Annual Meeting on Association for Computational Linguistics, Vol.
1, ACL 03, pages 423430, Association for Computational Linguistics, Stroudsburg,
PA, USA, 2003.
[14] Jennifer DSouza and Vincent Ng, Anaphora Resolution in Biomedical Literature: A
Hybrid Approach. In: Proceedings of the 3rd ACM Conference on Bioinformatics,
Computational Biology and Biomedicine, pages 113122, 2012.
[15] S. Mathieu, I. Boutron, D. Moher, D. G. Altman, and P. Ravaud, Comparison of

registered and published primary outcomes in randomized controlled trials. JAMA,
302(9):977984, Sep. 2009.

14. fejezet
Ksrlettervezs: az alapoktl a
tudsgazdag s aktv tanulsos
kiterjesztsekig
14.1. Bevezets
A ksrletezs az emberisg egyik leghatkonyabb eszkze a krltte lv vilg felfede-
zsre; brmifle tudomnyos (vagy akr filozfiai!) elrehalads elkpzelhetetlen volna
gondosan megtervezett ksrletek nlkl. Nem meglep, hogy a fejldsllektan legtbb
kpviselje szerint a ksrletezs az emberi kognitv fejldsben is kzponti szerepet tlt
be. Jean Piaget a 1218 hnapos gyermekeket egyenesen fiatal tudsoknak tartotta, akik
a vilgot ksrletek tervezsn s kivitelezsn keresztl fedezik fel.
Mindennek dacra a matematikusok rdekldst csak a XX. szzadban kezdte felkel-
teni a krds. Amita Ronald Fisher, az egyik legnevesebb statisztikus (egyben elismert
evolcibiolgus s genetikus) megrta The Design of Experiments c. mvt (1935), a
ksrlettervezs a matematikai statisztika jelents alterletv ntte ki magt. Ebben a
fejezetben ttekintjk a ksrlettervezs folyamatt a biolgus s a statisztikus nzpont-
jbl egyarnt.
14.2. A ksrlettervezs alapjai

A ksrlettervezs (KT; angolul Design of Experiments, DOE) clja, hogy egy ksrlet
valamilyen rtelemben vett optimlis voltt biztostsa. Ez rendszerint azt jelenti, hogy
a lehet legtbb informcit akarjuk kinyerni a lehet legkisebb torzts, hiba, id s
kltsgek mellett. Szintn elsdleges cl helyes krdsek felttele, valamint helyes kvet-
keztetsek levonsnak lehetsge; az rtelmetlen krdsek s a tervezs hibibl fakad
flremagyarzsok az egsz kutats sorst megblyegezhetik, fggetlenl a mintk min-
sgtl s a mrsek kivitelezstl. Az orvosbiolgiai KT magban foglal olyan gyakorlati
feladatokat is, mint pldul a mintagyjts s mintatrols megszervezse, a felszerels
Hajs Gergely www.interkonyv.hu

14. Ksrlettervezs: az alapoktl a tudsgazdag s aktv tanulsos kiterjesztsekig 189
hasznlatnak s szemlyzeti krdsek menedzselse, stb. Br az orvosbiolgiai KT je-

lents mrtkben tmaszkodik az epidemiolgiai tanulmnyok tervezsre, erre ebben a
fejezetben nincs mdunk kitrni; tovbbi informcirt lsd pl. [1].
14.2.1. Az orvosbiolgiai ksrlettervezs lpsei

Az orvosbiolgiai KT a kvetkez fbb lpsekre bonthat:
1. Trgyterlet modellezse. Rendszerint magban foglalja a szakirodalom alapos

tkutatst; leggyakrabban maguk a tudsok vgzik, vltoz mrtk bioinformati-
kai tmogatssal. Ennek egyik vgleteknt gondolhatunk egy kutatra, aki kln-
bz kereskkel (pl. PubMed) publikcikat gyjt s olvas; a msik vglet lehet
egy teljesen integrlt adat- s szvegbnysz rendszer, amely emberi beavatkozs
nlkl vgrehajtja a szakirodalomban fellelhet tuds kivonatolst, modellezst s
vizualizcijt.
2. Clok kitzse. Ez a lps szoros kapcsolatban ll a hipotzisek fellltsval.

Egyrszt, a ksrletek ltalban a verseng lehetsges magyarzatok kztti dnts
megknnytst szolgljk. Msrszt viszont legalbbis a biolgia terletn az
elre fellltott hipotzisek immr nem szksgesek: a poszt-genomikus korszak sz-
mos nagy teresztkpessg mrstechnikt knl, amelyek nem ignylik hipotzisek
fellltst, st, akr hipotzisek generlsra is felhasznlhatk.
3. Mintaszm s clvltozk meghatrozsa. A clvltozk lnyegben a ksrlet

kimeneti vltozi: egy ksrletben klnbz bemeneti paramtereket vagy faktorokat
belltva azt vizsgljuk, hogy ezek milyen hatssal vannak a kimenetre (clvltozk-
ra). A j krdsfeltevs gyakran a sikeres ksrlet kulcsa, ennek pedig kzponti eleme
a megfelel mintaszm s clvltoz-halmaz meghatrozsa.
4. Technikai rszletek finomtsa. Ebben a lpsben technikai rszletek kerlnek

kidolgozsra, mint pldul az adat- vagy mintagyjtsi protokoll, trols, hinyos
adatok kezelse, elfeldolgozs, technolgia s felszerels megvlasztsa (valamint
ehhez kapcsold egyb tevkenysgek, pl. assay-tervezs), etikai s jogi krdsek,
stb. Szmos feladat ezek kzl szintn jelents bioinformatikai tmogatst ignyel.
14.2.2. A biolgiai ksrletek fajti

A ksrletek felosztsa szmos szempontnak megfelelen trtnhet. A feladat matematikai-
statisztikai termszete alapjn pldul a kvetkez kategrikat llthatjuk fel:
Asszocicik feldertse. Asszocicirl beszlhetnk akkor, ha egy entits (pl.

gnvarins) szignifiknsan gyakrabban fordul el egy adott betegsgben szenved
emberekben; nem felttlenl jelent azonban ok-okozati kapcsolatot vagy kroki t-
nyezt.

SNP validcik
Szekvenls Genotipizls
Jellt gn asszocici
Mintk
Rszleges genomszurs
Teljes genom asszocici
Exome szekvenls
Teljes genom szekvenls
Vltozk
14.1. bra. Az egyes ksrlettpusok sorn felmerl nagysgrendek
Klasszifikci. A klasszifikci vagy osztlyozs sorn adott mintkat prblunk

elre meghatrozott osztlyokba sorolni. Gondolhatunk pldul a ktelez szr-
vizsglatokra, ahol ezek az osztlyok rtelemszeren a beteg s a nem beteg.
Klaszterezs. A klaszterezs annyiban klnbzik az elbbitl, hogy nem llnak

rendelkezsre elre meghatrozott osztlyok, a clunk mgis a mintk csoportostsa.
Gyakran hasznljuk gnexpresszis adatok elemzsnl (pl. microarray adatok bi-
klaszterezse).
Regresszi. A regresszi sorn szmszer rtkeket prblunk jsolni az egyes

mintkhoz, illetve meghatrozni a clvltozra legersebb hatst gyakorl faktorokat;
felhasznlhat pldul betegsgek kimenetelnek jslsra.
sszehasonlts. Az sszehasonlts a hipotzisek fellltsnak egyik legegysze-

rbb s leghatkonyabb mdja.
Modellezs/hipotzisgenerls. A modellezs sorn a vals vilgban megtallha-

t bonyolult kapcsolatrendszert kpezzk le egy egyszerbb matematikai konstruk-
cira. Ez a folyamatot nevezik absztrakcinak is, amelynek sorn teht lnyeges
s lnyegtelen tulajdonsgokat prblunk elklnteni. A lnyeg kivonsval s
hatkony reprezentcijval lehetsg nylik eddig rejtett informcik feldertsre,
dntstmogatsra, hipotzisek fellltsra, vagy akr szisztematikus generlsra.

...
U (a, e, Di , Ej )
Di
... e Ej ...
a ...
U (a, e0 , Ej )
a
e0 Ej
14.2. bra. A munkafolyamatot szemlltet valsznsgi grf [2]. A ksrleteket e, az

adatokat Di , a cselekvseket a, az esemnyeket Ej jelli. Az e0 csompont nem elvgzett
ksrletet jell; U () a hasznossgfggvny.
14.3. A ksrlettervezs dntselmleti megkzeltse

14.3.1. A ksrlet vrhat rtke
A ksrlettervezs statisztikai megkzeltsnek megrtshez elszr meg kell ismerked-
nnk a hasznossgelmlet alapfogalmaival. Kpzeljnk el egy munkafolyamatot, ahol
minden ksrlet fogad egy bemeneti adathalmazt s paramtereket, majd kimeneteknt
adat keletkezik. Ezt az adatot figyelembe vve klnbz cselekvsek kzl vlasztha-
tunk, amelyek esemnyekhez vezetnek. Egy-egy ilyen esemny alapjn tovbbi ksrletek
elvgzse mellett dnthetnk. A rendszer felrhat pldul a 14.2. brn lthat val-
sznsgi grf formjban. A munkafolyamat sorn a kutat a fa leit kvetve mozog.
Minden kimenetel egyfajta rtket kpvisel a szmunkra, ezt nevezzk hasznossgnak.
Egy sszer stratgia mindig azon ksrlet elvgzse, amely a vrhat hasznossgot ma-
ximalizlja. Ez a gondolatmenet rszletesebben kifejtve megtallhat Bernardo s Smith
eredeti mvben [2].
Jellje e a ksrleteket, Di az adatot, a a cselekvseket, Ej az esemnyeket, valamint

U a hasznossgfggvnyt. Az tmenetek valsznsgi termszett figyelembe vve, egy

cselekvs vrhat hasznossga az Ej E esemnyek kitlagolsval

X
EU (a, e, Di ) = U (a, e, Di , Ej )p(Ej |a, e, Di ).
j
Az ai cselekvs, amely maximalizlja a vrhat hasznossgot
ai Ej E = arg max EU (a, e, Di )

aA
egyben az optimlis dnts az A rendelkezsre ll cselekvsekre nzve minden (e, Di )-re.

Ekkor
EU (e, Di ) = EU (ai , e, Di ).
Ismt htralpve, a ksrlet vrhat hasznossga Di kitlagolsval
X
EU (e) = EU (e, Di )p(Di |e),
i
ahol az utols tag a Di adat likelihoodjt jelli adott ksrlet mellett.
Ezen a ponton j problmba tkznk. Mikor hagyjuk abba a ksrletezst, s rjk

be az eddig sszegyjttt tudssal? Az orvosi etika egyik alapelve pldul kimondja,
hogy csak olyan vizsglatot szabad elvgezni, amelynek eredmnye befolysolja a beteg
kezelst. A problma akkor lenne megoldva, ha valamikppen meg tudnnk mrni a
jvben sszegyjthet adat befolyst. Pontosan erre ad lehetsget az adat vrhat
rtke (EVD) s a ksrlet vrhat rtke (EVE).
Az e0 nem elvgzett ksrlet vrhat hasznossga rtelemszeren

X
EU (e0 ) = EU (a0 , e0 ) = max EU (a, e0 , Ej )p(Ej |a, e0 ).
aA
Ej E
gy a Di , azaz a jvben e ksrlettel megszerezhet adat vrhat rtke kiszmolhat az

e ksrlet elvgzsbl s nem-elvgzsbl fakad vrhat hasznossgok klnbsgeknt:
EV D(e, Di ) = EU (e, Di ) EU (e0 ).
Ez a mennyisg az adat vrhat rtke (Expected Value of the Data). A Di adat kit-
lagolsval megkapjuk a ksrlet vrhat rtkt (Expected Value of the Experiment):
X
EV E(e) = EV D(e, Di )p(Di |e).
Di D

14.3.2. Adaptv ksrlettervezs s kltsgkorltozott tanuls

A vals kutatsi folyamatokat szinte minden esetben megktsek terhelik ez jelenthet
financilis, idbeli, felszerelst illet, stb. knyszereket. A legtbb esetben a cl a lehet
legnagyobb mennyisg informci megszerzse a kltsgvets kimerlsig. A kltsgkor-
ltozott tanuls (budgeted learning) s az adaptv tanuls szorosan kapcsold fogalmak,
amelyeket kezdetben elssorban a farmakolgia s klinikai ksrletek terletn hasznltak,
s hagyomnyosan a mintamret adaptv megvlasztsra trekedtek.
A 70-es vek vge ta egyre nagyobb hangslyt kapott a rgztett mintaszm ksr-
letek kivltsnak lehetsge; e tanulmnyok kzponti hibja ugyanis, hogy a rgztett
mintaszmtl val eltrs nem lehetsges, gy az adatok nem is hozzfrhetk egszen a
ksrlet vgig. A gazdasgi htrnyokon (pl. a feleslegesen nagy mintaszmbl fakad
kltsgeken) tl etikai s adminisztratv htultk is megjelennek. Szmos megkzeltst
javasoltak ezen htultk orvoslsra (lsd pl. [3]):
1. Csoport-szekvencilis mdszer. A csoport-szekvencilis (group-sequential) md-

szer az adatok fix idkznknt trtn megtekintst teszi lehetv. Ha egy ponton
a ksrlet sikeresnek bizonyul (megfelel szignifikanciaszint elrsvel), akkor a min-
tagyjts s egyttal a ksrlet vget r. Mivel azonban a szignifikns eltrs legalbb
egy csoportban sokkal magasabb egyttes elsfaj hibt eredmnyezne, a nomin-
lis szignifikanciaszinteket minden megtekintsnl megfelelen korriglni kell. Egy
ttekints a korrekci lehetsgeirl megtallhat a hivatkozott irodalomban [4].
2. Alfa-klt megkzeltsek. Az alfa-klt (alpha-spending) megkzelts az elz

mdszer kiterjesztsnek tekinthet, amely megengedi az adatok irregulris idk-
znknti megtekintst is (azaz a csoportmretek eltrhetnek). Ebben a megkze-
ltsben a megkvetelt egyttes elsfaj hiba mrtke elre rgztett, s az akku-
mulld elsfaj hibt kvetjk (matematikailag: definilhatunk egy hibaklt
fggvnyt, melyre f (0) = 0 s f (t) = ) minden t 1-re; minden megtekintsnl a
nominlis szignifikanciaszint e fggvny alapjn szmthat).
3. Whitehead triangulris mdszere. Mskppen a hatr-mdszer, az elzektl

eltren az adatok folyamatos megfigyelst ignyli. Minden megtekintsnl kt sta-
tisztika szmolhat; az egyik az aktv s a kontroll csoportok kztti klnbsget, a
msik ennek variancijt mutatja. Ezeket egy 2D koordinta-rendszer tengelyeiknt
hasznlva a felhalmozd adat brzolhat. A sikert s a kudarcot jelkpez el-
mleti hatrok az elbbi koordinta-rendszerben egyenes vonalakknt brzoldnak.
Amennyiben az akkumulld adat metszi a fels hatrt, a ksrlet sikeres, ennek
ellenkezje rvnyes az als hatrra. A ksrlet addig folytatdik, amg az adat a
hatrok ltal bezrt folytatsi rgiba esik (amely tipikusan hromszg alak, innen
az eljrs neve).
4. Sztochasztikus kizrs. Ez a megkzelts a ksrlet vrhat kimenetelt becsli.

Amennyiben az elvrt szignifikanciaszint a jvben berkez mintktl fggetlenl
elrhet, vagy pp ellenkezleg, ennek valsznsge kicsi, a ksrlet megllthat.

Kivlasztott jegyek (rszhalmazok s

rszgrfok) jelentse a poszerior alapjn
Vltozk kizrsa a kvetkezo mrshez vagy

meglls
Bayesi meta-analzis s jegykivlaszts
Mrheto, nem redundns, orvosbiolgiailag

relevns halmaz kivlasztsa
Mrsi Ksrletezo
knyszerek preferencii
14.3. bra. A Bayes-i szekvencilis ksrlettervezs munkafolyamata
A fenti mdszerek kzs elnye, hogy jobban illeszkednek a vals ksrletekhez (pl.
rendszeres monitorozs), knyelmesebben alkalmazhatk, valamint lehetv teszik a korai
lelltst, ami alacsonyabb mintaszmhoz s rvidebb tanulmnyokhoz vezet.
14.3.3. Szekvencilis dntsi folyamatok Bayes-i keretben

A Bayes-i statisztikai eszkztr s a Bayes-hlk igen jl hasznlhatk szekvencilis dn-
tsi folyamatok modellezsre. Az elmlt vekben sok kutats clozta meg a Bayes-i
keretrendszer tovbbi kiterjesztst, pldul informatv priorok s hasznossgfggvnyek
konstrulsval, prhuzamos szmtsokkal, illetve egyb, korbban nem kapcsold elj-
rsok (pl. gnprioritizls) integrlsval. Ebben az alfejezetben bemutatunk egy adaptv
technikt, amely alkalmas ksrletsorozatok tervezsre ehhez minden lpsben a legg-
retesebb vltozkat (pl. SNP-ket) vlasztja ki, gy viszonylag nagy mintaszmot biztost
adott kltsgvets esetn. A lers sorn felhasznljuk az elz alfejezetekben bemutatott
eszkztrat s a Bayes-i megkzeltst. A mdszert elszr az asthma genetikai htternek
feldertsre hasznltk PGAS adatokon [5].
Az alaptlet relevancia-analzisek (olyan vltozk azonostsa, amelyek szorosan kap-
csoldnak a ksrlet trgyhoz, pl. egy fenotpushoz) s vltoz-kizrsok (variable pru-
ning) iteratv alkalmazsa. A munkafolyamatot a 14.3. bra mutatja. Elszr egy kezdeti
jellt vltozhalmaz kerl kivlasztsra a mrsi adatok s szakrti tuds alapjn (illetve
egyb eszkzk alkalmazsval, pl. keresk, prioritizlk, szvegbnysz eszkzk, stb.). A
jellt vltozhalmaz ezutn egy ciklusba kerl, ahol ksrleteken, relevancia-analziseken s
vltoz-kizrsokon megy t; ennek sorn az algoritmus a legnagyobb vrhat hasznossg
vltozkat tartja meg. Minden iterci utn egy dnts trtnik a ksrletek folyatsra
vagy lelltsra; utbbi sorn megtrtnik a relevnsnak tlt vltozhalmazok jelentse.
Az albbi lers a mdszert kifejleszt csoport kzlemnyt kveti [5]. Tekintsk az

f F strukturlis jegyeket s a posteriort az F jegytr felett, az i. lpsben meglv

D<i tudsunk mellett. Az f optimlis jelentett jegy megllapthat az egyes f jegyek
jelentsnek vrhat hasznossga feletti maximalizlsval:
h i
f = arg max Ep(f |D<i ) U (f|f ) .
f
Minden lpsben dnteni kell a ksrletek folytatsrl vagy lelltsrl. Utbbi esetben
az eddigi lpsek hasznossga, U (D<i ), megegyezik az optimlis jelents hasznossgval;
folytats esetn U (D<i ) a vrhat adat hasznossgaknt hatrozhat meg.
U (D<i ) = max(U R (D<i ), U C (D<i )) = max Ep(f |D<i ) [U (f |f )] , Ep(Di |D<i ) [U (Di )] .

Megjegyzend, hogy U (Di ) becslhet a U R (Di ) jelents hasznossgval. Ezek utn

az egyetlen hinyz elem maga a hasznossgfggvny. Ahogy azt a fenti egyenlet rekurzv
defincija jelzi, elbb-utbb egy direkt pontozfggvnyre lesz szksgnk. Legyenek
teht az f strukturlis jegyek vltozhalmazok s jellje S a vltozhalmazok halmazt.
A direkt pontozfggvny U D : S R a kvetkezkppen definilhat:
X
U D (s) = V V (v) + S S(s) + G G(s),
vs
ahol V (v) az s vltozhalmaz egy elemnek MBM-pontszma, S(s) a halmaz MBS-pontszma

s G(s) a halmaz MBG-pontszma (ezek defincija s tovbbi tudnivalk a Bayes-i tbb-
szint elemzsrl megtallhat a hivatkozott irodalomban [6]).
14.4. A clvltozk kivlasztst szolgl mdszerek

14.4.1. Gnprioritizls
A gnprioritizls sorrendi tanulsi feladat, amelynek clja egy adott lekrdezshez legre-
levnsabb entitsok megtallsa. Gondolhatunk r egyfajta orvosbiolgiai Google-knt,
ahol a lekrdezs llhat betegsgekbl, betegsg-gnekbl, kulcsszavakbl, stb. A prio-
ritizl rendszer kimenete a gnek egy relevancia szerint rendezett sorrendje. Ahogy a
heterogn omikai informciforrsok integrcija egyre inkbb bekerlt a kztudatba,
szoros kapcsolatok alakultak ki a gnprioritizls s az adatfzi terletei kztt is.
Br a legtbb prioritizl rendszer pronknti hasonlsgokat, illetve hlzat-alap
megkzeltseket hasznl, ms mdszerek is napvilgot lttak, pl. sorrendi statisztikai [7]
illetve Bayes-hl alap megkzeltsek [8]. Szmos rendszer lersa megtallhat egy
2011-es sszefoglal kzlemnyben [9]. Ebben a fejezetben bemutatunk egy hasonlsgi
gnprioritizl rendszert, amely n. szupport-vektor gpekre (SVM) pl.
A knnyebb rthetsg rdekben a gnprioritizlst egy gyakorlati pldn keresztl
vizsgljuk meg. Tegyk fel, hogy olyan gneket keresnk, amelyek valamilyen szerepet tl-
tenek be a sejtciklus szablyozsban. Ehhez rendelkezsre llnak gnexpresszis profilok

E2
Q1
Q3
Q2 I
E1
E3
0
E20 Q1
k(, )
2
Q02
3 Q03
E10 E30
14.4. bra. SVM-alap prioritizls. A lekrdezst Q, a tbbi entitst E jelli. Az entit-

sok a szaggatott kk vonallal jellt fellettl val tvolsguk alapjn vannak sorrendezve.
A felletet a hasonlsgok ltal meghatrozott transzformlt trben szmtjuk ki.
microarray-vizsglatokbl, valamint ismernk proto-onkogneket (lekrdezs). Feltesszk

tovbb, hogy hasonl expresszis profillal rendelkez gnek tbb-kevsb azonos funk-
cit ltnak el. Ezen a ponton meg kell hatroznunk a hasonlsg fogalmt, amelyhez
szmtalan hasonlsgmrtk kzl vlaszthatunk ez a vlaszts egyben a szakrti tuds
bevitelnek egyik mdja is. Az n. egyosztlyos szupportvektor-gp a hasonlsgok ltal
meghatrozott matematikai trben egy olyan felletet szmt ki, amely a lehet legnagyobb
margval elvlasztja a lekrdezst a tbbi gntl. A kvetkez lpsben a gnek sorren-
dezhetk a fellettl val tvolsguk alapjn; minl kisebb a tvolsg, annl valsznbb,
hogy a gn szerepet jtszik a sejtciklusban (14.4. bra).
Tovbbi rszletek az egyosztlyos s -SVM-rl megtallhatk az eredeti kzlemny-

ben [10]. Az egyosztlyos SVM priml feladata a kvetkezkpp rhat:
1 T 1 X
min w w+ i
w,, 2 l i
s.t. wT (xi ) i
0, i = 1, 2, ..., l

ahol a clfggvny els tagja a modell simasgt biztostja, jelli a margt, szablyozza
a komplexitst s i a soft-margin formalizcihoz szksges slack vltozk. () kpezi
le a mintkat a H reprodukl kernel Hilbert-trbe, azaz K(xi , xj ) = h(xi ), (xj )iH . A
dul
1
max D() = T K
2
s.t. 0 1, 1T = l.
A prioritizci sorn az origtl szmtott hiperskra ortogonlis tvolsg:
P
i K(xi , x)
f (x) = i
T K
ahol a nevez a normalizcirt felel, a konstans paramtert pedig elhagyjuk.
14.4.2. Aktv tanuls

Tekintsk a fenti keretet egy apr mdostssal. Tegyk fel, hogy rendelkezsnkre llnak
a gnek s az expresszis profilok, de semmit nem tudunk a funkcikrl, gy annak felfe-
dshez, hogy egy adott gn rendelkezik-e az ltalunk vizsglt funkcival, kln ksrlet
szksges. A clunk, hogy a funkcival rendelkez gneket talljunk megfelel pontossggal
s relatve kisszm ksrlettel. Ez a feladat a gygyszerkutatsi folyamatra emlkeztet,
ahol a cl aktv vegyletek felfedezse hatalmas molekulris knyvtrakban. 2003-ban
Warmuth egy elegns keretrendszert javasolt ilyen problmk kezelsre, amely az ak-
tv tanuls fogalmn alapult. Az aktv tanuls egy iteratv folyamat, amely a kvetkez
lpsekkel rhat le:
1. Modellpts egy kezdeti mintahalmaz alapjn (a mrettel megegyez szm ksrlet
elvgzse szksges).
2. Eddig ismeretlen mintk kivlasztsa valamilyen kritrium alapjn, majd cmkjnek
felfedse (ismt egy ksrlettel).
3. A modell finomtsa az eredmny alapjn.
4. A 2-3. lpsek ismtlse konvergenciig.
Esetnkben kt sszer kivlasztsi stratgia lehet a fellethez legkzelebbi, vagy p-
pen a legtvolabbi gn kivlasztsa (bell, azaz a fellet pozitv oldaln!). Az elbbi
vlaszts az n. Minimum Marginal Hyperplane eljrsok alapja, amely vgeredmnyben
azokat a mintkat vlogatja be, amelyekben a modellnk a leginkbb bizonytalan, majd
az ilyen hatresetek megvizsglsval javt a modellen. Az utbbi stratgia (Maximum
Marginal Hyperplane) a biztosnak tlt predikcik fellvizsglatn alapul. Egyb kiv-
lasztsi stratgikat s ezek viselkedst Warmuth eredeti kzlemnyben lthatunk [11].
Az aktv kifejezs az adatok aktv felfedezst jelenti, szemben az elz algoritmusokkal,
amelyek egy statikus tanthalmazt hasznltak ismert cmkkkel. Szintn vegyk sz-
re az algoritmus szekvencilis termszett, ami ms fogalmakhoz, pldul a szekvencilis
ksrlettervezshez vagy az adaptv ksrlettervezshez val kapcsolatot sugall.

14.5. Egyb, a gyakorlatban felmerl bioinformatikai

feladatok
A korszer ksrlettervezs elkpzelhetetlen lenne bioinformatikai tmogats nlkl. A
legfontosabb, bioinformatikra ersen tmaszkod lpsek a kvetkezk:
Irodalomkutats. A szakirodalom feldolgozsa s a relevns ismeretek kinyerse

ma mr jelents mrtk bioinformatikai tmogatssal trtnik. A legelterjedtebb
keresmotorok (pl. PubMed) rengeteg szolgltatst nyjtanak, idertve a szrsi
s rendszerezsi eljrsokat, idzsi segdeszkzket, alkalmazsi programozsi fel-
leteket (API), stb. Emellett tbb, flig vagy teljesen automatizlt szvegbnysz
rendszer is a kutat rendelkezsre ll.
Minta- s adatgyjts. A ksrletben rsztvevk krdveinek elksztse, kikl-

dse, begyjtse s feldolgozsa (esetleg elektronikus fellet biztostsa), valamint a
mintaazonosts s -szllts mind-mind ers informatikai htteret kvetelnek meg.
Trolsi feladatok. A fizikai mintatrols rendszerint elektronikus kszletnyilvn-

tart rendszerekkel egszl ki. Hasonlkppen, az adattrols, pl. bemeneti s mrsi
adatok szabvnyos trolsa s elrse is korszer adatbzis-rendszerekkel valsthat
meg.
Biztonsg. Az adatbiztonsg mind jogi, mind etikai szempontbl kritikus fon-

tossg. Kapcsold fogalom a megosztott hozzfrs, amely a ksrletet vgz,
klnbz feladatokkal megbzott szemlyek tevkenysgnek sszehangolst teszi
egyszerbb. Szintn a biztonsghoz kapcsoldik a minsgbiztosts krdskre.

Irodalomjegyzk
[1] W. Ahrens and I. Pigeot, Handbook of Epidemiology. Springer, 2007.
[2] J. M. Bernardo and A. F. M. Smith, Bayesian Theory. Wiley Series in Probability

and Statistics, John Wiley & Sons Canada, Ltd., 2007.
[3] S. Senn, Statistical issues in drug development. Wiley-Interscience, 2007.
[4] C. Jennison and B. W. Turnbull, Group Sequential Methods with Applications to

Clinical Trials. Chapman & Hall/CRC Interdisciplinary Statistics, Taylor & Francis,
1999.
[5] P. Antal, G. Hajs, A. Millinghoffer, G. Hullm, Cs. Szalai, and A. Falus, Variable
pruning in Bayesian sequential study design. Machine Learning in Systems Biology,
page 141, 2009.
[6] Pter Antal, Andrs Gzsi, Gbor Hullm, and Andrs Millinghoffer, Learning comp-
lex bayesian network features for classification. In: Proc. of third European Workshop
on Probabilistic Graphical Models, pages 916, 2006.
[7] S. Aerts, D. Lambrechts, S. Maity, P. Van Loo, B. Coessens, F. De Smet, L. C.

Tranchevent, B. De Moor, P. Marynen, B. Hassan, P. Carmeliet, and Y. Moreau,
Gene prioritization through genomic data fusion. Nat. Biotechnol., 24:537544, May
2006.
[8] A. Parikh, E. Huang, C. Dinh, B. Zupan, A. Kuspa, D. Subramanian, and G. Sha-

ulsky, New components of the Dictyostelium PKA pathway revealed by Bayesian
analysis of expression data. BMC Bioinformatics, 11:163, 2010.
[9] L. C. Tranchevent, F. B. Capdevila, D. Nitsch, B. De Moor, P. De Causmaecker, and

Y. Moreau, A guide to web tools to prioritize candidate genes. Brief. Bioinformatics,
12:2232, Jan 2011.
[10] Bernhard Schlkopf, John C. Platt, John C. Shawe-Taylor, Alex J. Smola, and Robert
C. Williamson, Estimating the support of a high-dimensional distribution. Neural
Comput., 13:14431471, July 2001.

[11] M. K. Warmuth, J. Liao, G. Ratsch, M. Mathieson, S. Putta, and C. Lemmen,

Active learning with support vector machines in the drug discovery process. J Chem
Inf Comput Sci, 43(2):667673, 2003.

15. fejezet
Nagy adattmegek az orvosbiolgiban
Amelyben ttekintjk a biolgiban megjelen nagy adattmegek els hullmba tartoz

szekvencia, strukturlis s expresszis adatokat, majd sszefoglaljuk ezek egyre heterogn-
abb, m mg mindig akadmiai forrs msodik hullmt. Ezt kveten ttekintjk a jelen-
leg formld a mindennapi letbl szrmaz nagy adattmegek forrsait az internettl a
hordhat elektronikai eszkzkn t az otthoni egszsgmonitoroz rendszerekig. Megvizs-
gljuk ezek orvosbiolgiai relevancijt, illetve fordtva is a nagy adattmegekre kifejlesztett
mdszerek orvosbiolgiai adatokhoz val adekvtsgt. Vgezetl megvizsgljuk, hogy ezen
adatok alapjn milyen betegoldali s orvosoldali adatelemzsi igny s dntstmogats is
vrhat.
15.1. Bevezet
Az 1965-ben G. Moore ltal megfogalmazott trvny a tranzisztorok srsgrl az elekt-
ronika egy ltalnos trvnyv vlt, amely az eredeti fizikai alapoktl elvlva a szmtsi
teljestmny s adattrols sokfle vonatkozsban is helynvalnak bizonyult. Az adatt-
rols fejldsvel prhuzamosan a mrstechnika is exponencilis fejldsi szakaszon ment
keresztl pl. a csillagszat, meteorolgia, rszecskefizika, kmia, molekulris s neurobio-
lgia terletn. A felhalmozd adatok miatt az ezredfordul tudomnytrtneti korszak-
hatrnak is tekinthet, amikor a XX. szzad msodik felre jellemz szmtsintenzv,
szimulcis korszakot egy adatintenzv, adatelemz korszak vltotta fel. Tudomnytr-
tnszek egy j kutatsi paradigma, az e-science megjelenst is vizionltk, amelynek
kzponti eleme ezen nagy adattmegek lte, hatkony begyjtse, trolsa, elemzse s
modellalkotsban, ksrlettervezsben val felhasznlsa. Fontos felismerni azonban, hogy
az adatgazdagsg nem kizrja, hanem csak megelz fzisa a szmtsintenzv szimul-
ciknak, gy ezek megjelense egyre komplexebb terleteken vrhat.
Az e-science paradigma elmleti s gyakorlati httere tbb tudomnyterleten is el-
osztva fejldik, amely a kvetkez kulcsszavak kr szervezdik: (1) a szmtsintenzv
szimulci, (2) a nagy adattmegek, a Big Data, (3) kzssgi kutats, (4) a nylt elrs,
hatkony kombinlhatsg, jrafelhasznlhatsg.

15. Nagy adattmegek az orvosbiolgiban 202
15.1. bra. A kutatsi ciklus nagy adattmegeknl
A nagy adattmeg/adatbsg/adattenger/adatlavina (Big Data) meghatroz elem

az e-science vonatkozsban, s a (Big) Data Science kifejezst gy az e-science szino-
nimjaknt is hasznlt. Az orvosbiolgiban jelenlv, megjelen s vrhatan megjelen
nagy adattmegek azonban specilis sajtossgokkal brnak a nagy adattmeg (Big Data)
megszokott definciihoz kpest, br a fenotpusos adatok fontossgnak eltrbe kerl-
svel a htkznapi nagy adattmegek orvosbiolgiai felhasznlsa is egyre fontosabb. A
fejezetben ezt a krdst vizsgljuk meg tbb szempontbl is.
rdemes szrevenni, hogy ms tudomnyterleteken, mint a fizika, csillagszat vagy
klmakutats terletn a harmadik, mindennapokbl szrmaz nagy adattmegek bekap-
csoldsa nem indokolt, gy ez uniklis az orvosbiolgira.
15.2. Az orvosbiolgia klasszikus nagy adattmegei

A biolgiai, biokmiai adatok vtizedeken t meghatroz forrsa a fehrjetrszerkezet-
adatok voltak, azonban a Humn Genom Program indulsval a genetikai szekvenciaada-
tok mennyisge vlt meghatrozv. A gnexpresszis adatok ezredforduln bekvetkezett
mrstechnikai fejldsvel a biolgiai adatok hrom f terlete kialakult, amelyek a struk-
turlis, a szekvencikra vonatkoz, s a kifejezdsekre vonatkoz adatok. rdekes, hogy
a molekulris biolgiai mrstechnika fejldse is jellemezhet a szmtstechnikbl jl is-
mert Moore-trvny szerint, amely alapjn a molekulris biolgiai adatok mennyisge ves
nagysgrendben megduplzdik [1, 2]. Ezen Carlson-trvnyek szerint a DNS szintzis s
szekvenls produktivitsnak nvekedse is jellegben a Moore-trvnyhez viszonytva
vltozik, illetve a fehrje-trszerkezetek meghatrozsi idejnek vltozsa is.
Az autonm omikai szinteknek megfelelen a gnexpresszis kifejezdsi szinttel analg
mdon megjelentek a (kvantitatv) transzkripcis, proteomikai, lipidomikai, metabolom-
ikai szintek is, nll ontolgikkal s adattrhzakkal. A gygyszerkutatsban betlttt

15.2. bra. Az orvosbiolgiai nagy adattmegek hrom hullma
szerepe miatt nll, a bioinformatikai kutatsoktl kiss elvl utat jrt be a hatanyagok
s gygyszerek reprezentlsnak s adatbzisainak fejldse.
Gyors, br ehhez nem foghat nvekedsi jelleget mutat az orvosbiolgiai szakcikkek
szmnak gyarapodsa is.
A molekulris entitsokrl szl adatok mellett a pronknti adatok, mind a gnsza-
blyozsi vonaln, mind a fehrje-fehrje interakcik kapcsn, illetve a genetikai varinsok
s betegsgek kapcsn a genetikai asszocicis adatbzisok. A hatanyagok s gygy-
szerek adatbzisainak fejldse jl tkrzte a kemoinformatika nll fejldst, hogy az
orvosbiolgiai nagy adattmegek megjelensnek els hullmban, az ezredfordulig, a
gygyszer-clpont adatbzisokon tl, a gygyszer-betegsg relciban nem jttek mg lt-
re nagy mennyisgben adatok.
15.3. Posztgenomikai nagy adattmegek az orvosbiolgi-

ban
A Humn Genom Program lezrulsa utn, amely egy tbb-kevsb lezrt referenciaszek-
vencit eredmnyezett, a genetikai varinsok feltrkpezsre helyezdtt a hangsly. A
genotipizls s gnszekvenls elrhetsge folyamatosan javult a Carlson-trvnyeknek
megfelelen, amelyeknek rvnyessge csupn napjainkban, 2013-ban ltszott srlni. A
ltrejtt j genercis szekvenlsi mdszerek felhasznlsval j programok indultak,
amelyek tbb ezer teljes emberi genomot hatroztak meg.
A nagy adattmegek elrhetsge ellenre azonban mind a diagnosztikai biomarkerek

15.3. bra. Omikai szintek
felfedezsben, mind a gygyszerkutatsban az elrt eredmnyek elmaradtak az ezred-

forduln mg fenntartott vrakozsoktl. Az elmaradt eredmnyek magyarzatra tbb
javaslat is megjelent, amelyek egy rsze az ezredfordul utn felismert jelentsg j omi-
kai szintekhez, mint pldul a microRNS-ek szintjhez vagy az epigenetikai mdosulsok
szintjeihez kapcsoldott.
j ler szintekre plda, amit az j genercis szekvenlsi eljrsok tesznek lehet-
v, a mikrobilis vizsglatokat segt metagenomikai vizsglatok, amelyek akr az emberi
szervezet egy bakterilis koszisztmval kialaktott szimbizist is kpesek vizsglni. En-
nek jelentsgt az adja, hogy az emberi szervezetben 1014 nagysgrend baktrium l,
meghaladva az emberi sejtek szmt is [3, 4].
Egy msik, szintn az j genercis szekvenlsi eljrsok ltal lehetv vlt mdszer az
immunrendszer karakterizlst vgzi el a T s/vagy B sejtek repertorjnak felmrsre,
a sejtek immunolgiailag relevns szekvenciargiinak feltrkpezsvel. Ezek szmosssga
szintn 109-es nagysgrendet meghalad lehet, amelyek kvetse autoimmunbetegsgekben
rendkvl gretes.
Ms magyarzatok szerint a relcik s mechanizmusok tbbvltozs s kontextulis
jellege nehezti a felfedezst. rdekes mdon a magyarzatok egy rsze magt az omi-
kai megkzeltst, a hipotzismentes kutatsi paradigmt is tmadta. Ezeknek az alapja
a tbbszrs hipotzistesztelsi problematika, amely szerint mg egyvltozs statisztikai
asszocicis elemzsekben is a vltozk, pontosabban a fggetlen statisztikai tesztek szerint
a hibs felfedezs kontrolllsa miatt a statisztikai tesztek rvnyessgnek az elfogadst
egyre szigorbb kritriumokhoz kell ktni. Tbbvltozs, akr interakcit is megenged
modelleknl a lehetsges tesztek szma a vltozk szmban akr egy igen gyorsan nv
fggvny is lehet, amely a tbbszrs hipotzistesztels problemjt mg inkbb slyos-

btja. Br kezelsre tbb statisztikai mdszertan is megjelent, az alapvet problmt az

adatok viszonylagos, a modellek sokasghoz, komplexitshoz viszonytott volta jelenti.
Ennek megfelelen az adatok s a meglv a priori tuds fzija kerlt az eltrbe, neve-
zetesen a heterogn omikai szintek kapcsoldsra vonatkoz s egyb httrinformcik
integrlsa. Ennek egy olvasata, hogy az orvosbiolgia adatgazdagsga viszonylagos, s
a nagy mennyisg httrismeret felhasznlsa elengedhetetlen, amelynek rendszer alap
elemzse jelenthet segtsget a statisztikai aluldeterminltsggal szemben. A rendszer ala-
p megkzelts sok tekintetben ktdik a beavatkozsokhoz, autonm mechanizmusokhoz,
oksgi modellezshez, amelynek matematikai alapjainak fejldse az utbbi negyedszzad-
ban rohamos fejldsen ment t [5].
Az orvosbiolgiban megjelen posztgenomikai nagy adattmegek msodik hullma
ezen rendszerszint megkzeltssel is jellemezhet, azaz olyan szisztematikus vizsgla-
tok, amelyek beavatkozsokhoz, szablyozsok, autonm mechanizmusok feltrtkepzs-
hez kapcsoldnak.
A hatanyag/gygyszer-gnexpresszi-betegsg/genetikai profil/szvet hrmas egyt-
tes megkzeltse miatt a Connectivity MAP volt annak els pldja, amely egy molekula-
knyvtrat klnbz sejtvonalakon alkalmazva azok transzkripcis, illetve egyb omikai
profiljait vizsglta. Egy specifikusabb kvetje ennek a hatanyag -expresszi-sejttpus
hrmasok szisztematikus szrsi paradigmnak a Genomics of Drug Sensitivity in Cancer.
15.4. bra. A hatanyag -expresszi-sejttpus integrlt adatok felhasznlsnak problm-

ja: gygyszer-gygyszer, gn-gn, betegsg-betegsg kapcsolati hlk
Teljessge miatt szintn kiemelkedik az ENCODE projekt, amely klnbz transzkrip-

cis faktorok kthelyeit trkpezi fel szisztematikusan, epigenetikai trkpeket is alkotva,
szvetspecifikusan.
Az orvosbiolgiai nagy adattmegek egy specilis szegmenst alkotjk a most bein-

dul agykutatsi programok, amelyek jelentsge a remnyek szerint a Humn Genom

Projekthez hasonl lesz, s tbblptk adatok sokasgt fogja eredmnyezni: az ideg-
sejt membrnpotenciljtl az agyi kpalkot eljrsok kimenetelig. Ennek kapcsoldsa
a genomikai kutatsokhoz tbb ponton is vrhat, klnsen a kvetkezkben trgyalt
komplex fenotpus kapcsn.
Vgezetl a szmtsintenzv szimulcikbl szrmaz adatokat emltjk meg, amely
forrs szerepeltetse meglepnek tnhet, klnsen a 4. tudomnyos kutatsi paradig-
ma korszakban [6]. A 2. paradigmnak nevezett analitikus egyenletrendszerek, majd
a 3. korszaknak nevezett szmtsintenzv szimulcik utn a jelenlegi korszak adatve-
zrelt, amelyben az adat azonban valban a lingua franca, amely szrmazhat mind vals
megfigyelsekbl, mind adott valsghsg szmtsintenzv szimulcikbl. Fontos felis-
merni, hogy a molekulris biolgiai, biokmiai mrstechnika fejldse mellett az ismeretek
gyarapodsa s szmtsi kapacitsok bvlse is olyan mrtk, hogy sok esetben alterna-
tvaknt jelenik meg az adott pontossg, kltsg s infrastrukturlis igny vals mrs
s szmtsintenzv szimulci. Ez klnsen igaz az ltalnos cl grafikus krtyk (GPU)
fejldsvel s a szmtsi kzm/felh egyre ltalnosabb elrhetsgvel. A sejt, szerv,
szervrendszer, teljes szervezet modellezsnek az ismeretek tovbbi gyarapodsa s a sz-
mtsi erforrsok tovbbi nvekedse mellett a tbbszint szimulcis eszkzk fejldse
adhatna jabb lendletet.
A nagymret, kvantitatv modellek szimulcija, klnsen ezen modellek nagyszm,
populciszint futtatsa rendkvl nagy szmtsignyt jelenthet, viszont a beavatkozs
lehetsge miatt ez uniklis, a valsgban nem kivitelezhet megfigyelseket biztost. Az
gy keletkezett adatok adott pontossg trolsa ugyangy krds, mint a vals adat ese-
tn, hiszen ez az adat is az ellltsi kltsge mellett a kiszmtshoz szksges idt is
jelenti, akr vals vagy szimullt krnyezettel, s egyfajta prekompillt, disztilllt tuds is
sok esetben.
15.4. Htkznapokbl szrmaz nagy adattmegek

A trgyalt tudomnytrtneti vltsnak megfelelen a nagy adattmegek megjelentek a
nukleris fizikban, majd a molekulris biolgiban, csillagszatban, klmakutatsban,
a most indul agykutatsi programokban is. Az akadmiai megjelens mellett a nagy
adattmegek a kereskedelemben, iparban s a mindennapokban is megjelentek termsze-
tesen. Kezdve a banki tranzakcikkal, majd az elektronizci s internet terjedse, illetve
a begyazott elektronikai eszkzk miatt megjelentek a mobiltelefon-adatok, felhasznli
adatok (klikkek sorozattl a feltlttt fnykpekig s videkig), email-adatok, blogok,
internetkeressi adatok, trsasgi hlzati adatok. Emellett az idsek s betegek otthoni
letvitelt tmogat rendszerek, az egszsgmonitoroz rendszerek, a viselhet elektroni-
kai rendszerek, a kiberfizikai rendszerek, intelligens otthonok, szenzorhlzatok is egyre
nagyobb tmeg adatot szolgltatnak. Ezen htkznapi nagy adattmegek megjelenst
a Moore-trvny, az elektronikus eszkzk s az internet hrmasa biztostotta, s megha-
troz sajtossga az egybemosd fizikai-informatikai vilg (E. Dumbill: Making sense

of big data, Big Data, vol. 1, no. 1, 2013 ).
15.5. bra. Htkznapi nagy adattmegek prekurzorai
A felhasznlk szmnak nvekedsvel ezek sszessgkben az akadmiai nagy adat-

tmegek mennyisgt messze fellml rtket kpesek generlni, amely azonban, mint
ltni fogjuk, sszekapcsolhat akr kutatsi cllal is az akadmiai adattmegekkel. Ezen
htkznapi nagyon nagy adattmeg megjelenshez valsznleg a szmtsi/adattrolsi
kzm szolgltatsnak fejldse is szksges, azonban ennek trgyalsa kvl esik a jegy-
zet keretein, gy a jelenlegi szint htkznapi adattmegeket ttelezzk fel. A htkznapi
adattmeg/Big Data megjelense pldul a kvetkez terleteken mr megszokott:
1. Pnzgyi s tzsdei tranzakcik (elrejelzs, visszals-felderts)

2. Telefon (hvshl elemzse clzott reklmhoz, visszals-felderts)
3. Szoftverhasznlat (hasznlhatsg elemzse szoftverhasznlati jogok alapjn)
4. Webes keress (hivatkozsstruktra elemzse)
5. Webhasznlat (weboldal felptsnek optimalizlsa)
6. Jrmforgalom-elemzs (GPS-ek alapjn, terhelsoptimalizls, dugelkerls)
7. Villamosenergia-hlzat mrse (predikci)
8. Nvnytermeszts (visszals-felderts mholdkp-elemzssel)
Annak megrtshez, hogy az orvosbiolgiai nagy adattmegek s az ipari, kereskedel-

mi, htkznapi nagy adattmegek miben is hasonlak s eltrek, s gy a rjuk kifejlesztett
eszkzk miben is msok, vizsgljuk meg a nagy adattmegek meghatrozst. A Big
data kifejezs els hasznlata a megszokot rtelm, akkori informatikai kereteket megha-
lad adatra vonatkozott [7], ami 2001-ben egy igen llandsult 3xV vltott fel: volume,
variety, and velocity (2001). A rengeteg definci kztt egy orvosbiolgiai szempontbl
relevns a kvetkez:

[big data] . . . represents the totality or the universe of observa-

tions. That is what qualifies as big data. You do not have to have a
hypothesis in advance before you collect your data. You have collected
all there isall the data there is about a phenomenon.
(E.Dumbill: Making sense of big data, Big Data, vol. 1, no. 1, 2013 )
amely a megszokott omikai definci. Egy gyakran elfordul megklnbztets az

ipari, kereskedelmi s mindennapi letbl szrmaz big data s az akadmiai, specilisan
a bioinformatikai, kemoinformatikai nagy adattmegek kztt az elbbiek idbelisgn,
pontosabban a felhasznlsuk idbelisgn alapszik. Amire egy plda azon feladat, hogy
kldjnk egy olyan clzott elektronikus zenetet azoknak a felhasznlknak, akik egy
bizonyos helysznen tartzkodnak, adott termkrl tudnak s kommunikcis/kapcsolati
hlikban ezzel kapcsolatos aktivitsuk valamilyen rtelemben kzponti szerepet tlt be.
A gyors reakcij felhasznls alapjn trtn megklnbztets ellenre a htkznapi
nagy adattmegek az let egyre kiterjedtebb rszt fedik le, informcitartalmuk egyre n,
gy az orvosbiolgiai kutatsok egyre inkbb relevnsak, akr orvosbiolgiai nagy adatt-
megekknt is tekinthetk. A htkznapi nagy adattmegek orvosbiolgiai relevancijt
orvosbiolgiai s gygyszerkutatsi oldalon bekvetkez vltozsok is segtik, amit a k-
vetkezkben tekintnk t.
15.5. A htkznapi nagy adattmegek az orvosbiolgi-

ban
A mr trgyalt remlttl elmarad sikeressgre a genetikai asszocicis kutatsoknak tbb
magyarzat is az asszocici lersnak elgtelen voltt emelte ki. Magnak a fenotpusnak
a lersa is kritika trgya, pldul a sok betegsgben megszokott eset-kontroll binris fel-
bontst elgtelennek, finomabb felbontst viszont mr szakmailag szubjektvnek tartanak,
molekulris biolgia vgpontokkal trtn karakterizls pedig legtbbszr csak kutatsi
clknt ltezik. Hasonlan biomarkereknl a kontextus rszletesebb lersa is fontos volna,
azaz a potencilisan mdost tevkenysgek s a krnyezet lersa. Kapcsold metodo-
lgiai vltozs, hogy a clzott eset-kontroll elemzsek helyett a nagy kohorsz-vizsglatok
lesznek preferlva, aminek statisztikai mintaszm okai is vannak.
A fenotpusadatokon s htkznapi nagy adattmegeken bell klns fontossgra tet-
tek szert a gygyszerfogyasztssal s gygyhats ksztmnyek hasznlatval kapcsolatos
informcik. Ezek az alap-orvosbiolgiai kutatsok mellett akadmiai gygyszerkutat-
sok, gygyszeripari kutatsok, npegszsggyi kutatsok, de egszsgbiztostsi vizsgla-
tok szempontjbl is vitlis informcikat hordoznak eredmnyessgrl s hatkonysgrl,
illetve mellkhatsokrl. A mellkhatsok szisztematikus s tfog kvetsre tbb eur-
pai program is indult, amely a gygyszerkutatsokban egy j korszakot nyithat. Ettl
fggetlen, de megjegyzend, hogy a gygyszeripar stratgiai megvltozsra az is plda,
hogy tbb gyrt a molekulaknyvtrnak s azokon vgzett kutatsainak bizonyos fok

kinyitsra kszl, illetve, hogy az engedlyeztetsi eljrsban keletkez adatok nyers for-
mjukban is elrhetek lesznek. Hasonl rdeklds az lelmiszerbiztonsg s a kmiai
biztonsg irnybl is vrhat.
Vgezetl a legalapvetbb tnyez a htkznapi nagy adattmegek orvosi felhasznlsa
mellett maga az egynek nmegismer s egszsgmegrz trekvse. Br a hordhat
elektronikai eszkzk az ezredfordultl folyamatosan a tmeggyrts s tmeges elterjeds
hatrn vannak, a trsadalmi szint fogkonysg s ipari felkszltsg tbb felmrs szerint
is most fog egy kritikus szintet elrni.
A viselhet (wearable) szmtstechnika, a begyazott, transzparens szmtstechni-
ka (ambient assisted living) miatt vrhatan tovbbi j adatforrsok is megjelennek a
kzeljvben (15 v), mint pldul a kvetkezk:
1. Testszenzorok, okosra: folyamatos orvosi alapadatok s hanginformcik teljes kr

potencilis rgztse.
2. Okos szemveg: vizulis informcik teljes kr potencilis rgztse.
3. Gygyszerhatkonysg s mellkhats-informcik jobb kvetse.
4. Begyazott szmtstechnika, okos otthon, ids- s beteggondozs: mindennapi te-
vkenysg teljes kr potencilis rgztse.
5. Elektronikus trgykvets: mindennapi hasznlati trgyak helyzetnek teljes kr
potencilis rgztse.
A htkznapi nagy adattmegek megjelensnl emltett egybemosd fizikai-infor-

matikai vilgban a mindennapi let egyre nagyobb rszhez tartozik egy elektronikai-
informatikai vetlet is, amelyben modellek kvetik a tevkenysgeket s direkt vagy
indirekt mdon hatnak vissza a vals vilgra. Egy leegyszerstett kp szerint ebbe a
virtulis trbe a kvetkezk kerlhetnek be:
1. a fizikai trgyak hely- s llapotjellemzi (egy elektronikai kvetrendszeren keresz-

tl)
2. szemlyek fiziolgiai llapota (klnbz passzv mrrendszereken keresztl)
3. szemlyek kognitv leri (aktv kzremkdssel hatridnaplk, teendk listjnak
a hasznlatval vagy passzv modellezs tjn).
A teljessg ignye nlkl az ebben megjelen informcik a kvetkezek lehetnek.

1. ltalnos fiziolgis llapot kvetse
Testhmrsklet
Pulzus, EKG; szrmaztatott mutatk
Lgzs; kapacits, gyakorisg
Vrnyoms
Brellenlls

Sly
Kalriabevitel
Vrcukorszint
Testmozgs
2. Kommunikci
Telefon
Elektronikus zenetek
Kzssgi hlkon s szmtgpes jtkokban val rszvtel
3. Otthoni krnyezet
Hztartsi gpek aktivitsa, hasznlata

ltalnos llapotlerk
4. Kzlekeds
tvonal
Eltlttt id
5. Betegsgspecifikus llapot kvetse
Elektronikus krtrtnet, leletek

Gygyszerhasznlat
Egszsgmegrz aktivitis
Patologikus mozgs
Tsszents
Khgs
Remegs
Eless
Ezen adatoknak fontos sajtossga a tbbszint, tbb idi lptk mentn elhelyezked
adatok, amit az albbi pldval illusztrlunk, bemutatva az allergis llapot tbbszint
kvetsnek adatait:
Szakorvosi adatok: szezon szerinti s ves vizitek, eseti megkeressek.
Laboradatok: szezonszerinti s ves viziteken mrt immunolgiai profilok.
Tnetek: szervrendszer s klinikai vgpontok szerinti pontszmok helysznnel rs,
napi, heti, szezonlis s vi bontsban.
Gygyszerels: napi, heti, szezonlis s vi bontsban.
Mellkhatsok: napi, heti, szezonlis s vi bontsban.
Meteorolgiai adatok: helysznnel rs, napi, heti, szezonlis s vi bontsban.

15.6. bra. Orvosbiolgiai nagy adattmegek biolgiai, orvosi s htkznapi tpusai
Lgszennyezettsgi adatok: helysznnel rs, napi, heti, szezonlis s vi bontsban.

Pollenadatok: helysznnel rs, napi, heti, szezonlis s vi bontsban.
Beteg genetikai adatai.
Beteg letviteli adatai: fizikai aktivits, krnyezeti kitettsg, tpllkozsi napl.
15.6. A htkznapi nagy adattmegek bioinformatikai ki-

hvsai
A htkznapi nagy adattmegeket az orvosbiolgiai nagy adattmegek harmadik hull-
mnak tekinthetjk, amelyek merben j lehetsgeket knlnak, mint a ler jelleg els
hullmba tartozk, s az oksgi/mechnizmus-orientlt msodik hullmbeli adattmegek.
Mg az els kt korszakba tartoz alapkutats-orientlt volt, addig a harmadik korszakbeli

adatok alapveten transzlcis orientcijak, az egynek motivltsgn alapulnak, s sok

esetben a big data kereskedelmi, ipari megkzeltsnek megfelelen azonnali feldolgo-
zst, dntseket s cselekvseket ignyelnek. Erre pldk a hasonl betegek keresse, az
interneten keresztli orvosi tancsads, illetve akr az idskori otthoni gondozs felada-
ta, amely az idsd populci miatt egy egyre fontosabb. Ennek egy kerett a 3. bra
mutatja.
15.7. bra. A htkznapi nagy adattmegekre pl orvosi dntstmogat rendszerek

lehetsges szerepei
Ebben a szereplk az ids kor vagy otthon lbadoz egyn maga, hozztartozk,
gondozi ellts, hziorvosi ellts, szakorvosi ellts, diszpcserkzpont. Az itt keletkez
adatok lehetv teszik pldul a kvetkezket:
1. A hziorvos, a szakorvos, a gondoz s a hozztartozk elrhetik
(a) az elektronikus nyers adatokat,

(b) azok automatizlt korrigltjt,
(c) a kzzel trtn jvhagyst (ez a kzi megersts pldul otthoni gygyszer-
adagols (bevtel) esetn lehet fontos).
2. Az adatok, annak statisztikai leri, s az adaptv modellek mind rszv vlhatnak

az ltalnosan elrhet elektronikus betegadatlapnak.
3. A hziorvos s a szakorvos az adatok s a kvet modellek egyedi s csoportos elem-

zsvel pontosabb, szemlyre szabottabb

(a) megelzst,
(b) diagnzist s
(c) kezelst rhet el.
(d) Elektronikus betegadatok (krtrtnet, laboreredmnyek), gygyszerezs, l-
talnos s betegsgspecifikus fiziolgis adatok alapjn figyelmeztetst krhet
gygyszerbelltsra.
4. Anomlikra, potencilis veszlyhelyzetekre val figyelmeztetst s magyarzatot

kaphatnak logikai s bizonytalansgot is kezel modellek felhasznlsval,
(a) a modellek mind egyetlen, mind tbb szemly adatai alapjn adaptvak lehet-
nek,
(b) specilis, szemlyre szabott kvetsi vagy figyelmeztetsi modelleket hozhat-
nak ltre, amelyek a gondozi s hozztartozi kapcsolatban jelenthetnek nagy
segtsget.
5. A gondozott egyn maga is tfog rtekintst kaphat az llapotrl, amit felhasznl-

hat a gygymdjnak segtsben, illetve ebbl akr szemlyes profilt is kialakthat,
amit vals vagy akr virtulis kzssgekben is felhasznlhat a gygyuls elsegt-
sre.
15.8. bra. Htkznapi logika s fogalmak kapcsolata a nagy adattmegek elemzsvel:

a vz fogalmnak megjelense egy hz trkpn gyermeki szemmel s a a szmtgpes
jelents s szemantika krdse
A dntstmogats sorn a Bayes-i dntselmleti keret s a dntsi hlk egy lta-

lnos keretet biztostanak, amely az ltalnos bioinformatikai nagy adattmegekkel val
integrlst is biztostja.
A mindennapi letbl szrmaz nagy adattmegek, azok nylt, szablyozatlan, gyak-
ran termszetes nyelvi, st vrhatan audiovizulis reprezentcija felveti annak krdst,

hogy lehetsges-e jzan sz (common sense) nlkl ezeket az adatok elemezni. A krds
trgyalsa meghaladja a jegyzet kereteit, de valjban ppen ez a mindennapi letbl szr-
maz nagy adattmeg biztosthatja a magasabb absztrakcis szinten lv bioinformatikai
s kemoinformatikai adatok rtelmezst, hatkony kihasznlst.
Erre vrhatan els pldkat a htkznapi nagy adattmegek azon felhasznlsa fog
eredmnyezni posztgenomikai kutatsokban s gygyszerhatkonysgi, mellkhats-kvetsi
vizsglatokban, amikor ezen adatok mint egy rszletes krnyezeti lers s a lehet leg-
teljesebb szervezet/egyn szint fenotpus-lers kerlenk felhasznlsra, j vgpontokat
biztostva (v. a gnexpresszi mint ultimate sejt szint fenotpus [8][11]).

Irodalomjegyzk
[1] [Anonymous], THE SEQUENCE EXPLOSION. Nature, 464(7289):670670, 2010.
[2] Carlson R, The Pace and Proliferation of Biological Technologies. Biosecurity and
Bioterrorism: Biodefense Strategy, Practice, and Science 2004, 1(3).
[3] Wooley J, Godzik A, Friedberg I, A Primer on Metagenomics. Plos Computational

Biology, 6(2) 2010.
[4] Wooley J, Ye Y, Metagenomics: Facts and Artifacts, and Computational Challenges.

Journal of Computer Science and Technology 25(1):7181, 2010.
[5] Pearl J, Causality: models, reasoning, and inference. Cambridge University Press,
Cambridge, U.K.; New York, 2000.
[6] Bell G, Hey T, Szalay A, Beyond the Data Deluge. Science, 323(5919):12971298,
2009.
[7] Bryson S, Kenwright D, Cox M, Ellsworth D, Haimes A, Visually exploring gigabyte

data sets in real time. Communications of the Acm, 42(8):8290, 1999.
[8] Schadt E, Monks S, Drake T, Lusis A, Che N, Colinayo V, Ruff T, Milligan S, Lamb
J, Cavet G et al., Genetics of gene expression surveyed in maize, mouse and man.
Nature, 422(6929):297302, 2003.
[9] Schadt E, Monks S, Friend S, A new paradigm for drug discovery: integrating clinical,
genetic, genomic and molecular phenotype data to identify drug targets. Biochemical
Society Transactions, 31:437443, 2003.
[10] Schadt E, Lamb J, Yang X, Zhu J, Edwards S, GuhaThakurta D, Sieberts S, Monks

S, Reitman M, Zhang C et al., An integrative genomics approach to infer causal
associations between gene expression and disease. Nature Genetics, 37(7):710717,
2005.
[11] Emilsson V, Thorleifsson G, Zhang B, Leonardson A, Zink F, Zhu J, Carlson S,

Helgason A, Walters G, Gunnarsdottir S et al., Genetics of gene expression and its
effect on disease. Nature, 452(7186):423U422, 2008.

16. fejezet
Heterogn biolgiai adatok fzis

elemzse
16.1. Bevezets
A modern orvosbiolgiai, bioinformatikai kutatsok egyik legfbb mozgatrugja az a
technolgiai forradalom, amely a XX. szzad, a fizika vszzadnak msodik felben kez-
ddtt s mind a mai napig tart. A szmtsi teljestmny nvekedsnek, a cskszlessg
cskkensnek temt megfogalmaz Moore-trvnyhez hasonlan ms tudomnyterle-
teken is hasonl szrevtelek szlettek, amelyek a mrstechnikk exponencilis fejldst
jsoltk (pl. Carlson-trvnyek [1]). Ennek megfelelen a XXI. szzadban amelyet sokan
a biolgia vszzadnak tartanak rengeteg nagy teresztkpessg biolgiai mdszer
ltott napvilgot, s hatalmas mennyisg, heterogn mrsi adat szletett, amelynek
fejben trtn szintetizlsa s elemzse remnytelen vllalkozs. A biolgiai s sz-
mtstudomnyi fejlds, valamint ezzel prhuzamosan a mrsi mdszerek s szmtsok
rnak cskkense egyttesen j kutatsi megkzeltsek kialakulshoz vezetett. Ezek k-
z tartozik a hipotzismentes kutatsi paradigma (gnhalszat), illetve a kapcsolt omikai
(genomikai, proteomikai stb.) szintek egyttes vizsglatnak tlete. Az j vezred elejtl
a modern biolgiai alapkutats az entitsszint szemlletet maga mgtt hagyva egyre
inkbb a rendszerszint elemzsek fel mozdult el (systems biology). A nvekv adat-
mennyisggel prhuzamosan az orvosbiolgiai adatbzisok szma is emelkedett, amelyek
a kvetkezkppen oszthatk fel (a teljessg ignye nlkl):
Szekvencia: GenBank, EMBL, ExProt, SWISS-PROT/TrEMBL, PIR

tvonal: KEGG, Reactome
Regulci: miRBase, TRANSFAC, TRANSPATH
Epigenetika: PubMeth
Fehrje motif: Blocks, InterPro, Pfam, PRINTS, SUPFAM, PROSITE
Fehrjestruktra: PDB, MMDB

16. Heterogn biolgiai adatok fzis elemzse 217
12
10000$ 10
Moore-trvny Kltsg
Bzisprok
1000$
100$ 20.442.576$/genom Next Generation

Sequencing
GenBank bzisprok
r/megabzis
10$ 1011
1$
1.352.982$/genom
0.1$ 2013. prilis: 31.512$/genom
5800$, 1 nap/genom
0.01$ 1010
20
20
20
20
20
20
20
20
20
01
04
05
06
07
09
10
12
13
.sz
.ja
.j
.o
.ja
.ja
.
pr
pr
pr
k
nu
nu
nu
liu
ep
t
ili
ili
ili
te
r
be
s
s
s
m
r
be
r
16.1. bra. A szekvenls kltsgeinek alakulsa a 2000-es vek elejtl. A szmtstudo-

mny terletn megfogalmazott Moore-trvnyhez hasonlan a mrstechnikk is hasonl,
st, gyorsabb temben fejldtek, a szekvenls kltsgei exponencilisan cskkentek.
Gnbetegsg asszocicik: HuGENet, PharmGKB, GenAtlas

Farmakolgia, farmakogenomika: DrugBank, SIDER, PharmGKB, PubChem
Gnexpresszi: GEO, YMGV
Molekulris klcsnhatsok: BIND, DIP, BRENDA, BioGRID
Metabolikus hlzat: EcoCyc, MetaCyc, GeneNet
Mutcik, varicik: OMIM, dbSNP, HGMD
Ontolgik, tezauruszok: Go, UMLS, MeSH, Galen
Publikcik: PubMed

16.2. Tudsfzi s adatfzi

A heterogn biolgiai ismeretanyag fzija sorn elklnthetjk az tudsfzit, illetve
ennek egy szkebb rtelmezst, az adatfzit. A tudsfzi lnyege a kutats tmo-
gatsa a klnbz forrsokbl szrmaz tuds egyttes, koherens felhasznlsval; az
adatfzi eszkztra a nyers biolgiai adatok kombinlsra szortkozik (pl. szekvencik,
expresszis mrsek eredmnyei), gyakran numerikus mdszerek alkalmazsval. A fzi-
s paradigma kzponti krdseihez tartozik a mrsi adatok s a httrtuds egyestse,
amely gy tmenetet kpez az adat- s a tudsfzi terlete kztt. Mindegyik megkze-
lts az adatelemzst s -rtelmezst, a ksrlettervezst s a dntstmogatst szolglja.
A fzis rendszerek Synnergren felosztsa szerint az albbi kategrikba sorolhatk [2]:
Tudskivonatol rendszerek
Tudsintegrcis rendszerek
Tudsfzis rendszerek
A tudskivonatols a lekrdezshez kapcsolhat informcik automatizlt kinyerst
jelenti a klnbz biolgiai tudsbzisokbl, leggyakrabban adat- s szvegbnyszati
technikkra tmaszkodva. Lehetsget biztostanak a kinyert tuds vizualizlsra, rend-
szerezsre s bngszsre. Ide sorolhat a legtbb automatizlt adatbnysz rendszer
(DAVID [3], WebGestalt [4]).
Az integrcit szolgl eszkzk clja a tuds reprezentcija s vizualizcija egy egy-
sges felleten (STRING [5]); rendszerint tartalmaznak kivonatol s komplex lekrdez
alrendszert is (pl. termszetes nyelvi lekrdez szolgltatsok), illetve kapcsolatot biz-
tostanak a relevns publikcikhoz s elemzsekhez. A tudsbzis-integrci egy korai
pldja a TAMBIS [6], amelynek kifinomult lekrdez rendszere lefordtja a krst a hete-
rogn adat- s tudsbzisok, szolgltatsok szmra, majd a vlaszokat integrlja s egy
egysges felleten jelenti meg.
E kt megkzelts sorn a tnyleges fzit maga a kutat vgzi a megjelentett infor-
mci felhasznlsval, tmaszkodva sajt szakrtelmre is. A szkebb rtelemben vett
tudsfzis rendszerek lnyege a heterogn adatok transzformcija egy egysges reprezen-
tcit kpvisel szintre. A kzs nyelv bevezetst clz korai kutatsok kzponti eleme a
szemantikai integrci volt. A fogalmak egysgestst szolgl tezauruszokon, fordtkon,
sztrakon (pl. UMLS, UniGene) tl ide sorolhatk a relcik szintjn trtn egysges-
tsre vonatkoz trekvsek (pl. Gene Ontology). Egy jabb megkzelts a Connectivity
Map [7], ahol a kzs nyelv szerept a klnbz betegsgek, gygyszerek s egyb mole-
kulk hatsra bekvetkez gnexpresszis vltozsok tltik be; ezek korrelcijbl lehet
kvetkeztetni a heterogn entitsok kztt fennll kapcsolatra. A korszer technikk kz
tartoznak mg a grfos megkzeltsek (valsznsgi grfos modellek, pl. MAGIC [8]), a
formlis logikai ler nyelvek s sztochasztikus induktv logikai programozs, hasonlsg
alap fzi (kernel mdszerek, pl. Endeavour [9]), illetve a klnbz burkol krnyezetek
(pl. Bioclipse [10], Cytoscape [11], munkafolyamat-rendszerek), amelyek szmos egys-
ges reprezentcit s elemz algoritmust biztostanak, rendszerint kibvthet, modulris
(plugin) felptssel.

GSEA
2005. Submarinan
IPA WebGestalt
2003. Ingenuity 2005. Zhang STRING
Galaxy 2007. Bork
2005. Giardine
Kepler Taverna
Biomart Bioconductor 2006. Oinn
2001. 2004. Altintas, Gentleman
Bioclipse
Watson
2007. Spjut
TAMBIS Cytoscape 2011. IBM
2000. Stevens 2004. Smoot OBO Foundry
2007. Smith
Gene Ontology Connectivity Map
2000. Ashburner 2006. Lamb
Kernel fzi ProDiGe
UMLS 2004. Lanckriet
Hasonlsgi fzi 2011. Mordelet
1986 Endeavour
2000. Willett
2007. De Bie
Sorrendi fzi Korai-ksi fzi Sorrendi statisztika
1997. Willett 2002. Pavlidis 2006. Aerts
Bayesi tudsfzi MAGIC
1995-... 2003. Altman
1995 2000 2005 2010

16.2. bra. A tudsfzis technikk idbeli alakulsa. Kk sznnel jelltk az adatfzis,
pirossal a szemantikai integrcis rendszereket, zlddel a programozsi, lilval a workflow
krnyezeteket, srgval az adatbnysz, vilgoskkkel az tvonal-elemz eszkzket. A
rendszerek lersa s tovbbi informci elrhet a hivatkozott irodalomban [2].
16.3. Az adatfzi mdszereinek felosztsa

Az j paradigmk egyik kzponti krdsv a heterogn adatok fzija vlt. Az adatfzis
eljrsokkal kapcsolatban jogos elvrsknt fogalmazdhatnak meg az albbiak:
az eltr aspektusok figyelembevtelvel javuljon az eredmnyek minsge

legyen lehetsg szakrti tuds integrlsra
legyen automatizlt
legyen knnyen hasznlhat, felhasznlbart
legyen hasznlhat klnbz formtum adatok esetn (pl. nem-vektorilis adatok)
rendelkezzen stabil matematikai alapokkal
legyen hatkonyan szmthat
jl sklzdjon az adatforrsok szmval s mretvel

kezelje a hinyos adatokat, legyen zajtr
A klnbz technikk hagyomnyosan hrom csoportba sorolhatk (16.3. bra) [12]:
Korai/alacsony szint fzi
Kztes/kzpszint fzi
Ksi/magas szint fzi
1.) Adatgyjts 2.) Fzi 3.) Tanuls 4.) Predikci

Korai
G1
G2
G3
VSI
G4 Tetszleges
GGGG GGGG GGGG GGGG
Expressz 1234 1234 1234 1234
Gn1 G1 G1 Kernel fzi
Gn2
Gn3
Gn4
G2
G3
G4
+ + = G2
G3
G4
SVM, GP, CCA,
Kernel kNN, ...
Kztes
tvonal G1: y1
Gn1 p(G4|G3)
Gn2 G2: y2
Gn3
Gn4
Bayes-hl G3: y3
p(G3|G1,G2) Bayesian inference,
Szekvencia Network integration, G4: y4
Gn1
Gn2 Label propagation, ...
Gn3
Gn4 p(G1) p(G2|G1)
G1: y1 G1: y1 G1: y1

Predikcik
Ksi
G2: y2 G2: y2 G2: y2

Ensemble mdszerek,
G3: y3 G3: y3 G3: y3 Sorrendi fzi,
G4: y4 G4: y4 G4: y4 Sorrendi statisztika, ...
16.3. bra. Fzis megkzeltsek. A korai megkzelts az a priori tuds adatszint

integrcija utn elemez, mg a kztes lnyege az adatok egy tmeneti reprezentcija pl.
kernelek (hasonlsgi mtrixok) vagy valsznsgi grfos modellek (PGM) formjban.
A ksi mdszer a forrsokon kln-kln vgzett elemzsnek eredmnyeit kombinlja.
A tanuls sorn hasznlhat fontosabb algoritmusokat is feltntettk.
16.3.1. Korai fzi

A korai fzi (mskppen: adatintegrci) lnyege az entitsokhoz tartoz klnbz le-
rsok adatszint kombinlsa. Ennek legegyszerbb s leggyakrabban hasznlt mdszere
az adatok konkatenlsa (VSI, vektortr-integrci), majd az gy kombinlt adatokon az
elemz algoritmus futtatsa. Egyszersge mellett elnye, hogy hatkonyan szmthat
(az elemzst csak egyszer kell futtatni), illetve az algoritmus megkap minden informcit
minden forrsbl, azaz az entitsok lersai kztt fennll korrelcikbl kzvetlenl, a
forrsoktl fggetlenl profitl. Htrnyai kz tartozik a tbbi megkzeltshez kpest
a viszonylagos rugalmatlansg, a reprezentci nehzsgei pl. nem-vektorilis adatoknl,
valamint a trgyterletre vonatkoz a priori tuds (httrtuds) bevitelnek problmi.

16.3.2. Kztes fzi

A kztes mdszer az adatok egy kztes reprezentcija alapjn fuzionl. A kt legelterjed-
tebb technika a kernel mdszerek csaldja (pl. szupportvektor-gpek, Gauss-folyamatok)
s a grf alap megkzeltsek (kiemelten a valsznsgi grfos mdszerek). Elbbinl az
tmeneti reprezentci az entitsok pronknti hasonlsgait tartalmaz mtrixok (ker-
nelek), utbbinl leggyakrabban a Bayes-hl. A kztes megkzelts tvzi a korai fzi
hatkonysgt a ksi fzi rugalmassgval, gy a gyakorlatban rendkvl elterjedtt vlt.
A kernel technikk stabil matematikai alapokkal brnak, brmilyen formtum ada-
toknl hasznlhatk (amennyiben tudunk hasonlsgokat szrmaztatni az entitsok k-
ztt), rendkvl hatkonyan szmthatk, a hasonlsgmrtkek szabad megvlaszts-
val s specilis kernelek tervezsvel rszben lehetsg nylik a priori tuds integrls-
ra is; ugyanakkor gyakran nehzkes a hasznlhat algoritmusok s a kernelek megfelel
paramterezsnek megtallsa. A Bayes-hlkban a httrtuds a priori modellek fe-
letti valsznsgi eloszlsokban troldik, amelyeket az adatokkal a posteriori eloszlsok
konstrulsra hasznlnak fel, gy vgeredmnyknt knnyen rtelmezhet valsznsgi
lltsokat kapunk. Elnye tovbb a bizonytalansg s a hinyos adatok kezelse, viszont
nehz az a priori ismeretek lefordtsa a valsznsgek nyelvre, valamint htrnya a
nagy szmtsigny.
16.3.3. Ksi fzi

A ksi fzi (mskppen: dnts-szint fzi) sorn az elemz algoritmust minden adat-
forrsra kln-kln futtatjk, s az gy nyert eredmnyeket kombinljk. Egyik legna-
gyobb elnye a nagyfok rugalmassg: gyakorlatilag brmilyen jelleg adat kombinlha-
t, s lehetsg van forrsonknt eltr elemz algoritmusok hasznlatra is; ezek kzl a
problmnak leginkbb megfelelk kivlasztsa egyben a szakrti tuds bevitelnek egyik
lehetsge is. Mivel a kimenetek mr rendszerint azonos formtumak, a fzi knnyen
elvgezhet. Htrnyknt emlthet a nagy szmtsigny (forrsonknti elemzs, majd az
eredmnyek kombinlsa), illetve a dntsi szinten megjelen jelents dimenzi-redukci:
a fzinl maguk az adatok mr nem ltszanak, csak az elemzsek kimenetei. Emiatt a
ksi mdszer kevsb rzkeny az adatok kzti korrelcikra, mint a korai.
Az egyszerbb mdszerek kzt tartjk szmon a kimenetek algebrai kombincijt (pl.
sszegzs, slyozott tlag, medin stb.), mg a kifinomultabb technikk kz tartoznak az
ensemble-mdszerek (Mixture of Experts, bagging, boosting, stacking), illetve a sorrendi
fzi klnbz formi (sorrendi statisztika, Borda ranking, parallel selection, Pareto-
ranking stb.). Szmos sorrendi fzis mdszer lersa s teljestmnyk sszehasonltsa
megtallhat Svensson kzlemnyben [13].
Sum rank: adott entits sszes sorrendezsben elrt pozciit sszeadjuk, a vgs
sorrend az gy nyert pozcik alapjn alakul.
Sum score: adott entits sszes sorrendezsben elrt pontszmait elosztjuk az adott

sorrendben megtallhat legmagasabb pontszmmal, majd az gy nyert rtkeket

sszeadjuk. A vgs sorrend ezen relatv pontszmok alapjn alakul.
Pareto ranking: adott entits vgs sorrendben elfoglalt pozcija attl fgg, hogy
hny entits r el nla magasabb rangot a sorrendekben. A dntetlenek a sum rank
mdszerrel dlnek el.
Rank vote: minden sorrend szavaz az els n elemre, az entitsok vgs sorrendje
a kapott szavazatok alapjn alakul. A dntetlenek a sum score mdszerrel dlnek
el.
Parallel selection: minden sorrendbl prhuzamosan kivlasztjuk a legjobb enti-

tst. Ha olyan jnne, amely egy msik sorrendbl mr bekerlt, akkor helyette a
kvetkezt vlasztjuk, majd ismteljk az eljrst.
16.4. Hasonlsg alap adatfzi

Az entitsok pronknt s forrsonknt vett hasonlsgain alapul fzi elsknt a gnexp-
resszis adatok klaszterezsnl jelent meg a 2000-es vek elejn, azonban csak Lanckriet
meghatroz 2004-es kzlemnye utn terjedt el szles krben [14]. Itt a fzi sorn a
hasonlsgi mtrixok (kernelek) slyozott sszegt hasznltk, a tanulsi fzist pedig n.
szupportvektor-gppel (SVM) vgeztk (ami egyben a forrsok optimlis slyozst is
megtallta). Az SVM fontosabb elnyei az automatikus slyozs mellett a gyorsasg, a je-
lenleg egyik legjobbnak tartott ltalnost kpessg s pontossg, valamint a j sklzds
nagy mret adatokra is.
Minden szimmetrikus pozitv szemidefinit hasonlsgi mtrix (kernel) meghatroz egy

Hilbert-teret, amelyet Reproducing Kernel Hilbert-trnek (RKHS) neveznk. Legyen
adott k : Rl Rl R kernelfggvny (hasonlsgmrtk), ahol pldul
2
k(xi , xj ) = e kxi xj k ,
a kernelmtrix ezeket az rtkeket tartalmazza. Ehhez ltezik a H Hilbert-tr, ahol
k(xi , xj ) = h(xi ), (xj )iH ,
ahol () vgzi az adatok vettst a RKHS-be, az SVM pedig ebben a trben vgzi a tanu-
lst. A fenti pldban definilt k fggvnyt nevezzk Gauss-fle radilis bzisfggvnynek
(RBF). Megmutathat, hogy az ehhez tartoz tr pldul vgtelen dimenzis.
Tbb informciforrs integrlsra nyjt lehetsget a kernelfzi (Multiple Kernel

Learning), amely kezdetben a mtrixok egyszer sszegt, vagy slyozott tlagt vette ala-
pul [12, 14]. Itt lehet kihasznlni a tnyt, hogy a forrsok optimlis slyozsa megkaphat,
ha a slytnyezket sikerl bepteni az optimalizcis feladatba, amire tbb formalizci

B3 B2
B1 I
G1
G2
G3
B10
K1
<1
B
B20
G01
G02 B30
G03
H1
16.4. bra. A kernelslyozsi technika szemlltetse. Az adatokat a bemeneti trbl a H1

trbe transzformljuk, ahol az SVM a tanulst vgzi. A B-vel jellt, valjban egymshoz
kevss hasonl entitsok nagy trrszt fesztenek ki, gy ehhez az informciforrshoz
alacsony slyt rendelnk. Ha lekrdezsknt G-t adjuk meg, a kifesztett trrsz kisebb,
azaz az informciforrs jl jellemzi a lekrdezst (s gy magasabb slyt kap).
is szletett. Ugyancsak ezen a ponton jelent meg a slyok regularizcijnak krdse, ahol
az n. L2-normalizci vlt be a sparse (p < 2) mdszerekkel szemben [15].
A kernelslyok optimalizcis feladatba val integrlsra szmos megkzelts sz-

letett [16, 17, 18]. Egy 2010. vgi formalizcival a problma differencilhat dul cl-
fggvnyre vezethet, amely lehetv teszi a hagyomnyos SVM-nl igen jl bevlt SMO
algoritmus alkalmazst [19]. Ha a tanulsi fzisban n. egyosztlyos SVM-et alkalma-
zunk, a priml problma gy rhat:
! p2
1 X wk T wk 1 X X
min + i + dpk
w,b,,d, 2 k dk l i 2 k
X
s.t. wk T k (xi ) i
k
0, d > 0, i = 1, 2, ..., l,

ahol szablyozza a dk kernelslyokra vonatkoz Lp regularizcit. A dul:

! 2q
1 X q
max D() = T Kk
8 k
1 1
s.t. 0 1, 1T = l, + = 1.
p q
Ha az eszkzt prioritizlsra akarjuk hasznlni, az origtl szmtott, hiperskra merleges
tvolsgot megkaphatjuk a
P P
i i dk Kk (xi , x)
f (x) = pP k
T
k dk Kk
formulval, ahol a nevez a normalizcit szolglja, a konstans tagot pedig elhagyjuk.
Lttuk, hogy a kernelfzis keretrendszer is alkalmas sorrendezsek elvgzsre. Erre

mutat pldt a Leuveni Katolikus Egyetemen kifejlesztett Endeavour rendszer [9], vagy
az ennek tovbbfejlesztett vltozata, a ProDiGe [20]. E megkzelts tbb tekintetben
meghaladja a hagyomnyos, globlis hasonlsgokra tmaszkod technikkat. A forrsok
automatikus slyozsval a mdszer kontextusfggv vlik, azaz a fzit a lekrdezs
informcitartalmra is tmaszkodva vgzi el. Tovbbi elnyt jelent, hogy gy a lekr-
dezs elemeinek akr ismeretlen sszetartozsra is fny derlhet: ha pldul tudtunkon
kvl azonos biolgiai tvonalon fekv gneket adunk meg lekrdezsknt, s van tvonal
alap informciforrsunk, az magas slyt fog kapni. Az egyosztlyos SVM msik kedve-
z tulajdonsga s egyben hagyomnyos alkalmazsi terlete az n. outlier detekci: ha
kiugr elemeket tartalmaz, inhomogn lekrdezst adunk meg, az algoritmus ezt detek-
tlja. Htrny, hogy ekkor egyttal a sorrend is rtelmetlenn vlhat, szlssges esetben
a lekrdezs akr az utols helyekre is szorulhat. Tovbbi htrny a mdszer viszonylagos
rzkenysge a zajos kernelekre, gy az informciforrsok helyes megvlasztsa kritikus
fontossg.

Irodalomjegyzk
[1] R. Carlson, The pace and proliferation of biological technologies. Biosecur Bioterror,
1:203214, 2003.
[2] J. Synnergren, B. Olsson, and J. Gamalielsson, Classification of information fusion
methods in systems biology. In Silico Biol. (Gedrukt), 9:6576, 2009.
[3] d. a. W. Huang, B. T. Sherman, Q. Tan, J. Kir, D. Liu, D. Bryant, Y. Guo, R.
Stephens, M. W. Baseler, H. C. Lane, and R. A. Lempicki, DAVID Bioinformatics
Resources: expanded annotation database and novel algorithms to better extract
biology from large gene lists. Nucleic Acids Res., 35:W169175, July 2007.
[4] B.Zhang, S. Kirov, and J. Snoddy, WebGestalt: an integrated system for exploring
gene sets in various biological contexts. Nucleic Acids Res., 33:W741748, July 2005.
[5] C. von Mering, L. J. Jensen, M. Kuhn, S. Chaffron, T. Doerks, B. Kruger, B. Snel,
and P. Bork, STRING 7 recent developments in the integration and prediction of
protein interactions. Nucleic Acids Res., 35:D358362, Jan. 2007.
[6] P. G. Baker, A. Brass, S. Bechhofer, C. Goble, N. Paton, and R. Stevens, TAMBIS:
Transparent Access to Multiple Bioinformatics Information Sources. An Overview. In:
Proceedings of the Sixth International Conference on Intelligent Systems for Molecular
Biology (ISMB98), pages 2534, Menlow Park, California, June 28July 1 1998.
AAAI Press.
[7] J. Lamb, E. D. Crawford, D. Peck, J. W. Modell, I. C. Blat, M. J. Wrobel, J. Lerner,
J. P. Brunet, A. Subramanian, K. N. Ross, M. Reich, H. Hieronymus, G. Wei, S. A.
Armstrong, S. J. Haggarty, P. A. Clemons, R. Wei, S. A. Carr, E. S. Lander, and T.
R. Golub, The Connectivity Map: using gene-expression signatures to connect small
molecules, genes and disease. Science, 313(5795):19291935, Sep. 2006.
[8] O. G. Troyanskaya, K. Dolinski, A. B. Owen, R. B. Altman, and D. Botstein, A
Bayesian framework for combining heterogeneous data sources for gene function pre-
diction (in Saccharomyces cerevisiae). Proc. Natl. Acad. Sci. U.S.A., 100:83488353,
July 2003.
[9] T. De Bie, L. C. Tranchevent, L. M. van Oeffelen, and Y. Moreau, Kernel-based data
fusion for gene prioritization. Bioinformatics, 23:i125132, July 2007.

[10] O. Spjuth, T. Helmus, E. L. Willighagen, S. Kuhn, M. Eklund, J. Wagener, P. Murray-

Rust, C. Steinbeck, and J. E. Wikberg, Bioclipse: an open source workbench for
chemo- and bioinformatics. BMC Bioinformatics, 8:59, 2007.
[11] M. E. Smoot, K. Ono, J. Ruscheinski, P. L. Wang, and T. Ideker, Cytoscape 2.8: new
features for data integration and network visualization. Bioinformatics, 27:431432,
Feb. 2011.
[12] P. Pavlidis, J. Weston, J. Cai, and W. S. Noble, Learning gene functional classifica-
tions from multiple data types. J. Comput. Biol., 9:401411, 2002.
[13] F. Svensson, A. Karlen, and C. Skold, Virtual screening data fusion using both
structure- and ligand-based methods. J Chem Inf Model, 52(1):225232, Jan. 2012.
[14] G. R. G. Lanckriet, M. Deng, N. Cristianini, M. I. Jordan, and W. S. Noble, Kernel-

based data fusion and its application to protein function prediction in yeast. In:
Proceedings of the Pacific Symposium on Biocomputing, 2004.
[15] S. Yu, T. Falck, A. Daemen, L. C. Tranchevent, J. A. Suykens, B. De Moor, and

Y. Moreau, L2-norm multiple kernel learning and its application to biomedical data
fusion. BMC Bioinformatics, 11:309, 2010.
[16] Alain Rakotomamonjy, Francis R. Bach, Stephane Canu, and Yves Grandvalet, Simp-
leMKL. Journal of Machine Learning Research, 9:24912521, November 2008.
[17] Marius Kloft, Ulf Brefeld, Soeren Sonnenburg, Pavel Laskov, Klaus-Robert Mller,
and Alexander Zien, Efficient and Accurate Lp-Norm Multiple Kernel Learning. In:
Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors,
Advances in Neural Information Processing Systems 22, pages 9971005, 2009.
[18] Francis R. Bach, Gert R. G. Lanckriet, and Michael I. Jordan, Multiple kernel lear-
ning, conic duality, and the SMO algorithm. In: Proceedings of the twenty-first inter-
national conference on Machine learning, ICML 04, pages 6, ACM, New York, NY,
USA, 2004.
[19] S. V. N. Vishwanathan, Z. Sun, N. Theera-Ampornpunt, and M. Varma, Multip-

le Kernel Learning and the SMO Algorithm. In: Advances in Neural Information
Processing Systems, December 2010.
[20] F. Mordelet and J. P. Vert, ProDiGe: Prioritization Of Disease Genes with multitask
machine learning from positive and unlabeled examples. BMC Bioinformatics, 12:389,
2011.

17. fejezet
A Bayes-i enciklopdia
Ebben a fejezetben ttekintjk az orvosbiolgiai adatok, tudomnyos eredmnyek s sz-

mtsi modellek egysges reprezentlsnak trendjeit s lehetsgeit. Elsknt ttekintjk
az adatok, a szakirodalom s szmtsi modellek gyors bvlst, amelyet az adatok gyors
felhalmozdsa indtott el. Az adatok hatkony, nyilvnos megosztsa rdekben ontolgi-
k s annotlt adattrhzak jttek ltre, a szakcikkek adatbzisaihoz hasonlan, azonban a
kett kztt csak minimlis kapcsolat jtt ltre, alapveten a termszetes nyelv kzlemny
egszhez kapcsolt nyilvnosan elrhet adathalmaz formjban. A genetikai asszocici-
s kutatsok kapcsn bemutatjuk a htrnyait ennek a jelenlegi publikcis gyakorlatnak,
amelynek tnetei (1) a tves, statisztikailag megalapozatlan lltsok magas arnya, (2)
a ksrletek megismtelhetetlensge, (3) a statisztikailag gyenge eredmnyek publiklha-
tatlansga s ezrt teljes elvesztse, illetve (4) a gyorsan elavul, nknyes hatrvonal,
szakrtk ltal konstrult tudsbzisok. gretes megoldsknt ttekintjk a szemantikus
publikls helyzett, az adatelemzsi tudsbzisokat, illetve a dekomponlt modellek s mo-
dellknyvtrak trendjeit s a modell alap szmtsok fejldsi irnyait. Vgezetl bemu-
tatjuk az adatokat, adatelemzsi eredmnyeket s modellrszeket egysgesen kezel val-
sznsgi adatbzisokat s a Bayes-logikai megkzeltst, amelyek az egysges valsznsgi
reprezentcin tl egysges kvetkeztetsre is lehetsget adnak.
17.1. Bevezet
Az emberisg tudsanyagnak megosztsban az informcitechnolgiai fejlds alapve-
t vltozsokat idzett el: jelentsen leegyszersdtt s felgyorsult a tuds kzzttele.
Ennek kvetkezmnyeknt vente kb. egymilli tudomnyos kzlemny jelenik meg csak
orvosbiolgiai tmakrkben, de ez egy szkebb terleten is ezres nagysgrendet jelent.
Ekkora szmossg cikk kvetse meghaladja az emberi kognci hatrait, pedig a hetero-
gn ismeretek integrlsa, jelentsgnek felismerse a tudomnyos halads egyik zloga.
A hatkony informcielrst lehetv tev szemantikus technolgik mr korbban meg-
jelentek, azonban felhasznlsuk szmos megoldatlan problma miatt csak korltozottan
jellemz. A szemantikus web s szemantikus technolgik az internet gyors elterjedsvel

17. A Bayes-i enciklopdia 228
az ezredforduln nagy elvrsokkal szembesltek, amelyek rszben nagymret, szabadsz-

veges, kzssgi szerkeszts, informlis adat- s tudsbzisok rvn, rszben a kdrend-
szerek, taxonmik s ontolgik fejldsvel teljesltek. Ez utbbiak klnsen gyors
fejldsen mentek t az orvosbiolgiban, a kmiai szinttl a molekulris biolgiai szinten
t a sejtfolyamatok lersig. Az ontolgik megjelense sokrten forradalmastotta az
orvosbiolgiai kutatsokat, az egysges annotci mellett lehetv tette j statisztikai el-
jrsok megjelenst. Azonban a szabadszvegekbl automatikusan kivonatol eszkzk
teljestmnye az entits felismersen tl a relcik azonostsban mr nehezen fokozhat
a termszetes nyelv gazdagsga miatt. A posztgenomikai korszak egyre gyarapod, kli-
nikai validitssal is rendelkez genetikai asszocicis s farmakogenomikai eredmnyeinek
halmozdsa egyre inkbb eltrbe helyezi a szvegbnyszati mdszerekkel s szakrtk
segtsgvel kltsgesen kialaktott tudsbzisok felvltst vagy kiegsztst a szerzk l-
tal ltrehozott strukturlt digitlis kivonatokkal s szemantikus kzlemnyek egy rtegvel.
Ezt a lehetsget erstik a terleten megjelen szabvnyok, amelyek a mrs folyamat-
nak, eredmnyeinek s a ltrehozott prediktv modelleknek a kzlst is szablyoznk.
A tudomnyos eredmnyek, az azokat altmaszt empirikus adatok s az azok szr-
maztatst ler szmtsi modellek egyttes lersa szinte az rsbelisggel egyids en-
ciklopdista hagyomnyokig visszavezethet. Ennek modern kori httere a pozitivizmus,
majd a Bcsi Kr gondolatvilga, illetve a logikai pozitivizmus, valamint H.G. Wells World
Brain vzija s E. Garfield Informatorium elkpzelse is [17, 18]. Napjainkban ennek
az irnyzatnak az tfog kpviselje a Wikipedia, amely emberi felhasznlsra sznt, br
szemantikus technolgikkal kiegsztett verzii egyes szakterletekre elrhetek [5]. Az
egysges reprezentls elzmnynek tekinthet a Cyc projekt, br annak eredeti 1990-es
vekbeli clja a htkznapi tuds (a jzan sz, common sense) reprezentlsa volt [28].
Az egysges lers, a kztes nyelv megteremtse szempontjbl pedig meghatroz je-
lentsg volt az ontolgik fejldse, mint pldul orvosbiolgiban a Unified Medical
Language Systems (UMLS) vagy a Gene Ontology (GO) [32, 8]. Az egysges lers gondo-
lata megjelenik a 4. tudomnyos kutatsi paradigma s az e-science meghatrozsban
is [1, 23, 22].
Az egysges reprezentci elrshez szmos megoldsra vr problmra kell meg-
oldst tallni, amelyek az egyes alterleteken bell, illetve azokon tvel mdon is jelen
vannak. Egy ltalnos kihvs a minden terleten jelenlv bizonytalansg. A bizonytalan-
sg kezelsre a valsznsgszmts ltalnos keretrendszert knl, amelynek szubjektv
rtelmezse a tudsintegrcira egy koherens, st normatv rendszert knl (szrmazta-
tst a Valsznsgi dntstmogats cm jegyzetben trgyaljuk). Ennek megoldsra
informatikai oldalrl tbb szinten is j elmleti eredmnyek, szabvnyok s rendszerek is
jelentek meg, mint pldul a valsznsgi adatbzisok s valsznsgi logikk terletn.
Az adatelemzs kapcsn megoldatlan feladat a tbblpses, megerst mrseket is
tartalmaz vagy jelents utfeldolgozst ignyl molekulris biolgiai mrsek reprezen-
tlsa, mint az j genercis genetikai szekvenlsi adatok (next-generation sequencing,
NGS) vagy ramlsi citomter (Fluorescence-activated cell sorting, FACS) adatok esetn.
Megoldatlan a rszletes fenotpus-informcik szabvnyos lersa, klns tekintettel
a mindennapi letben keletkez nagy adattmegekre, amelyek az elektronikus kommu-

nikci klnbz formibl, a hordhat elektronikus eszkzkbl, az intelligens otthon

eszkzeibl szrmaznak.
Az adatelemzs eredmnyeinek kzlse, reprezentlsa is megoldatlan, klnsen a
tbbvltozs, kontextulis, bizonytalan informcik reprezentlsa. Ez mr a tudomnyos
eredmnyek kzlsnek problematikjaknt is felfoghat a kapcsold rtelmezsek miatt.
A szemantikus publikls terletn ltalban hinyoznak a szemantikus publikls-
hoz szksges, szles krben elfogadott fogalmi rendszerek (ontolgik), a dokumentu-
mok szabvnyostott felptse sem alakult ki, s a szksges szerkeszt eszkzk sem
terjedtek el szles krben. Nevezetesen, megoldatlan problmk a kvetkezek: 1) egy
adott trgyterlet heterogn ontolgiinak, szabvnyainak konzisztens egyttes hasznla-
ta, 2) a szabadszveges publikcikhoz s empirikus eredmnyekhez val kapcsolat, 3) a
tudomnyos informcikzlsbe val beilleszkeds, 4) informlis s formlis kvetkeztet-
sekben val felhasznls, 5) szmtsi szempontbl hatkony kvetkeztets. Klnsen
fontos krds volna a genomikai szabvnyok rvnyestse a mrs folyamatnak, a m-
rs eredmnyeibl szrmaztatott genomikai asszociciknak s prediktv modelleknek a
lersban. Megoldatlan krds a szemantikus publikls kapcsoldsa a ma elterjedt sz-
vegbnyszati mdszerekhez. Elmleti s gyakorlati oldalrl kzponti krds a bizonytalan
tuds reprezentcija, aminek rsze az emltett statisztikai adatelemzsi eredmnyeknek a
szemantikus publiklsa. Az informcikzls folyamatban tisztzsra vr a szerzk seg-
tsnek mdja, a kiadk egysges szabvnyostsa, amely az alkalmazott webtechnolgik
szabvnyostst is jelenti. A szemlyre szabott medicina, de klnsen a rkbetegsgek
terletn kulcskrds volna az alapkutatsi s a klinikai hasznossggal br eredmnyek
gyors s megbzhat megjelense a klinikai gyakorlatban. A szemantikus publikls rvn
potencilisan ltrejv, adatelemzsi eredmnyeket integrl, valsznsgi tudsbzis akr
egy szkebb trgyterlet kapcsn is kzlemnyek tzezreit tartalmazhatja. Az ebben val
logikai kvetkeztets sikere azonban alapvet mdon fgg a szmtsi hatkonysgtl.
Megoldatlan krds a szakrti, kzi sszellts tudsbzisok egyttes hasznlata,
elsdlegesen emberi felhasznlsra sznt kapcsoldson tli betagozodsuk egy egysges
tudsbzisba, hatkony fenntartsuk, hatraik, megbzhatsguk explicit reprezentlsa.
nmagban is megoldatlan problma az adatelemzshez val rszletes kapcsolat repre-
zentlsa, a szvegbnyszati eszkzk hatkony hasznlata, klnsen a fentebb emltett
kontextulis, bizonytalan, tbbvltozs eredmnyek kivonatolsa. Ezen eredmnyeknl a
fenntarts s aktualizls klnsen fontos, mivel ltalnossgban minl bizonytalabb s
komplexebb egy tudselem, annl kzimunka ignyesebb, s aktualitsa, fennllsa is annl
gyorsabban vltozhat. A szakrti tudsbzisok egysges rendszerben val felhasznlst
tovbb nehezti gyakori kereskedelmi voltuk, illetve szabadalmi vdettsgk is.
Vgezetl a modellek s szmtsi eljrsok dokumentlsa, az adat s eredmnyek
kzti tvonal formlis reprezentlsa is megemltend mint jelenleg megoldatlan feladat.
Egyrszt a modellek, modulris modellrszek reprezentlsa megoldatlan, msrszt kom-
binlsuk, transzformlsuk s felhasznlsuk mdjnak lersa, azaz a felparamterez-
sk standardizlt lersa is megoldatlan, ami a repliklhatsg miatt kap egyre nagyobb
hanglyt az adat utfeldolgozsa s elemzse hatrvonaln (pldul az j genercis szek-
venlsi adatok utfeldolgozsa s elemzse kapcsn).

Az idealizlt egysges tudsbzis rszeit s az egszkben lv fbb kapcsolatokat

egy Bayes-i enciklopdia keretben a 17.1. bra mutatja.
Modellek s szmtsok
Tudomnyos kzlsek Magyarzat

Dokumentci Szimullt
adat
Model fragments
Tudsdarabkk
Szemantikus Modellek
publikls Ontolgik Objektum-orientlt Felhasznlsi
Kontrolllt kd pldk
nyelvek Taxonmik Eljrsok,
algoritmusok
Annotlt szveg
Szaksztrak
Szabadszveg
Adatelemzsi
tudsdarabkk
Adat
Szimullt adat
Adatelemzsi
Lehorgonyzs profilok
Utfeldolgozott
adatok
Nyers adatok
Adatok
17.1. bra. Egy Bayes-i enciklopdia sszetevi s kerete
Egy adat, tuds, szmtsi modellek egysgn alapul tudsbzis mg egy szk szakte-
rleten, mint pldul a genetikai asszocicis terleten bell akr csak egyetlen (tvonal)
betegsghez kapcsold farmakogenomikai szakterleten bell is nagy kihvs a klinikai
felhasznls miatt. Ekkor a diagnosztikai mrsek, a lelet ellltsa, a lelet rtelmezse
s a terpis dntsek is mind kapcsoldnak egy ilyen tudsbzishoz. Fontos megjegyezni,
hogy ezen komplex, egysges tudsbzisok clja nem a betegek kzvetlen tjkoztatsa
leegyszerst vagy szakorvoshoz orientl mdon. Hasonlan, a legtfogbb tudsbzis
ltrehozsa sem ptolja a felhasznlsra vonatkoz szakrt tudst, s ezen tudsbzisok
nem a kreativits s emberi, klinikai relevancia felismersnek kivltst, hanem ppen
annak kiegsztst szolglhatjk.

17.2. Az adat, tuds, szmts hrmasnak modern kori

megjelensei
Az 1990-es vektl indul, majd egyre gyorsul temben halmozd orvosbiolgiai nagy
adattmegek egyedi helyzetet teremtettek a tudsgazdag, autonm szintekkel rendelkez
orvosbiolgiban. A nagy adattmegek korbbi megjelense a nukleris fizikai vagy r-
kutatsi terleteken a redukcionista megkzelts szolglatban trtnt, mgha azok akr
a jelenleg kt vgpontnak tekinthet elmlethez is igazodtak, mint a rszecskefizika vagy
ppen a gravitcis kutatsok. Az orvosbiolgiban ezzel szemben a nagy adattmegek
jabb s jabb autonm, gyengn kapcsolt szinteknek a megjelenst is elsegtettk, mint
pldul a genetikai varinsok, epigenetika, mikro-RNS-k szintje vagy a mikrobiome. gy
a nagy adattmegek egyelre inkbb ler jelleggel egyre nagyobb mennyisg tudsele-
met generlnak a szintek szablyozsi, szmtsi modelljeivel egytt, mintsem ltalnos,
tbb szint jelensgeit prediktl elmletet eredmnyeztek volna a redukcionista megk-
zelts szerint. Az egyes alterleteken halmozd adat, tuds s szmtsi modellek gy
komoly kihvst jelentenek s vrhatan nem egy ml tranzienst, ami nmikppen eltr a
4. paradigmnak nevezett adatvezrelt kutatsi paradigmtl s kzelebb esik az e-science
kiberfizikai vilgkphez [27]. Hasonl helyzet vrhat a most indul agykutatsi progra-
mok terletn is, amelyen bell az ioncsatorna-modellezstl a sejtmodelleken t a klinikai
kpalkotsig vrhatan szintek s megkzeltsek sokasga fogja az adat, tuds s szmtsi
modellek hrmasait ltrehozni.
17.2. bra. Az adat, tuds s szmtsi modellek hrmasainak ptkocki

17.3. Az adat, tuds, szmts hrmasa a genetikai asszo-

cicis kutatsokban
Az adat, tuds, szmtsi modellek hrmasval kapcsolatos trendek ttekintshez elsknt
is tekintsk t a jelenlegi gyakorlat fbb vonsait Az 1990-tl egyre gyarapod orvosbiol-
giai nagy adattmegek els hullma a fajszint genetikai szekvencia-adatokat s fehrjkre
vonatkoz strukturlis adatokat tartalmazott. Az ezredfordultl kiteljesed sejtszint ki-
fejezdsi adatok, mint a gnkifejezdsi, proteomikai, metabolomikai adatok mr egyed-,
betegsg- s szvetspecifikusak voltak, hasonlan a genetikai varicikra vonatkoz adatok-
hoz. Az orvosbiolgiban megjelen nagy adattmegek harmadik hullma az egyedszint
fenotpus- s krnyezeti adatok, mint pldul a klinikai adatok, a mindennapi kommu-
nikcis adatok s a viselhet elektronikai eszkzkbl, egszsgmonitoroz eszkzkbl
szrmaz adatok. Az adatok megosztsnak ignye nmagban is, de a tudomnyos kz-
lsek rendszernek talakulsa miatt is fontos szempont volt a megismtelhetsg, eltr
elemzs s metaelemzs miatt is. Ennek eredmnyekppen jelentek meg a Microarray
Gene Expression Data (MGED) standard s a Minimum Information About a Microar-
ray Experiment (MIAME) standard, illetve olyan adatbzisok, mint a Gene Expression
Omnibus (GEO) [13, 12]. A ksbb indul genetikai varick feltrkpezsvel analg m-
don jelent meg a Minimum Information about a Genotyping Experiment (MIGEN) [24]
s olyan adatbzisok, mint pldul a European Genotyping Archive, amely fknt teljes
genomszlessg adatok trolsra jtt lttre (genome-wide association studies, GWASs).
Prhuzamosan az adattrolsi szabvnyok kialakulsval az adatok tudselemekkel tr-
tn sszekapcsolnak legelemibb formjt, az annotcikat is trekedtek szabvnyosta-
ni, amire plda a Gene Ontology (GO) s a Unified Medical Language System (UMLS)
megjelense, br az utbbi inkbb klnbz minsg ontologik s szaksztrak egyt-
tese csupn. Az orvosbiolgiai s kmiai publikci trolsra tfog megoldst knltak
a PubMed s MedChem adatbzisok, amelyek kulcsszavait a Medical Subject Headings
(MeSH) adja. A genetikai asszocicis ksrletek kivitelezsnek s kzlsnek az egysges
sznvonalnak a biztostsra ajnlsok sorozata szletett:
1. STREGA: STrengthening the REporting of Genetic Associations [29],
2. STROBE: STrengthening the Reporting of OBservational studies in Epidemiology [45],
3. STROBE-ME: STrengthening the Reporting of OBservational studies in Epidemio-

logy: Molecular Epidemiology [16],
4. GRIPS: Strengthening the reporting of genetic risk prediction studies: the GRIPS
statement [25].
A szakcikkek mellett fknt llami tmogatssal nyilvnos, tfog tudsbzisok is lt-

rejttek, mint pldul az NCBI tudsbzisai, amelyeket fknt szakrti bngszsre szn-
tak. Strukturltabb s rszben kereskedelmi termkek sokasga is ltrejtt, mint pldul

17.1. tblzat. Adatbzisok
SNP database Availability

HuGe http://www.hugenavigator.net/
OMIM http://www.nslij-genetics.org/search_omim.html
S-SNPs http://pga.gs.washington.edu
HGVBaseG2P http://www.hgvbaseg2p.org/index
dbGAP http://www.ncbi.nlm.nih.gov/sites/entrez?db=gap
http://geneticassociationdb.nih.gov
LOVD http://www.lovd.nl/2.0/
PharmKB http://www.pharmgkb.org/
SNPedia http://www.snpedia.com/index.php/SNPedia
GAD, Genecards, GoDisease,
IPA, Ariadne, Alamut,
GODisease and Knome
az Online Inheritence In Man (OMIM), GeneCards, PharmGKB, IPA, Ariadne, Alamut,

GODisease s a Knome.
Br kvantitv modellek lersra jelentek meg ajnlsok, mint pldul a GRIPS ajnls
s a Predictive Model Markup Language (PMML), de tfog megoldsok nem jelentek mg
meg.
Mint lthat, a jelenlegi gyakorlatban az adatvilg s a tudsvilg integrlsa szakcik-
kek egsznek a szintjn, illetve szakrti rtelmezs tmogatsra trtnik. A szttagolt-
sg megrtsre rdemes ttekinteni a teljes kutati labortl a beteggyig folyamatot a
szemlyre szabott medicina keretben (lsd 17.3. bra).
A gpi feldolgozs szmra a szeparltsg kvetkezmnyei pldul az albbiak:
1. Ksrlettervezs. A szakirodalom s korbbi adatok integrlsnak nehzsge a gn-

s varinsprioritizl rendszerekbe.
2. Az adatgyjtsi protokoll ad hoc jelleggel hasznlt az adatelemzsi fzisban.
3. A szakirodalombl ad hoc mdszerekkel szrmaztathat a priori tuds az adatelem-

zs tmogatsra.
4. Az adatelemzsi eredmnyek rtelmezse az egyik legmeghatrozbb szk kereszt-

metszett vlt, mivel a szakirodalmi ismeretek nehezen integrlhatak.
5. Az elemzs sorn az egyes adatverzik, elemzsi verzik s rtelmezsek sokasga ad

hoc mdon kezelt.
6. A gyenge megersts statisztikai adatok nem publiklhatak, gy elvesznek.
7. Kvantitatv modellek, modellrszek nem kerlnek publiklsra.

Sztr alkotsa
Trgyterleti modellezs
Ontolgia alkotsa
Ksrlettervezs
Cikkgyjtemny integrlsa
A priorii modellek ltrehozsa
Logikai
Fggsi/Oksgi
Vltoz s mintamret vlaszts
Parametrikus
Httrtuds alap
Mrs s adatgyjts Minsgbiztosts
Parallel/interim/szekvencilis
Mrsi utfeldolgozs
Egyvltozs transzformcik
Normalizls, diszkretizls
Transzformci Dimenzicskkents
Adatmrnksg
Jegykivlaszts
Szrs s ptls Kilg mintk azonostsa

Ms adathalmazokkal kombinls
Mintabeoszts Tant/teszt feloszts

Mintaslyozs
jramintavtelezs
Adatelemzs
Permutcis
Mdszer s belltsok megvlasztsa
Konvergencia
Futtats
Konfidencia
rtelmezs Modelltlagols Szintatktikai

Szemantikai
Prior integrls
Alkalmazs
Dntstmogats teleptse, fenntartsa
17.3. bra. Az adat, tuds, modellek hrmasn tvel munkafolyamat a ksrlettervezstl

az adatelemzsen t a tudomnyos eredmnyek kzlsig, majd dntstmogatsig
8. Klinikai gyakorlatban a szakirodalom ad hoc mdon hasznlhat leletannotlsra s

dntsi modellek ajnlsnak magyarzatgenerlsra.
Lehetsges megoldsokat az albbiakban sszegznk. Az adatbzisok s a bibliomikai

adatbzisok kztti egyre halvnyul hatrt cikkek sorozatban trgyaltk [14, 20, 19, 38,
21, 39, 4, 41, 42].
17.4. Trendek az adatvilgban

Az adatok trolsa kapcsn akut problmt jelent a komplex adatfeldolgozsi lnc do-
kumentlsa, a gazdag fenotpusos adatok standardizlsa, illetve a mestersges adatok
generlsnak s trolsnak a helyes egyenslya.

17.4.1. j genercis szekvenlsi adatok feldolgozsnak doku-

mentlsa
A modern j genercis szekvenlsi (NGS) mrstechnikk egy faj genomjnak a klt-
sghatkony s gyors meghatrozsn tl mr felhasznlhatak akr egy egyeden belli
sejtpopulci genomjainak az tfog vizsglatra, mint pldul egy daganat vagy az im-
munrendszer esetben, felhasznlhatak egy koszisztma genomilis vizsglatra, pldul
egy lelmiszerbiztonsgi vagy krnyezetszennyezsi krdsben, de felhasznlhatak a ge-
nomok epigenetikai mdosulsainak vizsglatban s a genomok mkdsnek kvantitatv
vizsglatban is. Az NGS mrstechnikk ezen robbansszer fejldse a mrsi folyamat
egyszersdsvel s standardizlsval is jr, ami a klinikai, mezgazdasgi vagy ipari
rutin-felhasznlshoz szksges volna. Azonban jelenleg mg a ksrlet- s mrsterve-
zs, mrs adatainak elfeldolgozsa, elemzse, majd rtelmezse nem csupn egy szakmai
specializciknak megfelelen sszelltott szoftverfolyamat-rendszert ignyel, hanem az
automatizlt mrsbl szrmaz nyers mrsi adatok szakrti elfeldolgozst, majd leg-
tbb esetben statisztikai elemzseket, diagnosztikai kvetkeztetseket, majd azok rtelme-
zst, s vgl optimlis dntsekben val felhasznlst. Ez a komplex munkafolyamat
mrstechnikai, adatmrnksgi, statisztikai adatelemzsi, szakterlet-specifikus rtelme-
zsi s dntselmleti fzisokat is tartalmaz. Az egyes fzisokhoz tartoz zrt gyrti vagy
nylt akadmiai eszkzk tartoznak, amelyek az adott problmra specifikusan sszelltott
rendszert vagy ad hoc mdon hozzk ltre vagy, egy munkafolyamat keretrendszerben.
Azonban mindkt esetben jellemz az elemzsi folyamat iteratv, tbbszri rszleges meg-
ismtlse, a konkrt adatokhoz legjobban illeszked paramterbelltsok idrabl meg-
keresse, majd az elemzsi lnc ismtelt megismtlse. Klnsen jelents kihvs, hogy
a munkafolyamat vgn lv eredmnyek rtelmezse orvosbiolgiai szakterleti tudst
ignyel, gy gyakran derl ki, hogy egy bizonytalan eredmny rtelmezse volna a szak-
terlet szempontjbl a legrdekesebb, amely a munkafolyamat mrstechnikai, adatmr-
nki, majd statiszikai jrafeldolgozst s megismtlst ignyli a bizonytalan eredmny
pontosabb ttele, robusztussgnak vizsglata miatt. Ennek formlis dokumentlsa s
az elemzsben, az eredmnyek rtelmezsben trtn automatizlt felhasznlsa fontos
feladat.
17.4.2. Gazdag fenotpusos adatok

A fenotpusos adatok lersnak standardizlsa olyan megoldatlan problma, amely a ge-
netikai asszocicis kutatsok haladsnak is zloga (a hinyz rkletessggel kapcsolatos
szerept lsd [30]; a deep phenotyping szereprl a pszichogenetikban , lsd [26]). Feno-
tpusos adatok sklja a biolgiai, sejtszint oldalon a kifejezdsi adatokkal mint vgs
fenotpusokkal kezddik [31, 7, 37, 9, 11]. Az ltalnosan elfogadott szint a demogrfiai
adatok s klinikai adatok, azonban ezek lersa is megoldatlan, amit a tumorpatolgik
tbbfle, alternatv lersa is jl illusztrl. Sajnos a klinikai gyakorlatban hasznlt IDC10
s IDC11 granularitsa kutatsi clokra ltalban nem elegend. Egy gretes ksrlet
a Human Phenotype Ontology (HPO) [34], illetve egy sikeres plda a Medical Diction-

ary for Regulatory Activities (MedDRA), amely gygyszer-mellkhatsok s -hatkonysg

kvetst tmogatja.
17.5. Trendek a tudsvilgban: szemantikus publikls

s adatelemzsi tudsbzisok
17.5.1. Szemantikus publikls
Az automatizlt szvegbnyszati mdszerek s kereskedelmi, szakirodalom alap bibli-
omikai adatbzisok mellett a szemantikus publikls egy gretes jellt. A szemantikus
publikls a szabadszveges kzlemnyek kibvtse formlis tudsreprezentcis rtegek-
kel, mint pldul a kvetkezek:
1. annotls
(a) nyelvtani annotls, pldul part-of-speech jells,

(b) szaksztrakbl trtn tartalmi annotls,
(c) adatokra trtn mikrohivatkozs (azaz rszletes adatelemzsi eredmnyekre
vonatkoz hivatkozs),
(d) ms cikkekre trtn mikrohivatkozs (azaz rszletes, valamely kzlemny va-
lamely pontos lltsra trtn hivatkozs),
2. kivonatols
(a) automatizlt kivonatols,

(b) kontrolllt nyelvi trs,
3. logikai tudsreprezentci
A szemantikus publikls httert a szemantikus technolgik, a szemantikus web te-

remtettk meg [44, 2, 3, 10, 40, 33]. A szemantikus publikls fejldsnek illusztratv
mrfldkvei a kvetkezek:
1. Jell (mark-up) nyelvek hasznlata a strukturlis kmiban, majd ms terleteken

is [44, 36].
2. Az adatbzisok s szabadszveges kzlemnyek kzti hatr elmosdsrl szl cikk-

sorozat [14, 20, 19, 38, 4, 41].
3. Egy pldapublikci [42].
4. A Structured Digital Abstract javaslat, amely egy strukturlt XML sszefoglalt

javasolt tenni a kzlemnyek mell [21].

5. A FEBS javaslata a digitlis sszefoglalkra [39].
6. Az Elsevier Initiatives In Bioinformatics And Semantic Enrichment llsfoglalsa.
7. Szvegbnyaszati mdszerek vizsglata a szemantikus publikls tmogatsra [21,

39].
A szemantikus publikls ltalnos elterjedse nem kvetkezett be a tbb vtizedes

rutinhasznlata ellenre sem bizonyos terleteken. Ennek oka egyrszt az ontolgik hi-
nyai, msrszt nagyban felels lehet a szerzk motivlatlansga. Ez utbbi vltozhatna
(1) szemantikus publiklson alapul hasznos kutatsi eszkzk megjelensvel, (2) a sze-
mantikus publikls ktelezv ttelvel, amit akr a szerzk, akr osztottan az egyenletes
sznvonal miatt a kiad is vgezhetne a a kulcsszavakhoz hasonlan (3) a tudomnyos hoz-
zjruls j rendszernek kialaktsval, amely az adatokra, adatelemzsi eredmnyekre
s ms kzlemnyekbeli rszletes lltsokra val hivatkozsokon alapulna. Vgl fontos
volna olyan szvegbnyszati eszkzkkel tmogatott beviteli rendszerek fejlesztse, ame-
lyek hatkonyak, akr a cikk fbb zenetnek a jobb kiemelst is tmogatjk. Ebben
trivilis volna szakterleti ajnlsok formalizlsa, mint pldul a genomikai terleten
a STREGA, STROBE, GRIPS ajnlsok. Hasonlan fontos krds volna a genomikai
szabvnyok rvnyestse a mrs folyamatnak, a mrs eredmnyeibl szrmaztatott ge-
nomikai asszociciknak s prediktv modelleknek a lersban. Megoldatlan krds a
szemantikus publikls kapcsoldsa a ma elterjedt szvegbnyszati mdszerekhez. Az
informci kzls folyamatban tisztzsra vr a szerzk segtsnek mdja, a kiadk egy-
sges szabvnyostsa, amely az alkalmazott webtechnolgik szabvnyostst is jelenti.
A szemlyre szabott medicina, de klnsen a rkbetegsgek terletn kulcskrds volna
az alapkutatsi s a klinikai hasznossggal br eredmnyek gyors s megbzhat megjele-
nse a klinikai gyakorlatban. A szemantikus publikls hordozza ennek lehetsgt, de e
cl elrsnek mdja egyelre kutatsra vr. A szemantikus publikls rvn potencilisan
ltrejv, adatelemzsi eredmnyeket integrl, valsznsgi tudsbzis akr egy szkebb
trgyterlet kapcsn is kzlemnyek tzezreit tartalmazhatja. Az ebben val logikai kvet-
keztets sikere azonban alapvet mdon fgg a szmtsi hatkonysgtl.
17.5.2. Adatelemzsi tudsbzisok

A nagy teljestmny mrsi mdszerek megjelensvel az adatok (adatvilg) s a faktulis
hipotzisek (faktulis tudsvilg) kztt rendkvl nagy szerephez kezdenek jutni az adott
megbzhatsg adatelemzsbl szrmaz tudselemek, pldul Bayes-statisztikai adat-
elemzsbl szrmaz modelltulajdonsgok. Az egyes modellekre vonatkoz bizonytalan
tudssal kapcsolatban tbb aspektus is egyszeren nem ltezik mg jelenleg, mint pldul
a kvetkezk.
1. Szemantikai nyelvek s ontolgik adatelemzsbl szrmaz bizonytalansga. r-

dekes mdon szinte minden bioinformatikai adatra lteznek szemantikai nyelvek s
ontolgik, mint pldul a MIAME-MGED szabvny expresszis adatra, illetve teljes

modellekre is lteznek ilyenek, mint pldul az XBN Bayes-hlkra, vagy Predictive

Model Markup Language, illetve orvosbiolgiai tudsbzisokra is szemantikai nyelvek
s ontolgik sokasga ltezik, azonban jelenleg nincsenek bizonytalan modell tulaj-
donsgokat ler informcikra vonatkoz szabvnyostsok, szemantikai nyelvek s
ontolgik. A bizonytalan informcik internetes megjelensnek szabvnyostst
megclz W3 csoport 2008-ban alakult meg.
2. Bizonytalansgi informcik tudomnyos kzlse. A statisztikai informcik kzlse

egy hagyomnyosan nehz feladat, amit vrhatan mind szabvnyostssal, mind
tudomnypolitikai eszkzkkel is tmogatni fognak.
3. A faktulis tuds s az adatelemzsbl szrmaz bizonytalan tuds fzija. A faktu-

lis tuds felhasznlsa az adatelemzsben jelenleg strukturlis knyszer alap vagy
kvantitatv a priori eloszlsokkal trtnik. A modelltulajdonsgok szisztematikus
lersval, egy gynevezett adatelemzsi tudsbzissal azonban a bizonytalan tuds-
vilg explicit bevezetsvel egy jfajta fzi is lehetsges, amelyben a felhasznlt
szmtst mr megrizve, de az eredmnyeket a lehet legrintetlenebb formjukban
hagyjuk meg ksbbi utfeldolgozsok, rtelmezsek s metaelemzsek szmra.
Az adatelemzsi tudsbzisok kapcsn cl lehet a tbbvltozs megkzelts, a bizony-

talansg kezelse, a kontextualits, a direkt, lehetleg oksgi relcik hasznlata, sze-
mantikai megkzelts (negls, szimbolikus lekrdezs), beavatkozs s okozatisg keze-
lse, valsznsgi szemantika hasznlata, logikai tuds megrzse eredeti gazdagsgban,
modellek explicit kezelse. Viszont ezen adott megbzhatsg tudselemek tudomnyos
kommunikcija, szabvnyostott felhasznlsa, szemantikus reprezentlsa, adatbzisbeli
reprezentlsa, illetve fzis mdszerekbeli felhasznlsa mg nem megoldott.
17.6. Trendek a modellvilgban

Az adatok s tudselemek, kzlemnyek vilghoz kpest legkevsb kidolgozott a modellek
lersa. Korai ksrletek megjelentek a modellek adatokkal, adatgyjtsi protokollal trt-
n sszekapcsolsra, az adatok esetalap rtelmezsre, illetve a modellek szakcikkekkel
trtn sszekapcsolsra, mind a modellkonstruls, modelltanuls s informcikeress,
mind a magyarzatgenerls tmogatsra. Jelenlegi prblkozsknt a szintetikus biol-
giban megjelen BioBricks rendszer emlthet [35, 6, 15], illetve a hlzat ler rendszerek
emlthetek [43].

Irodalomjegyzk
[1] A. Szalay, G. Bell, and T. Hey, Beyond the data deluge. Science, 323(5919):12971298,
2009.
[2] T. Berners-Lee and J. Hendler, Publishing on the semantic web. Nature, 410:1023
1024, 2001.
[3] T. Berners-Lee, J. Hendler, and O. Lassila, The semantic web. Scientific American,
May:2937, 2001.
[4] P. Bourne, Will a biological database be different from a biological journal? Plos
Computational Biology, 1(3):179181, 2005.
[5] S. Brohee, R. Barriot, and Y. Moreau, Biological knowledge bases using wikis:
combining the flexibility of wikis with the structure of databases. Bioinformatics,
26(17):22102211, 2010.
[6] Y. Cai, M. L. Wilson, and J. Peccoud, Genocad for igem: a grammatical approach
to the design of standard-compliant constructs. Nucleic Acids Res., 38(8):263744,
2010.
[7] V. G. Cheung and R. S. Spielman, Genetics of human gene expression: mapping dna
variants that influence gene expression. Nat. Rev. Genet., 10(9):595604, 2009.
[8] The Gene Ontology Consortium, Gene ontology: tool for the unification of biology.
Nature Genetics, pages 2529, 2000.
[9] A. Darvasi, Genomics: Gene expression meets genetics. Nature, 20(422(6929)):269
70, 2003.
[10] S. Decker, P. Mitra, and Sergey Melnik, Framework for the semantic web: an rdf
tutorial. IEEE Internet Computing, 410:6873, Nov.-Dec. 2000.
[11] E. T. Dermitzakis, From gene expression to disease risk. Nat. Genet., 40(5):4923,
2008.
[12] Ron Edgar, Michael Domrachev, and Alex E. Lash, Gene expression omnibus: Nc-
bi gene expression and hybridization array data repository. Nucleic Acid Research,
30(1):207210, 2002.

[13] A. Brazma et al., Minimum information about a microarray experiment (miame)

toward standards for microarray data. Nature genetics, 29:365371, 2001.
[14] R. J. Roberts et al., Building a genbank of the published literature. Science,

291:23182319, 2001.
[15] P. Fu, A perspective of synthetic biology: assembling building blocks for novel func-
tions. Biotechnol J., 1(6):6909, 2006.
[16] V. Gallo et al., Strengthening the reporting of observational studies in epidemiology -

molecular epidemiology (strobe-me): An extension of the strobe statement. Preventive
Medicine, 53(6):377387, 2011.
[17] E. Garfield, Essays of an Information Scientist, chapter Towards the World Brain.
ISI Press, Cambridge, MA, 1977.
[18] Eugene Garfield, From the world brain to the informatorium. Information Services &
Use, 19:99105, 1999.
[19] M. Gerstein, E-publishing on the web: Promises, pitfalls, and payoffs for bioinforma-
tics. Bioinformatics, 15(6):429431, 1999.
[20] M. Gerstein and J. Junker, Blurring the boundaries between scientific papers and
biological databases, 2001. Nature (web debate, on-line 7 May 2001).
[21] M. Gerstein, M. Seringhaus, and S. Fields, Structured digital abstract makes text
mining easy. Nature, 447(7141):142142, 2007.
[22] David Heckerman, The Fourth Paradigm in Practice. Creative Commons, 2012.
[23] Tony Hey, The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Re-
search, 2009.
[24] J. Huang et al., Minimum information about a genotyping experiment (migen). Stan-
dards in Genomic Sciences, 5(2):224229, 2011.
[25] A. Janssens et al., Strengthening the reporting of genetic risk prediction studies: The
grips statement. Genetics in Medicine, 13(5):453456, 2011.
[26] R. Joober, The 1000 genomes project: deep genomic sequencing waiting for deep
psychiatric phenotyping. J Psychiatry Neurosci, 36(3):1479, 2011.
[27] L. Z. Karvalics, Information Society Policies, Chapter Science at the crossroads, pages
6473. A. Rab UNESCO IFAP, 2011.
[28] Douglas Lenat and R. V. Guha, Building Large Knowledge-Based Systems: Repres-
entation and Inference in the Cyc Project. Addison-Wesley, 1990.

[29] J. Little et al., Strengthening the reporting of genetic association studies (strega): an
extension of the strobe statement. Human Genetics, 125(9):131151, 20091.
[30] B. Maher, Personal genomes: The case of the missing heritability. Nature,
456(7218):1821, 2008.
[31] O. Nachtomy, A. Shavit, and Z. Yakhini, Gene expression and the concept of the
phenotype. Stud. Hist. Phil. Biol. & Biomed. Sci., 38:238254, 2007.
[32] S. J. Nelson, T. Powell, and B. L. Humphreys, The unified medical language system
(umls) project, 2001. http://www.nlm.nih.gov.
[33] H. Pearson, The future of the electronic scientific literature. Nature, 413:13, 2001.
[34] P. N. Robinson and S. Mundlos, The human phenotype ontology. Clin Genet, 77:525
534, 2010.
[35] G. Rokke, E. Korvald, J. Pahr, O. Oyas, and R Lale, Biobrick assembly standards
and techniques and associated software tools. Methods Mol Biol., 1116:124, 2014.
[36] H. Rzepa and P. Murray-Rust, A new publishing paradigm: Stm articles as part of
the semantic web. Learned Publishing, 14(3):177182, 2001.
[37] E. E. Schadt, S. A. Monks, T. A. Drake, A. J. Lusis, N. Che, V. Colinayo, T. G. Ruff,

S. B. Milligan, J. R. Lamb, G. Cavet, P. S. Linsley, M. Mao, R. B. Stoughton, and
S. H. Friend, Genetics of gene expression surveyed in maize, mouse and man. Nature,
20(422(6929)):297302, 2003.
[38] M. Seringhaus and M. Gerstein, Publishing perishing? Towards tomorrows informa-

tion architecture. BMC Bioinformatics, 8, 2007.
[39] M. Seringhaus and M. Gerstein, Manually structured digital abstracts: A scaffold for
automatic text mining. Febs Letters, 582(8):11701170, 2008.
[40] N. Shadbolt, What does the science in e-science, IEEE Intelligent Systems,
17(May/June):23, 2002.
[41] D. Shotton, Semantic publishing: the coming revolution in scientific journal publish-
ing. Learned Publishing, 22(2):8594, 2009.
[42] D. Shotton, K. Portwin, G. Klyne, and A. Miles, Adventures in semantic publishing:

Exemplar semantic enhancements of a research article. Plos Computational Biology,
5(4):179181, 2009.
[43] T. Slater, Recent advances in modeling languages for pathway maps and computable
biological networks. Drug Discov Today, 19(2):193198, 2014.

[44] Vanessa Speding, Xml to take science by storm. Scientific Computing World, Supp-
lement (Autumn):1518, 2001.
[45] J. Vandenbroucke et al., Strengthening the reporting of observational studies in epi-

demiology (strobe): Explanation and elaboration. Plos Medicine, 4(10):16281654,
2007.

18. fejezet
Bioinformatikai
munkafolyamat-rendszerek
esettanulmny
A bioinformatika, mint interdiszciplinris tudomnyg a szmtgpes szmtsi kapacits

nagysgnak s elrhetsgnek nvekedsvel szletett. A szuperszmtgpek s elosz-
tott szmtsi rendszerek megjelense utat nyitott szmos olyan eljrs eltt, amely annak
szmtsignyes volta miatt korbban nem volt praktikusan alkalmazhat.
A megnvekedett szmtsi kapacits kihasznlsa azonban nem csak j lehetsgeket,
hanem j feladatokat is hozott magval: egy szuperszmtgp vagy egy elosztott szmtsi
rendszer hatkony kiaknzsa komoly informatikai feladatot jelent. Ebben a fejezetben egy
ilyen rendszer esettanulmny jelleg ttekintst tesszk meg, aminek a segtsgvel jobb
rltst kaphatunk az ilyen rendszerek megvalstsakor felmerl problmkra s azok
megoldsi lehetsgeikre.
A fejezet tovbbi rszeiben a kvetkezkkel foglalkozunk: a 18.1. szakasz egy ltal-
nos ttekintst ad a vizsglt rendszerrl, a 18.2. szakaszban az alkalmazott adatmodellt
ismertetjk. A 18.3. szakaszban a rendszer magasabb szint felhasznli eseteivel s a
megvalsts architekturlis elemeivel foglalkozunk, mg a 18.4. szakasz a szerveroldali
megvalsts rszleteit trgyalja. A 18.5. szakasz foglalkozik a munkafolyamat-rendszer
zr elemvel, az utfeldolgozssal.
18.1. A feladat ttekintse

A vizsglt munkafolyamat-rendszer alapjt a BMLA-analzisek adjk, amelyek elsdleges
feladata, hogy MCMC-szimulcik eredmnyeinek felhasznlsval, Bayes-hls modellek
strukturlis jegyeinek segtsgvel vizsgljk egy adott trgyterlet sszefggseit.
Mivel az ilyen MCMC-szimulcik szmtsi ignye meglehetsen nagy, valamint egy-
egy BMLA-analzis lefuttatshoz tbb MCMC-futtatsra is szksg van, a megvalstan-
d munkafolyamat-rendszernek rendelkeznie kell a kvetkez tulajdonsgokkal:
Millinghoffer Andrs www.interkonyv.hu

18. Bioinformatikai munkafolyamat-rendszerek esettanulmny 244
ssze kell tudnia fogni az egy BMLA-analzishez tartoz MCMC-futsokat, az lta-

luk felhasznlt bemeneti adatokat s a ltrejv eredmnyeket.
A rendszernek (a hossz futsi idk miatt) szmon kell tudni tartania az egyes
felhasznlk ltal indtott analziseket, anlkl, hogy ez egy lland kapcsolat fenn-
tartst ignyeln a felhasznltl.
A rendelkezsre ll erforrsok felhasznlsrl automatizltan kell tudni gondos-
kodnia.
A fenti kvetelmnyek egy tbbszint kliens-szerver architektra irnyba mutatnak,
amelyben a kliens (a felhasznl) sszellthat s feltlthet (elindthat) BMLA-elemzseket
a szerveren, amelyek llapott, eredmnyt ksbb lekrdezheti.
18.2. Adatmodell s -reprezentci

A BMLA-elemzsek alapjul teht a Bayes-hls modellek s a hozzjuk tartoz megfigye-
lsi adatok szolglnak. A BayesCube program ezek szerkesztshez s kezelshez teljes-
kr eszkztrat biztost, gy ezek a bemeneti adatok a vizsglt munkafolyamat-rendszer
szempontjbl adottnak tekinthetk .
A megfigyelsi adatok s a hozzjuk tartoz modell mellett mg specifiklni kell a
BMLA-elemzs sorn vgrehajtand MCMC-futsok tovbbi paramtereit is. Ezek a fu-
tsokat meghatroz informcik a kvetkezk:
Clvltozk halmaza. E vltozkkal kapcsolatban fog trtnni a statisztikk gyjtse.
A clvltozk halmaznak szktsre (vagyis az exploratv, minden vltozra ki-
terjed statisztikagyjts elhagysra) a gyjttt mintk nagy (adott esetben akr
GB-os nagysgrend) mrete miatt van szksg.
Clvltozk kezelse az MCMC-futsok sorn. Tbb clvltoz esetn lehetsg
van arra, hogy pl. az MBS tulajdonsgot az sszes clvltozra egyttesen vonatko-
zan vagy kln-kln gyjtsk. Egy harmadik lehetsg, ha minden clvltozhoz
egy olyan modellt hozunk ltre, amelybl a tbbi clvltozt elhagyjuk.
Vizsglt tulajdonsgok halmaza. A legtipikusabbak az MBM, MBS s MBG tulaj-
donsgok, illetve a vltozprok egymshoz val strukturlis viszonyt (gyermek
szl, leszrmazotts, kzs ssel rendelkez pr, stb.) ler n. oksgi relci.
Magasabb szint vizsglatok. Az egyedi MCMC-futsok szintje felett is lehetsges
magasabb szint vizsglatokat, teszteket vgezni: ilyen lehet pl. a permutcis teszt
vagy a bootstrap alkalmazsa. A statisztikai megbzhatsg illetve konvergencia- s
konfidencia-tesztek vgzshez hasznos lehet ugyanazon futtats tbbszrs vgre-
hajtsa is.

A Bayes-hlkhoz s a megfigyelsi adatokhoz kapcsold BayesCube szerkesztsi funkcikkal itt nem
foglalkozunk, mivel azok egy msik fejezetben mr rszletesen trgyalva voltak.

MCMC-futsok paramterei. A MCMC-szimulcikat vgrehajt programnak mag-

nak is szmos lehetsges futtatsi paramtere van. Ezek rtkeit, rtkkombinciit
is itt tudjuk megadni.
Mivel a BayesCube a fenti BMLA-konfigurcik szerkesztst is tmogatja, a kliens

oldaln ezzel elllt a teljes bemeneti adathalmaz. Ennek ismeretben mr ttekinthetjk,
hogy a megvalstand munkafolyamat-rendszernek milyen funkcikat kell tmogatni a
kliens fel, illetve, hogy ez milyen architekturlis felptst ignyel a rszrl.
18.3. Felhasznli esetek s architektra

Az alapreprezentci megismerse utn ttekinthetjk a legfontosabb felhasznli eseteket,
amelyek alapjn mr megtervezhet a munkafolyamat-rendszer architektrja.
Az alapvet use-case-ek listja a munkafolyamat-rendszer hasznlatban a kvetkez:
Bemeneti adatok sszelltsa. Ez a BayesCube szoftver ltal kezelt lps tekinthet

az elksztsi fzisnak: a felhasznl sszelltja a megfigyelsi adatok halmazt s
a hozzjuk tartoz modellt, valamint meghatrozza a vgrehajtand MCMC futsok
halmazt a 18.2. szakaszban bemutatott konfigurcis fjl sszelltsval. Ebben a
szakaszban mg nem trtnik interakci a munkafolyamat-rendszerrel.
BMLA-analzis vgrehajtsnak indtsa. Az elz pontban sszelltott adathal-

mazt a felhasznl feltlti a BMLA-szerverre, ahol egyrszt eltroldnak az alap-
adatok, kiegsztve a feltlt azonostjval, msrszt elkezddnek a vgrehajtand
programfuttatsok.
Analzis llapotnak lekrse. Mivel a teljes analzis lefutsa akr tbb napig is tart-
hat, illetve a vals szmtsok megkezdst ms fut analzisek is ksleltethetik,
fontos, hogy a felhasznl az elrehaladottsg llapott igny szerint monitorozni
tudja.
Eredmnyek lekrse. Az utols lps termszetesen a lefutott analzis eredmnyeinek

lekrse a szerverrl a loklis kliens-gpre, amelyen a BayesCube segtsgvel a nyers
eredmnyek tovbbi utfeldolgozsi s elemzsi lpsei megtehetk.
A fentiek megvalstsra szolgl teljes rendszer architektrja a kvetkez elemekbl

plhet fel:
Kliens-oldali interfsz-fggvnyknyvtr. A modularits s jrafelhasznlhatsg r-

dekben a fenti felhasznli esetek elindtsrt felels funkcionalitsokat egy fgg-
vnyknyvtrba gyazva implementljuk, amely a lehet legegyszerbb mdon va-
lstja meg a szerverrel trtn kommunikcit. Minden elemi felhasznli eset egy-
egy fggvnyhvs lesz a fggvnyknyvtr ltal szolgltatott interfszen, amely gy

knnyen bepthet brmilyen szoftvereszkzbe, amely a BMLA-analzisek kezels-

vel foglalkozik (mint pl. a BayesCube).
Ennek a modulnak a f clja teht a munkafolyamat-rendszer bels rszleteinek
elfedse, az ltala nyjtott szolgltatsok absztrakcija.
Webservice alkalmazs. A kliens-oldali fggvnyknyvtr szerveroldali megfelelje:

minden elemi szerverszolgltatshoz egy webservice-en keresztl elrhet fggvnyt
rendel, gy az elz modullal egytt tekinthet a vals megvalsts s a felhasznlk
kztti webes kapcsolatot elfed absztrakcis rteg rsznek.
Az ebben a modulban megvalstott fggvnyek mr kzvetlenl rik el az architek-
tra tovbbi elemeit, azokon szksg szerint vgrehajtva a megfelel mveleteket.
Httr adatbzis. Adminisztratv funkcikat lt el: a felhasznli azonostk mellett

minden feltlttt BMLA-analzishez trolja az alapadatokat (megfigyelsi adatok s
modell, valamint a konfigurcis fjl s a feltlts ideje), valamint az adott analzisre
vonatkoz utols llapotlekrs eredmnyt.
Szerveroldali szoftvereszkzk. A kzponti webserver alkalmazs ltal meghvott esz-

kzk vgzik el a kvetkez alapvet elemi mveleteket: (1) futtatand szmtsok
halmaznak sszelltsa, (2) a szmtsok elindtsa, (3) a szmtsok llapotnak
lekrdezse, esetleges lelltsa, (4) az eredmnyek sszelltsa (s a kliens szmra
trtn elrhetv ttele).
Feladattemez rendszer. A teljes futtatsi rendszerben szmos egyedi programvgre-

hajtst kell koordinlni, hisz egyszerre tbb BMLA-elemzs is futhat prhuzamosan,
illetve egyetlen BMLA-elemzs is tbb egyedi futtatsbl ll. Emellett tbb klnl-
l szmtgp is rendelkezsre llhat a szmtsok vgrehajtsra. Ez a kt tnyez
mr egyrtelmen egy feladattemez rendszer alkalmazsnak ignyt veti fel, egy
olyan rendszert, amely kpes tbb programfuttatsi feladatnak egy elosztott rend-
szeren belli prhuzamos lefuttatsnak koordinlsra.
A BMLA-munkafolyamat-rendszeren bell erre a clra a HTCondor rendszert alkal-
mazzuk, vagyis minden egyes vgrehajtand programfuttatshoz egy-egy HTCondor
feladatot (jobot) hozunk ltre, amelynek vgrehajtsrl s temezsrl a HTCon-
dor rendszer gondoskodik majd.
Szmtsi csompontok (n. node-ok). Mint lthat, a HTCondor rendszer egy

jabb absztrakcis rteget hoz ltre, amely a BMLA-eszkzk ell fedi el a futta-
tshoz hasznlt hardverelemeket. A rendszer szoftverelemeinek megvalstsa szem-
pontjbl teht a vgrehajtshoz hasznlt szmtgpek figyelmen kvl hagyhatk,
azokkal kapcsolatban csak azt kell biztostani, hogy (1) rajtuk teleptve legyenek a
HTCondor rendszerhez val csatlakozshoz szksges eszkzk, illetve (2) kpesek
legyenek az MCMC-szimulcikat kivitelez programok futtatsra.

18.4. A szerver mkdsi rszletei

Ebben a szakaszban azokat a szerveroldali alprogramokat tekintjk t, amelyek a rendszer
alapvet mkdst biztostjk a f szerveralkalmazs koordincija alapjn.
HTCondor. Mint az elz szakaszban lttuk, a HTCondor ltalnos feladattemez

rendszer feladata, hogy a BMLA munkafolyamatok ell elrejtse a futtatshoz hasznlt
szmtgppark rszleteit. A HTCondor rendszer a kvetkez, a mi szempontunkbl fontos
f tulajdonsgokkal s szolgltatsokkal rendelkezik:
A vgrehajtand feladat egy n. job formjban rhat le, amely a futtatand l-

lomny mellett megadja az annak tadand paramtereknek s az ltala felhasznlt
bemeneti fjloknak a listjt. Minden job rendelkezhet egy rszletes erforrsigny-
lerssal is, a BMLA rendszerben azonban ilyen szempontbl nem tesznk klnb-
sget az egyes jobok kztt.
A szmtsokat vgrehajt szmtgpek (node-ok) mint erforrsok jelennek meg, a

HTCondor rendszer pedig folyamatosan monitorozza a szabad erforrsok halmazt,
s annak elemeihez (alaprtelmezs szerint rkezsi sorrendben) hozzrendeli a mg
ki nem osztott jobokat. Az egyes jobok futsi llapotnak figyelse mellett a rendszer
gondoskodik arrl, hogy a lefutott jobok ltal ellltott eredmnyek az eredeti (a
szerveren lv) futtatsi knyvtrba kerljenek.
Az egyes jobok kztt lehetsg van egy elsbbsgi sorrend (precedencia) meghat-
rozsra, amely segtsgvel biztosthat, hogy a ms jobok kimenett felhasznl
feladatok (pl. az eredmnyek aggreglst vgz program) csak akkor fussanak le,
amikor mr az sszes ltaluk ignyelt bemeneti llomny ltrejtt.
soapbmla.cmd.GenerateCondorJobs.class Ennek az eszkznek a feladata, hogy a

BMLA konfigurcis fjl alapjn ellltsa a vgrehajtand MCMC-futsok listjt. Mint
azt mr korbban lttuk, a konfigurcis fjlok ltal tartalmazott paramterek kt cso-
portba oszthatk: (1) a kzvetlenl az MCMC-futs vgz programnak tadandkba,
illetve (2) a magasabb szintekbe, amelyek pl. a tbbszrs futtatsok szmrl vagy a
permutcis tesztekrl rendelkeznek. Ennek megfelelen a HTCondor rendszerbe feltl-
tend submit fjlok listjnak ellltsa az albbi lpsekben trtnik:
(1) A legtbb magasabb szint teszt s eljrs az adat s/vagy a modell valamilyen
talaktst is ignyli ; ha van elrva ilyen, akkor megtrtnik a segd adat- s mo-
dellfjlok ellltsa.
(2) A fentiek s a megadott MCMC-paramter-kombincik alapjn elll az sszes

klnbz paramterezs futtatsi kombinci.

Pldul egy permutcis teszt vgzse a clvltozra vonatkoz megfigyelsi adatok randomizlst,
egy bootstrap-mdszer alkalmazsa pedig az eredeti adatfjl jramintavtelezst ignyli.

(3) Ha szksges (meg van adva a number-of-runs paramter), a teljes submit-fjl

halmaz tbbszrzve lesz.
(4) A teljes futtats-halmazhoz tartozik mg az eredmnyek sszestst vgz program

(mergeResults.exe) futtatsa.
Az sszes fenti futtats egy HTCondor dagman lerban lesz sszefogva, amelynek
segtsgvel a teljes halmaz futtatsa egyetlen job feltltsvel elindthat.
bn-MCMC.exe Ez a program vgzi az MCMC-futsok vgrehajtst, bemenete az

adat- s a modellfjl, illetve a parancssori argumentumokknt tadott MCMC-paramterek
halmaza, kimenete az MCMC ltal gyjttt statisztikkat tartalmaz fjlok halmaza. A
bn-MCMC.exe pldnyainak futtatsa a HTCondor rendszerben trtnik az annak tadott
submit fjlok alapjn.
mergeResults.exe A bn-MCMC.exe ltal ellltott nyers eredmnyek sszegzst vg-

zi. Az MCMC-futsok utn automatikusan vgrehajtdik, hogy az eredmnyek lekrse
hatkonyabban trtnhessen (adott esetben tbb szz fjlbl hoz ltre nhny jval t-
mrebbet), de adott esetben kzileg is futtathat (az ezzel kapcsolatos lehetsgekrl
a 18.5. szakaszban lesz sz).
18.5. Utfeldolgozsi lpsek

A szmtsok sikeres lefutsa utn az eredmnyek a kliens-oldalra kerlnek, ahol megtr-
tnhet annak szakrti feldolgozsa, rtelmezse. Ezekhez a mveletekhez a BayesCube
szoftver szolgltat eszkzket; ezek azonban nem tartoznak szorosan maghoz a BMLA-
munkafolyamathoz.
Az utfeldolgozs sorn hasznlhat msik eszkz a mergeResults.exe program, amely a
nyers MCMC-eredmnyek sszefslst s aggreglst vgzi. Mivel egy tipikus BMLA-
elemzs szmos klnll MCMC-futsbl ll ssze az effajta adatintegrlsi lps je-
lents haszonnal jrhat mind praktikus (trhelyigny cskkentse, eredmnyek ttekint-
hetsgnek nvelse), mind elmleti (alapvet statisztikk, egyszerbb konvergencia- s
konfidencia-mutatk szmtsa) szempontbl.
Maga a mergeResults.exe program a kvetkezk szerint mkdik:
Bemeneteknt az egyes MCMC-futsok nyers eredmnyei, illetve az MCMC-param-

tereket tartalmaz naplfjlok szolglnak.
Az eredmnyek feldolgozsa sorn az ekvivalens paramterezs futsok eredmnyeit

a program egybefsli.

Ez az eszkz hasznlhat az sszetartoz jobok kzti precedencia megadsra.

Az elz lpsben sszefslt eredmnyekre kiszmol nhny alapvet statisztikt,

ilyenek pl. az tlag, szrs, minimum s maximum.
Az sszefslt eredmnyek kerlnek a programfuts kimenetbe, igny szerint meg-

adhatan adott paramterek rtkei szerint kln llomnyokba csoportostva.
A fenti lpsek sorn egy fontos krds mg, hogy mely MCMC-paramterezsek te-
kinthetk ekvivalensnek. Alaprtelmezs szerint csak azok, amelyek minden paramtere
pontosan egyezik, adott esetben azonban lehetsg van bizonyos paramterek kiaggreg-
lsra. Egy (vagy tbb) paramter kiaggreglsa egyszeren annyit jelent, hogy azokat
az MCMC-futsokat, amelyek paramterezse csak a vonatkoz paramter(ek)ben trnek
el egymstl, ekvivalenseknek tekintjk, s a szmtand statisztikkat ezek halmaza felett
rtkeljk ki.
A fejezetben ttekintett BMLA-munkafolyamat teht a fenti utfeldolgozsi lpsekkel

zrul, amelyek vgrehajtsa utn adott esetben azok interpretcija, rtelmezse, vagy
egy a tapasztalatok alapjn tkonfigurlt, jabb BMLA-elemzs kvetkezhet.

19. fejezet
A gygyszeripari kutats informatikai

aspektusai
19.1. A fejlesztsi folyamat ttekintse

Jelen fejezet clja, hogy rvid bevezetsknt szolgljon a kismolekuls hatanyag-tervezs
modern technikinak megismershez, klnskppen az informatika, matematika s a
szerves kmia hatrterletrl, valamint kiindulpontknt szolgljon az rdekld olva-
snak. A trgyalt tmban szmos knyv s folyamatosan nvekv szm tudomnyos
kzlemny rhet el.
Egy fejlesztsi terv alapvet eleme a cl definci, legyen az egy elrend hats, vagy
egy jl definilt molekulris clpont. Molekulris clpontnak ltalban egy makromoleku-
lt neveznk a vizsglt organizmusban ami hatanyaggal modullhat. Hatanyag lehet
kismolekula s makromolekula is pldul antitestek, rvid peptidek de jelen fejezetben
csak kismolekuls gygyszerek fejlesztsvel foglalkozunk. Molekulris clpont kivlasz-
tsra kerlhet a betegsgrl rendelkezsnkre ll biolgiai vagy orvosi httrtuds, vagy
mr ismert gygyszer ismert hatsmechanizmusa alapjn.
Ha a clpontot meghatroztuk, biztat vegyletek egy halmaza kivlaszthat in silico
szrssel vagy in vitro nagy teresztkpessg szrssel (HTS). Els lpsknt nagy szm
vegyletet egy molekulris knyvtrat szrnk t tallatok utn kutatva. Egy knyv-
tr alatt rthetjk valdi vegyletek gyjtemnyt, de egy virtulis vegyletknyvtrat
is. Ezutn klnbz tulajdonsgok alapjn a tallatokbl egy kisebb molekulahalmazt
vlogatunk ki. A vezrmolekulkat s analgjaikat ezutn optimalizljuk s preklinikai
ksrletekben vizsgljuk.
A preklinikai fzis ketts szerepet tlt be: az in vitro s llatksrletek minimalizljk
a toxicitsbl add kockzatokat az emberi alanyokon vgzett klinikai vizsglatok meg-
kezdse eltt, msrszt cskkenti az eslyt, hogy sikertelen klinikai vizsglatot kezdjnk,
hatalmas anyagi vesztesget szenvedve el ezzel. Az analgok tesztelsekor szerzett ada-
tokat tovbb felhasznljuk arra, hogy a struktrahats sszefggseket modellezzk a
vezrmolekula krli kmiai trben.
A preklinikai kirtkelst kveten nkntesek rszvtelvel sor kerl a klinikai vizsg-
19. A gygyszeripari kutats informatikai aspektusai 251
latra, hogy meghatrozzk a gygyszer biztonsgossgi profiljt s hatsossgt. A klinikai

vizsglat folyamata hrom hagyomnyos (I, II, III) s egy tovbbi posztmarketing (IV)
fzisra oszlik. Ez alatt a biztonsgos humn dzisok meghatrozsra kerlnek (I. fzis)
s az adott egszsggyi llapotra vonatkoz hatsossg placebo-kontrolllt krlmnyek
kztt kerl vizsglatra tbb lpsben, nvekv mintamret mellett (II. s III. fzis). A
mellkhatsok gyjtse folyamatos az I. fzistl kezdve a posztmarketing fzisig, mikor
a gygyszer mr a piacon van. A klinikai vizsglat teljes folyamatt statisztikai monito-
rozsnak vetik al gynevezett interim analzis zajlik , amely lehetv teszi, hogy a
folyamatot lelltsk etikai vagy gazdasgi okokbl.
19.2. Kemoinformatikai httr

Ahhoz, hogy egy megfelel tulajdonsgokkal rendelkez j, farmakolgiailag aktv vegy-
letre bukkanjunk, nha tbb mint egy-milli vegyletet kell megvizsglnunk. Egy ilyen
hatalmas adatbzis vegyleteit nem lehet gazdasgosan megszintetizlni, els lpsknt
teht gyakran egy virtulis knyvtron vgezzk el a szrst: nagy szm, a kereske-
delemben elrhet, vagy adott esetben csak sejtheten szintetizlhat vegylethalmazon,
melyek kztt lehetnek olyanok, amiket mg soha sem szintetizltak. A virtulis knyvt-
rat reprezentl adatbzis a vegyletek szerkezete mellett tartalmazhat szmos szmtott
tulajdonsgot. ltalnossgban vve egy kmiai szerkezet definilhat az atomok cmk-
zett szomszdossgi mtrixval (grf reprezentci), kiegsztve tovbbi informcival a
rszstruktrk trbeli relatv helyzetrl.
Egy adott atom-atom kapcsoldsi hlzat szmos hromdimenzis szerkezetet repre-
zentlhat. Ha a hromdimenzis szerkezetek egy halmaza szobahmrskleten a termikus
mozgs rvn szabadon egymsba alakulhat, akkor a struktrkat azonos vegyletnek te-
kintjk, az egyes szerkezetek a vegylet konformerei. Teht az energiagt kt konformer
kztt olyan alacsony, hogy a gyakorlatban nem izollhatk, minden konformer megtall-
hat egyazon mintban a Boltzmann eloszlsnak megfelel valsznsggel. Ha relatve
nagy energiagt van 3D szerkezetek kt halmaza kztt, a kt halmaz kt elklnthe-
t vegyletet reprezentl, melyek izomerek. Ennek egy specilis esete, ha az atomok
kapcsoldsa azonos, csak a hromdimenzis szerkezet tr el kt vegylet kztt: ezeket
sztereoizomereknek hvjuk. A fogalom kiralitsknt (A grg kz szbl, jelentse
kzszer) is ismert. Egy kirlis objektum meghatroz tulajdonsga, hogy nem hozhat
fedsbe tkrkpvel.
Hogy kdolhassuk a kt sztereoizomer kztti klnbsget, ki kell egsztennk a mo-
lekulagrfot tovbbi informcikkal. Pldul olyan ngy vegyrtk szn esetn, melynek
mind a ngy szubsztituense eltr, kt eltr kapcsoldsi sorrendet klnbztethetnk
meg. Az ilyen atomok n. kiralits centrumok s ms kirlis elemek cmkzsre egy
konvencit, a CahnIngoldPrelog-szablyt (CIP-szably) alkalmazzk. A lehetsges cm-
kk: S (Sinister, latinul bal) s R (Rectus, latinul jobb). A CIP-konvenci alaptlete,
hogy felcmkznk minden szubsztituenst a centrumhoz kzvetlen kapcsold atom rend-
szma szerinti sorrendben iteratvan, majd a molekult gy helyezzk el a trben, hogy
PPh2 PPh2
PPh2 PPh2
19.1. bra. Plda az axilis kiralitsra. A BINAP (2,2-bisz(difenilfoszfino)-1,1-binaftil)

kt izomernek ktdimenzis brja. A Ph fenil csoportot jell, a kivastagtott vonalak
azon ktseket melyek a kp skja fltt vannak.
a legkisebb szmmal jelzett szubsztituens a papr skja alatt helyezkedjen el. Ekkor a
msik hrom szubsztituens vagy az ra jrsnak megfelel, vagy azzal ellenttes mdon
szmozdik. A pontos szably megtallhat brmely szerves kmia tanknyvben vagy az
IUPAC vonatkoz ajnlsban [1, 2].
Vannak a kiralitsnak specilisabb esetei, gymint az axilis kiralits (lsd a 19.1. s
19.2. brt). Vegyletek egy csoportja, a helicnek, melyek sszekapcsolt aroms gy-
rkbl llnak, hromdimenzis spirlt alkotnak. A helicnekben nem tallhat kiralits-
centrum, mgis kt formjuk ltezik: egy az ramutat jrsnak megfelel s egy azzal
ellenttes csavarmenettel.
Biolgiai rendszerekben az eltr sztereoizomereknek jelentsen eltr hatsuk lehet,
mivel a molekulris clpont s a hatanyag geometriai illeszkedse elengedhetetlen. Egy
kiroszelektv rendszerben az illeszkedsi pontok minimlis szma hrom. Tovbbi felttel,
hogy ezen interakcik hozzjrulsa a ktsi energihoz kzel azonos legyen, ellenkez eset-
ben kevesebb, mint hrom interakci dominlja a ktdst, s az izomerek affinitsban
csak csekly klnbsg lp fel. Pldul a talidomid nev szedatv szer (S ) sztereoizomere
teratogn. Ezt a szert eredetileg terhes anyk reggeli rosszullteinek kezelsre fejlesztet-
tk s Contergan mrkanven volt forgalomban. A talidomid j plda egy msik jelensgre
is, melyet racemizcinak neveznk: vannak vegyletek, melyek izomerjei talakulhatnak
egymsba biolgiai rendszerekben jelen lv enzimek segtsgvel. Ebbl kvetkezen a
tiszta (R)-talidomid szintn teratogn tulajdonsgokat mutat. Ahogy mg a fejezet ksb-
bi rszben ltni fogjuk, mg ez a veszlyes vegylet is hasznlhat szmos j indikciban,
ahol a terhessg kizrhat.
Egy molekula adott clpontra mutatott affinitsa egy disszocicis llandval definil-
hat, melyet ltalban Kd jell. Adott az albbi reakci:
T + L T L,
ahol T a ligandum mentes clpontot, L a szabad ligandumot s TL a komplexet jelli. Kd
dimenzija molris koncentrci, s defincija
[T ][L]
Kd = ,
[T L]
19.2. bra. A BINAP izomerek hromdimenzis szerkezete. Nincs aszimmetrikus sznatom

a molekulkban.
ahol a kapcsos zrjelek egyenslyi molris koncentrcikat jellnek [3].

Minl kisebb a Kd , annl aktvabb a vegylet. Az 1uM affinits azt jelenti, hogy a
clpontok fele komplex formjban van jelen a modultor 1uM/l koncentrcij oldatban,
mivel ha [L] = Kd , akkor
[T ]
Kd = Kd ,
[T L]
teht
[T ]
= 1.
[T L]
A klcsnhats erssgt a Gibbs-szabadentalpia segtsgvel fejezhetjk ki. A kt
mennyisg kztti kapcsolat:
G
ln Kd = ,
RT
ahol T a rendszer hmrsklete s R az egyetemes gzlland.
19.3. Szrsi kritriumok

A farmakolgiai tulajdonsgok kt f csoportra oszthatk: farmakodinmis (PD) s far-
makokinetikai (PK) tulajdonsgokra. A farmakodinmia ltalban azt rja le: Hogyan hat
a gygyszer a biolgiai rendszerre?, gymint mi a clpont, mennyire potens a gygyszer,
mennyire szelektv a ligandum s hasonlk. A farmakokinetika arra krdez r: Hogyan hat
a biolgiai rendszer a gygyszernkre?, gymint: hogyan trtnik a vegylet szlltsa,
elosztsa, talaktsa a szervezetben.
Egy gygyszerfejlesztsi folyamatban a vrhat biolgiai aktivits csak egy a szmos

teljestend kritrium kzl. Tovbbi nagyon fontos kritriumok egy csoportjra utal az
angol ADMET betsz: Absorption, Distribution, Metabolism, Excretion and Toxicity,
azaz Felvtel, Eloszls, Metabolizmus, Kivlaszts s Toxicits.
A legegyszerbb md a kinetika lersra, ha a molekulkat fizikokmiai tulajdonsgaik
segtsgvel rjuk le, gymint oldhatsg, polris felszn, lipofilicits, molekulatmeg stb.,
melyek alacsony tlagos hibval becslhetk tisztn szmtsos ton. Egy klasszikus ksr-
let a nem gygyszerszer vegyletek kiszrsre a Lipinski-fle ts szably alkalmazsa.
Ez a szably orlisan aktv gygyszerek esetn maximlja a hidrognkts-donorok szmt
5-ben, az akceptorokt 10-ben, a molekulatmeget 500-ban, s az oktanol-vz megoszlsi
hnyadost (lsd az albbi keretes rszt) 5-ben [4]. Ezek all a szablyok all term-
szetesen vannak kivtelek. Egy msik hasonl szably a szigorbb Hrmas szably a
fragmens alap tervezs terletn (nem azonos a Jrgensens-fle hrmas szabllyal), mely
a hidrognkts-donorok s akceptorok szmt 3-3-ban, a molekulatmeget 300-ban, az
oktanolvz megoszlsi hnyadost pedig 3-ban maximlja [5]. Ezek a tulajdonsgok nem
csak jl becslhetk, de relatve knnyen hangolhatk is a vezrmolekula kmiai mdos-
tsval.
Oktanolvz megoszlsi hnyados (LogP)

A megoszlsi hnyadost kt hatrfelletkn egymssal egyenslyban lv nem elegye-
d oldatban mrt koncentrci arnyval definiljuk.
[L]octanol
log P = log ,
[L]water
ahol L a vegylet nem ionizlt formja. A logP a lipofilicits mrtknek tekinthet. Ha
a logP alacsony, a vegyletet hidrofilnak, ha magas, lipofilnak nevezzk.
Egy koncepcionlisan eltr farmakokinetikai terlet a metabolizmus, melynek becslse

jval nehezebb. A lehetsges metabolikus reakcik ltalban megjsolhatk azltal, hogy
reakcis mintkat illesztnk a vizsglt vegyletekre, de szmos ersen aspecifikus enzim
ktds-profiljt kell szmtsba venni, hogy a valban relevns metabolikus tvonalat
azonostani lehessen. A metabolizmus clja, hogy az idegen anyagot vzoldhatbb tegye
s elsegtse a kivlasztst. A folyamat kt f rszre oszthat: A Fzis I. metabolikus
reakcik ltalban oxidatvak, mg a Fzis II. metabolikus folyamatokban endogn vegy-
letek konjugldnak az idegen anyagra. Pldul egy nagy oxidz csaldnak, a Citokrm
P450 csaldnak ltalnos rvidtsk CYP , kiemelked szerepe van szmos gygyszer
hepatikus metabolizmusban.
A metabolizmus ugyanakkor a farmakogenomika egyik els terlete is, s ezeknek az
enzimeknek szmos polimorfizmust azonostottk gygyszerek szemlyenknt eltr hat-
sval kapcsolatban. Nhny esetben, mint a warfarin s a CYP2C9 egyes polimorfizmusai,
az asszocicit feltntetik a gygyszer betegtjkoztatjn is, s a genotipizlst a klinikai
gyakorlatban is alkalmazzk segtve ezzel a dzis belltst [6]. Szmos ms specifikus
klcsnhats hzdhat mg meg a gygyszerek farmakokinetikai tulajdonsgai mgtt,
mint transzporterekhez s szvetspecifikus enzimekhez val ktds, teht a PK problma

egyszer fizikokmiai alap kezelsnek lehetsgei korltozottak.
A farmakodinmis tulajdonsgok becslsnek problmja termszetnl fogva komp-
lexebb. ltalban felttelezzk, hogy a gygyszer hatst egy vagy tbb, a kismolekula s
egy molekulris clpont kztt ltrejtt specifikus ktdsi klcsnhats kzvetti. Ugyan-
akkor a clpontok szma nagy lehet az n. piszkos vegyletek esetben, illetve aspecifikus
vagy ellentmondsos lehet mint pldul az etanol s a lipid membrnok klcsnhatsai.
Miutn nhny kedvez tulajdonsgokkal rendelkez tallatot kivlasztottunk, a k-
vetkez lps az optimalizci. Ebben a lpsben a jellt szmos analgjt szintetizljuk
s szrjk azzal a cllal, hogy jobb jellteket talljunk. A kivlasztsi kritriumok kztt
ebben a fzisban nem csak az aktivits, de a fent emltett tovbbi fontos tulajdonsgok
is szerepelnek. Egy n. QSAR (Quantitative Structure-Activity Relationship) modellt
illeszthetnk az analgszrs eredmnyeire, hogy aztn egy iteratv folyamatban valsz-
nleg jobb tulajdonsgokkal rendelkez vegyleteket tervezhessnk. Ennek sorn a jellt
molekulatmege s lipofilicitsa tipikusan nvekszik. A nvekv mret problematikus le-
het, tekintettel az ADME tulajdonsgokra, lsd pldul a Lipinski szablyokat, ezrt az
egyensly megtartsa fontos. Egy mrszm az n. ligandum-hatkonysg szles krben
hasznlatos, amivel figyelembe vehet a mret s aktivits egymssal ellenttes hatsa:
G
LE = ,
Nhv
ahol Nhv a nem-hidrognatomok szma, az n. nehzatom-szm. lland hmrskletet
felttelezve G s log Kd felcserlhetek egymssal. Az albbi metrikk definilshoz
G-t fogjuk hasznlni, de szmos ms aktivits vagy affinits jelleg mennyisg hasznl-
hat a gyakorlatban, pldul a pKd vagy a pIC50 . A mrszm egy mdostott verzijt
is javasoltk, hogy korrigljk a molekulamret tlagos aktivits sszefggs nemlineari-
tst. Ezt a mutatt SILE-nek (size-independent ligand efficiency) nevezik:
G
SILE = .
Nhv 0.3
A defincis formula alakja azzal magyarzhat, hogy az energia-hozzjruls rszben
a molekula-trfogattal, rszben az oldszer ltal elrhet molekulafelsznnel arnyos [7].
Egy tovbbi hatkonysgi mrtk az LLE (lipophilic ligand efficiency) az alacsony
lipofilicits s a nagy affinits kzti egyensly elrst segti:
LLE = G logP ;
illetve egy ltalnos mrszm mindkettre az LELP (ligand efficiency-dependent lipop-

hilicity):
logP
LELP = .
LE

Az IC50 az az inhibitor-koncentrci, amely mellett a vizsglt enzim aktivitsa fele az inhibitor nlkl
mrhetnek [3].
Ezt a mrszmot optimalizls sorn minimalizljuk, ellenttben a korbban trgyal-

takkal. A megalkotik szavaival lve: azt az rat fejezi ki, amit lipofilicitsban fizetnnk
kell egy egysgnyi ligandum hatkonysgrt [8].
Mlyebb elmleti nzpontbl tekintve a molekulamret s lipofilicits nvekedse az
entrpia-vezrelt optimalizcis stratginak tulajdonthat. Hogy ttekintst kaphassunk
az entrpia- s az entalpia-vezrelt optimalizci termszetrl, vessnk egy pillantst a
Gibbs-szabadentalpia defincijra:
G = H T S,
ahol H a nett entalpiavltozs s S a nett entrpia vltozs a ktdsi folyamat

alatt. A Gibbs-szabadentalpia optimalizlhat H minimalizlsval entalpia-vezrelt
stratgia , vagy S maximalizlsval entrpia-vezrelt stratgia.
A gyakorlatban nagyon nehz pusztn az egyik tag optimalizlsa anlkl, hogy jelents
kompenzci lpne fel a msikban. Pldul ha egy ers klcsnhatst terveznk a ligandum
s a clpont kz, ez korltozni fogja a ligandum konformcis flexibilitst s entrpia-
bntetst eredmnyez [9].
Az entalpia-tag f komponenseit a clpont s a ligandum kztti polris klcsnhat-
sok pldul hidrognkts (kedvez) s a vz, valamint a ligandum/kthely polris
csoportjainak klcsnhatsa (kedveztlen) adjk. Az entrpia-tag komponensei a szol-
vatcis entrpia s a konformcis entrpia. A szolvatcis entrpiavltozs kedvez,
azt a taszt klcsnhatst reprezentlja, mely a lipofil csoportok s a vz kztt lp fel,
de ez a ktdsi folyamat egy nyilvnvalan nem szelektv komponense. A konformcis
entrpiavltozs kedveztlen, melyet a konformcis tr szklse okoz a ktds sorn.
A fentiekbl nyilvnvalan ltszik, hogy egy nagy lipofil molekulnak nagy affinitsa le-
het. Tudjuk azonban, hogy az affinits csak egy a paramterek kzl amit optimalizlni
szeretnnk.
19.4. Mdszerek
Ha a molekulris clpont ismert, az aktv modultorok keresst a szerkezetre vonatko-
z informcik segtsgvel vgezhetjk, esetlegesen ismerve az ismert modultorokkal
mind endogn, mind exogn trtn klcsnhatsokat. Azokat a mdszereket, melyek
felttelezik, hogy a clpont szerkezete ismert, szerkezet alap mdszereknek nevezzk. A
mdszerek msik csoportja az n. ligandum alap mdszerek csak az ismert aktv
vegyletek struktrjra pt s olyan modellek ptst clozza, melyekkel azonosthatk
a kzs strukturlis jegyek vagy a szerkezethats sszefggsek.
A clpontligandum klcsnhats legegyszerbb modellje a kulcs-zr modell. Ebben
felttelezzk, hogy a clpont rendelkezik egy specifikus, relatve merev felszn rgival
a kthellyel s a ligandum valamely konformcija tkletesen beleillik ebbe a zseb-
be. A geometria mellett ms tulajdonsgok egyezsre is szksg van, amit a tltsek, a
hidrognktsek s hidrofb helyek hatroznak meg (lsd a 19.3. brt). A klcsnhats
egy sszetettebb modellje az induklt illeszkeds modellje. Ebben nem csak a ligandumot
19.3. bra. A Methotrexate (MTX) kttt llapotban clpontjnak, a Dihidrofolt reduk-

tz enzimnek az aktv helyn. (Forrs: RCSB PDB, 1RG7) Clpontligandum klcsn-
hatsok: - stacking a pteridin gyr s a fenilalanin aroms oldallnca kztt (zld
ptty), egy leucin, egy izoleucin s egy fenilalanin oldallnc hidrofb klcsnhatsa az
MTX kzps rgijval, ionos klcsnhats az MTX egyik karboxil-csoportja s egy pozi-
tvan tlttt arginin oldallnc kztt, valamint hrom hidrogn-kts az MTX egy aroms
nitrognje tovbb kt amin-csoportja rszvtelvel.
tekintjk flexibilisnek, hanem a clpontot is. Ahogy a ligandum a kthelyhez kzeledik,

klcsns erk brednek a ligandum s a clpont kztt, melyek konformcis vltozsokat
induklnak a klcsnhat felekben.
A szerkezet alap mdszerek egy pldja a molekulris dokkols, amely egy geometria
alap mdszer s segtsgvel megbecslhet a molekulk komplexnek szerkezete s a
klcsnhats erssge. A dokkolsi eljrs egy llapotteres keressi algoritmus az albbi
optimalizcis problma megoldsra: meg kell tallni a ligandum optimlis orientcijt
a clponthoz viszonytva, s ki kell rtkelni a klcsnhatsok erssgt egy klasszikus
fizikai tnyezket tartalmaz kzelt pontozfggvny segtsgvel. A dokkolst merev
testek segtsgvel is vgre lehet hajtani, illetve kztes esetnek tekinthetjk, ha a receptor
merev, de a ligandum flexibilis. A dokkols egy sokkal szmtsintenzvebb verzija az
induklt illeszkedst is szmtsba veszi.
Az optimalitsi kritrium a dokkols sorn lehet egy empirikus pontozfggvny, vagy
a komplex becslt potencilis energija, amely egy ertrrel: heurisztikusan meghatro-
zott fggvnnyel s annak paramtereivel van definilva. ltalnossgban az energit egy

sszeg formjban rjk fel, mint pldul:
E = Ebond + Eangle + Edihedral + EV dW + ECoulomb .
A hasznlt ertrtl fggen a hozzjrulsok alakja s a paramterek eltrnek. A

paramtereket empirikusan hangoljk be ksrletes eredmnyek s nagy pontossg kvan-
tumkmiai szmtsok segtsgvel.
Pldul a ktshosszra vonatkoz potencil lehet egyszer harmonikus, vagy lehet
Morse-potencil:
2
VM = De 1 ea(rre ) ,
ahol De a disszocicis energia, re az egyenslyi ktshossz s a a szlessg paramter.
A Van der Waals-potencil LennardJones-potencillal kzelthet:

12 6
VLJ = 3 ,
r r
ahol a potencilrok mlysge s az a tvolsg, ahol a potencil nulla. Szmos ms
alak fggvnyt is hasznlnak a fent emltett pldkon tl. Dokkols esetn a model-
lezett folyamat vz jelenltben jtszdik le, teht gyakran vezetnek be tovbbi tagot a
szolvatci implicit modellezsre.
A ligandum alap QSAR s QSPR (Quantitative Structure-Property Relationship) sz-
les krben elfogadott s npszer eljrsok a gygyszertervezsben. Ezeket a kifejezseket
sszefoglalan hasznljuk minden statisztikai modellre, ami kapcsolatokat r le valamely
tulajdonsg (mint aktivits QSAR esetn, vagy valamely fizikokmiai tulajdonsg QSPR
esetn) s a kmiai struktra kztt. Ezek a modellek ltalban a kmiai tr valamely
korltozott tartomnyban rvnyesek: az analgok egy halmazn. Szmos statisztikai
mdszer alkalmas QSAR modellek ptsre, pl.: regresszis mdszerek (ltalban dimen-
zicskkentssel, mint a PLS), neurlis hlzatok, SVMek.
Ha a molekulris clpont nem ismert, szmos hasonlsg alap keressi mdszer hasz-
nlhat. Ezeknek a mdszereknek szmos kzs tulajdonsga van a QSAR modellezssel.
Mindkt esetben az els lps a vegyletek reprezentcijt szemantikailag rtelmezhet
formra transzformlni. Egy lehetsges megolds az ujjlenyomatok ksztse. Ebben az
esetben a szerkezeteket szekvencilis adatt, ltalban binris sztringg vagy szmok so-
rozatv alaktjuk. Minden szm egy elemi tulajdonsgnak felel meg, mint pldul egy
szerkezeti elem meglte. A strukturlis kulcsok a grfreprezentcin vagy akr a hromdi-
menzis szerkezeten is kirtkelsre kerlhetnek. A 3D ujjlenyomatok egy specilis esete a
farmakofr ujjlenyomatok. A farmakofr jelentse gygyszer- (pharmacon) tulajdonsgok
hordozja (phoros); strukturlis elemek egy halmaza s ezek relatv orientcija melyet
a clpont felismer. Normlis esetben sokkal tbb elklnthet tulajdonsg ltezik, mint
ahny bitnk egy molekula reprezentcijra rendelkezsre ll, ezrt egy alacsony tkzsi
valsznsggel rendelkez hash-fggvnyt hasznlunk, hogy tmrtsk az ujjlenyomatot.
A fent emltett ligandum alap mdszerek nyilvnval sszhangban vannak a hasonl
tulajdonsgok elvvel: ha kt molekula nagyon hasonl, a tulajdonsgaik is valsznleg
19.4. bra. sztradiol (balra) s Dietilstilbsztrol (jobbra). A vastagtott ktsek a kzs

rszstruktrt mutatjk. A jobb oldali molekulban kt kts hinyzik a vz B s C
gyrjbl, lehetv tve ezzel a molekula egyes rszeinek szabad rotcijt. Ugyanakkor
egy bevezetett ketts kts valamelyest korltozza a konformcis tr mrett. Rszletes
konformcianalzisrt lsd Wiese s munkatrsai munkjt [10].
hasonlk. A klasszikus mdszerek f htrnya, hogy a kiindulsi pont szk krnyezetben

keresik az j vegyleteket. Egy hasonl farmakolgiai tulajdonsgokkal, de eltr alap-
vzzal rendelkez molekula hasznos lehet egyes esetekben, pldul nagyon gyenge ADME
tulajdonsgok esetn, vagy ha szabadalmi problma merl fel. Ez a szksglet ltszlag
ellentmondsban van a hasonl tulajdonsgok elvvel. A konfliktus megoldst az alapvz
ugrs (scaffold hopping, core hopping) mdszere nyjthatja. Ahelyett, hogy az oldalln-
cokat mdostjuk, a molekula alapvzt transzformljuk szisztematikusan, vagy teljesen
lecserljk gy, hogy a szerkezet lnyegi elemei ne vltozzanak meg. Tbb-kevsb fo-
lyamatos a spektrum az egy-atom helyettestses mdszerektl az j alapvz tervezsig.
J pldt szolgltatnak a kztes mdszerekre a gyrmanipulcik. Farmakodinmis
rtelemben egy merev molekula magas sszektttsggel elnys, mert a merev struktr-
nak kevesebb konformere van, teht a clponthoz val ktds energetikailag kedvezbb:
a rendszer entrpiavesztesge mrskeltebb. Ha van egy flexibilis molekulnk s ismer-
jk ennek aktv konformcijt, rgzthetjk a molekult ebben a konformciban egy
gyrzr kts bevezetsvel. Tovbbi elnys tulajdonsga egy merev molekulnak a
magasabb szelektivits. A sok elnynek ugyanakkor ra is van. Egy merev rendszer
szmos gyrvel ltalban rosszabb oldhatsggal rendelkezik s ADME tulajdonsgai
rosszabbak. Nha fel kell nyitnunk gyrket, hogy kedvezbb ADME tulajdonsgokkal
rendelkez rendszereket hozzunk ltre, vagy szndkosan cskkentsk a vegylet hatst
egy adott clponton.
A dietilstilbsztrol, egy a 40-es vektl a 70-es vekig szles krben hasznl szintetikus
sztrogn, nagyon hasonl az sztradiol egy gyr-felnyitott analgjhoz (lsd a 19.4.
brt).
19.5. Fragmens alap tervezs

Egy biztat, a nagy teresztkpessg mdszereket kiegszt megkzelts a fragmens
alap tervezs. Ebben a megkzeltsben jelentsen kevesebb vegyletet szrnk le a mo-
lekulris clponton. Ez a kisebb knyvtr kicsi molekulkat tartalmaz, s a cl olyan
kis klcsnhatsok detektlsa, amik felhasznlhatk egy nagy affinits jellt fragmen-
sekbl trtn felptsre. Ez a nagy rzkenysget kvetel meg, mely arra kszteti a
vegyszeket, hogy nagy informci tartalm ksrleti mdszereket, pldul NMR spekt-
roszkpit alkalmazzanak in silico mdszerek helyett. Ez a mdszer ksrletektl val
fggsghez vezet, habr jabban egyre tbben tesznek ksrletet fragmensek azonost-
sra szmtsos mdszerekkel is. Egy erre alkalmas mdszer lehet a dokkols [11]. Az
affinits meghatrozsra hasznlt mdszer legyen br ksrleti vagy in silico struk-
turlis informcikkal szolglhat a gyenge klcsnhatsokrl, lehetv tve, hogy olyan
egymssal nem tfed fragmensekbl, melyek kzeli kthelyeken ktdnek, ligandumot
ptsnk fel. Egy megfelel in silico eljrs lehet erre a dokkols. Ha a nem tfed frag-
menseket azonostottuk, megfelel linkerek tervezhetk kzjk. tfed fragmensek esetn
sszeolvasztsos stratgia hasznlhat. Ez a fajta oszd meg s uralkodj stratgia nagy
kmiai tr bejrst teszi lehetv exponencilis mrtk erforrs-megtakarts mellett.
Egy minden lehetsges gygyszerszer vegyletet reprezentl halmazzal trtn szrs
lehetetlen a kmiai tr mretei miatt, de a kis mret fragmensek terben ez egy realiszti-
kus cl lehet. A molekulris clpont karakterizlhat egy fragmens-szrs segtsgvel, gy
a clpont gygyszerelhetsge megbecslhet. A fragmens alap megkzelts segteni
tudja a vezrmolekula-optimalizls fzist is, mivel a fragmenseket valamely ligandum-
hatkonysg alap kritrium segtsgvel vlaszthatjuk ki, teht a molekulatmeg s a
lipofilicits kontrolllhat.
19.6. Gygyszer-jrapozicionls
A gygyszer-jrapozicionls (drug repositioning) egy kifejezs, arra a gyakorlatra utal
mikor egy mr elfogadott hatanyagot jrahasznlunk egy j terpis indikciban. Ez
a koncepci npszersgt annak ksznheti, hogy kltsghatkony: a biztonsgossgi s
toxicitsvizsglatok mr egyszer lezajlottak, s az eredmnyeik vagy azok egy rsze
jra felhasznlhat. Az jrapozicionls kontextusban sokkal gazdagabb informcifor-
rsok llnak rendelkezsre, gymint mr ismert mellkhatsok, indikcik, mr ismert
molekulris clpontok s hasonlk. A gygyszerkutats trtnetben szmos vletlenszer
jrapozicionls trtnt. Egy jl ismert plda a sildenafil esete, melyet eredetileg kardiol-
giai indikcikra fejlesztettek ki (angina pectoris, magas vrnyoms) majd ksbb Viagra
mrkanven kerlt forgalomba mint erektilis diszfunkci kezelsre szolgl gygyszer. A
kt indikci kzs tulajdonsgt a gygyszer rtgt hatsa clozza meg, melyet annak
egy foszfodiszterz altpuson a PDE5-n mutatott gtl hatsa kzvett.
A gygyszer-jrapozicionls hatkony eszkze a ritka betegsgek elleni gygyszerfej-
lesztsnek is. A ritka betegsg s a hozz trsul orphan drug szmos orszgban jogi
kategria, intuitven gy definilhat, mint egy olyan betegsg (s a kezelsre szolgl
gygyszer), mely olyan ritka, hogy a gygyszerfejleszts klasszikus megkzeltsei nehezen
kivitelezhetk s nagyon gazdasgtalanok. Pldul a korbban emltett teratogn gygy-
szer, a talidomid jrapozicionlhat nhny lepra-tpus s daganatos megbetegeds ellen,
tovbb immunszupresszns tulajdonsgokkal is rendelkezik. Nincs les hatr az orphan
drug koncepci s a valdi szemlyre szabott medicina kztt, mivel szmos ritka be-
tegsget ritka genetikai mutcik okoznak, s extrm esetben a betegsg kezelse ersen
betegspecifikus kell, hogy legyen.
A gygyszer-jrapozicionls kontextusban az adatfzis technikk (melyeket a He-
terogn biolgiai adatok fzis elemzse cm fejezetben trgyalunk) klnsen haszno-
sak lehetnek [12]. Szmos klnbz tpus informciforrssal rendelkeznk, gymint a
kmiai szerkezet, a mellkhatsok, genetikai faktorok, a molekulris clpontok, rintett
biokmiai tvonalak stb. A hasonlsg alap megkzelts kiterjeszthet ezekre az adat-
forrsokra is. Igen gazdag adatbzis pldul szmos fenotpusos informci nyerhet
korbbi vizsglatokbl s a posztmarketing informcikbl. A fenotpus a fogalom tradi-
cionlis rtelmezsben statikus tulajdonsg, az organizmus egy megfigyelhet jellegze-
tessge. Gygyszerhatanyagok esetn a kmiailag gerjesztett biolgiai rendszer nhny
tulajdonsgt vizsgljuk, mint a biokmiai vltozsokat, hatsokat, mellkhatsokat. A
mellkhats alap hasonlsgi mrtket pldul Campillos s munkatrsai javasoltk 2008-
ban [13]. A hipotzis az albbi volt: ha kt gygyszernek szmos mellkhatsa kzs, felte-
heten van kzs molekulris clpontjuk, vagy legalbb vannak olyan clpontjaik, melyek
egyazon biokmiai tvonalon helyezkednek el.
A gygyszer-jrapozicionls terletn elrhet informcik gazdagsga idelis hatr-
terlett teheti azt a gygyszerkmia, biolgia s a big data kutatsok szmra.
Irodalomjegyzk
[1] Lajos Novk and Jzsef Nyitrai, Szerves kmia. 2001.
[2] International Union of Pure and Applied Chemistry. Commission on the Nomenc-
lature of Organic Chemistry, R. Panico, W. H. Powell, and J. C. Richer, A Guide
to IUPAC Nomenclature of Organic Compounds: Recommendations 1993. IUPAC
chemical data series. Blackwell Scientific Publications, 1993.
[3] Kenneth A. Krohn and Jeanne M. Link, Interpreting enzyme and receptor kinetics:
keeping it simple, but not too simple. Nuclear Medicine and Biology, 30(8):819826,
2003. Workshop on Receptor-Binding Radiotracers 2003.
[4] Christopher A. Lipinski, Franco Lombardo, Beryl W. Dominy, and Paul J. Feeney,
Experimental and computational approaches to estimate solubility and permeability
in drug discovery and development settings. Advanced Drug Delivery Reviews, 23(1
3):325, 1997.
[5] Miles Congreve, Robin Carr, Chris Murray, and Harren Jhoti, A Rule of Three for
fragment-based lead discovery? Drug Discovery Today, 8(19):876877, 2003.
[6] Guruprasad P. Aithal, Christopher P. Day, Patrick J. L. Kesteven, and Ann K. Daly,
Association of polymorphisms in the cytochrome P450 CYP2C9 with warfarin dose
requirement and risk of bleeding complications. The Lancet, 353(9154):717719, 1999.
[7] J. Willem M. Nissink, Simple size-independent measure of ligand efficiency. Journal

of Chemical Information and Modeling, 49(6):16171622, 2009. PMID:19438171.
[8] Gyrgy G. Ferenczy and Gyrgy M. Keser, Thermodynamics guided lead discovery
and optimization. Drug Discovery Today, 15(2122):919932, 2010.
[9] Adam J. Ruben, Yoshiaki Kiso, and Ernesto Freire, Overcoming roadblocks in le-
ad optimization: A thermodynamic perspective. Chemical Biology & Drug Design,
67(1):24, 2006.
[10] T. E. Wiese, D. Dukes, and S. C. Brooks, A molecular modeling analysis of diethylstil-

bestrol conformations and their similarity to estradiol-17 beta. Steroids, 60(12):802
808, 1995.
[11] Huameng Li and Chenglong Li, Multiple ligand simultaneous docking: Orchestrated
dancing of ligands in binding sites of protein. Journal of Computational Chemistry,
31(10):20142011, 2010.
[12] A. Arany, B. Bolgar, B. Balogh, P. Antal, and P. Matyus, Multi-aspect candidates for
repositioning: Data fusion methods using heterogeneous information sources. Current
Medicinal Chemistry, 20(1):95107, 2013-01-01T00:00:00.
[13] Monica Campillos, Michael Kuhn, Anne-Claude Gavin, Lars Juhl Jensen, and Peer
Bork, Drug target identification using side-effect similarity. Science, 321(5886):263
266, 2008.
20. fejezet
Metagenomika
20.1. Bevezets
A mikrobk mindentt ott vannak. Az 5 1030 -ra becslt bakterilis s archaea sejt (az-
az a prokaritk) az alapvet tpanyagok (szn, nitrogn, foszfor) legnagyobb raktrai
a Fldn, s egyes becslsek szerint a biomassza legnagyobb rszt is ezek alkotjk [1].
Bolygnkon rengeteg olyan extrm krnyezet tallhat, ahol csak a prokaritk kpesek
a tllsre, legyen az rendkvl meleg, hideg, savas vagy ss hely. Lteznek mikrobk,
amelyek kpesek a termszetben elfordul toxinok vagy az emberi tevkenysgek mel-
lktermkeknt keletkez mestersges toxinok (pl. olajfoltok) lebontsra. Br tbbnyire
szabad szemmel nem lthatk, a mikrobk valjban ltfontossgak a Fldn l min-
den letforma, kztk az ember szmra is [2]. A mikrobk alaktjk vissza az lettelen
anyagot abba a formba, amelyet mr minden ms llny kzvetlenl fel tud hasznlni.
Majdnem minden tbbsejt eukarita llny szoros szimbizisban l olyan mikrobilis
kzssgekkel, amelyek ltfontossg tpanyagokat s vitaminokat lltanak el a gazda-
szervezet szmra. Az emsztrendszernkben s sznkban l mikroorganizmusok teszik
lehetv, hogy kinyerjk az energit azokbl az telekbl, amelyek egybknt emszthetet-
lenek lennnek. A bennnk s rajtunk l komplex mikrobilis kzssgek aktvan rszt
vesznek a betegsget okoz gensek elleni vdelemben. Valjban az emberi test egyfaj-
ta szuperorganizmusnak is tekinthet, hiszen a sajt kb. 1013 darab sejtnknl mintegy
10-szer tbb, 1014 baktrium l a szervezetnkben [1, 2].
Az 1995-ben vgzett els bakterilis teljes genom projekt ta [3] a mai napig ezernl
is tbb baktrium genomi szekvencija vlt ismertt. Ezek a vizsglatok s az ltaluk
szerzett nagy mennyisg adat s tuds nagyban elsegtettk a komparatv genomika s
a rendszerbiolgia tudomnynak fejldst. Mindazonltal az gy szerzett hatalmas
mennyisg adat s tuds ellenre az egyetlen organizmuson vgzett kutatsoknak szk-
sgszer korltai vannak: Elszr is, annak rdekben, hogy egy mikroba teljes genomjt
meg lehessen szekvenlni, a jelenlegi technolgiai elvrsok szerint az adott organizmust
elszr ki kell tenyszteni. Ez pedig nagyon ritkn sikerl, ugyanis a termszetben l
mikrbknak csak nagyon kis szzalkt lehet laboratriumi krlmnyek kztt felszapo-
rtani. Msodszor, a mikrbk rendszerint bonyolult kzssgekben lnek, amelyekben az
egyes fajok klcsnhatsban llnak egymssal s a krnyezetkkel. Emiatt a kitenysztett

20. Metagenomika 265
organizmusok vizsglata nem kpes vals kpet nyjtani az egyes llnyek klcsnhat-
sairl, a funkcionlis kpessgeirl vagy a populciban megfigyelhet genomi vltozatos-
sgrl.
Az j genercis szekvenlsi technolgik megjelense nagyban megknnytette a
mikrbk vizsglatt a fent emltett korltozsok kikszblsvel. A krnyezeti minta-
vtelezs lehetv teszi, hogy kzvetlenl a mikrobilis kzssgek termszetes lhelyrl
szerezzk be a genomi informcit. Nhny faj egyedenknti vizsglata helyett az j tech-
nolgia kpess tesz minket arra, hogy a kzssget mint egszt vizsgljuk. Ezek nyomn
j tudomnyg szletett: a metagenomika a kzvetlenl a krnyezetbl szrmaz genomi
szekvencik (azaz a metagenom) vizsglata.
Mindazonltal a krnyezeti szekvenlsnak is megvannak a maga korltai. Egy egyedi
organizmust vizsgl genom projekt sorn majdnem teljes kpet kaphatunk a mikroba ge-
nomjrl: a rvid genomi szekvencik sszeilleszthetk, annotlhatk, a gnek s operonok
helye kikvetkeztethet. Ezzel szemben a krnyezeti mintavtelezs nem ilyen egyszer.
Minden egyes szekvenciatredk klnbz fajhoz tartoz llnyekbl is szrmazhat, s
sok klnbz faj is elfordulhat a mintban. Emiatt a teljes genomok sszeillesztse csak
specilis krnyezetek esetn lehetsges, amelyben pldul egyetlen faj dominlja a mintt,
s mg ebben az esetben is csak a dominns faj genomja hatrozhat meg. A term-
szetben elfordul krnyezetek legnagyobb rszben rengeteg klnbz faj tallhat, gy
a genomok sszeillesztse nem lehetsges. Ezekben az esetekben a rvid szekvencikbl
sszeillesztett kontigok mrete ltalban nem haladja meg az 5000 bzisprt. Kvetkezs-
kppen a szekvencik annotcija csak rszben lehetsges, gy mindssze vzlatos kpet
kaphatunk a mikrobilis kzssg felptsrl.
Ebben a fejezetben ttekintjk a metagenomok elemzsnek f megkzeltseit, majd
vgigkvetjk egy tipikus metagenomikai projekt munkafolyamatt.
20.2. A metagenom elemzse

Ebben az alfejezetben rviden ttekintjk a metagenomok elemzsnek f megkzeltseit.
20.2.1. A kzssget alkot fajok beazonostsa

Elfordulhat, hogy csak arra vagyunk kvncsiak, hogy milyen fajokbl ll a vizsglt kr-
nyezet (Kik vannak ott?). Ebben az esetben a teljes genomi szekvenls helyett marker
gnek szekvenlsa is elegend lehet univerzlis primerek segtsgvel, ami egy relatve
gyors s kltsghatkony mdja a bakterilis diverzits megbecslsnek. Emellett ezt a
mdszert gyakran hasznljk nagyobb metagenomikai vizsglatok elzetes lpseknt is
a krnyezet kezdeti felmrsre [4], illetve a bakterilis kzssg sszettelnek idbeli s
trbeli vltozsnak monitorozsa cljbl [5].
A leggyakrabban hasznlt marker gn a 16S rRNS a prokaritk, illetve a 18S rRNS
az eukaritk vizsglatra. A riboszomlis RNS (rRNS) a fehrjeszintzisben szerepet
jtsz riboszmk elengedhetetlenl fontos alkotrsze, amely az evolci sorn ersen
konzervldott, ugyanakkor elegend mrtkben vltozatos is ahhoz, hogy az evolcis

tvolsg egy j markere lehessen. A szleskr hasznlatt a hatalmas rRNS gnszekvencia

adatbzisok is elsegtik [6, 7].
A 16S rRNS hasznlatnak egyik htrnya, hogy a klnfle bakterilis fajokban eltr
szm msolattal rendelkezik, amely ersen befolysolja a kzssg sszettelnek becslsi
pontossgt. Ennek a htrnynak a kikszblsre ms, egyetlen kpiban meglv gne-
ket (pl. RpoB ) is alkalmaztak hasonl clokbl. Ezek ugyanis lehetv teszik a kzssgi
sszettel pontosabb becslst, szemben a vltoz szm kpival rendelkez 16S rRNS
hasznlatval [8]. Mindazonltal a ltez bakterilis szekvencia-adatbzisok lnyegesen
kevesebb ilyen gnekbl szrmaz szekvencit tartalmaznak.
A marker gnek hasznlatnak msik htrnya az, hogy a gn szekvencijnak meg-
hatrozshoz mindenkppen valamilyen mdon primereket kell vlasztani. Annak elle-
nre, hogy ezek a gnek evolcisan konzervldtak, mindig megvan az eslye, hogy a
kivlasztott primerek nem illeszkednek (teljesen) a mintban tallhat egyes fajok DNS-
szekvencijra, ami ezen fajok azonostst ersen megnehezti.
Virlis kzssgek beazonostsa mg ennl is nehezebb, ugyanis nem ltezik univerz-
lisan konzervldott marker gn a vrusok esetn. Ebben az esetben a shotgun-szekvenls
az egyetlen lehetsg.
20.2.2. Funkcionlis metagenomika

A kzssget alkot fajok beazonostsa mellet arra is kvncsiak lehetnk, hogy a vizs-
gland metagenom funkcionlisan mire kpes (Vajon mit csinlhatnak?). Ebben az
esetben nem felttlenl szksges tudnunk, hogy melyik gn melyik szervezetbl szrma-
zik; ugyanannak a gnnek a termke ugyanazt (vagy nagyon hasonl) szerepet tlt be attl
fggetlenl, hogy melyik fajbl szrmazik eredetileg. Ezen ltalnos feltevsnek megfele-
len a funkcionlis metagenomikai megkzeltsben a klnbz fajok helyett a kzssg
egsznek gnkszletre fkuszlunk.
Ebben az esetben a krnyezetbl nagy mennyisg DNS-t mintavteleznk, majd ha-
gyomnyos Sanger-mdszerrel vagy j genercis szekvenlsi technolgival meghatroz-
zuk a szekvencik bzissorrendjt. Ezutn a leolvasott szekvencikat a lehetsgekhez mr-
ten sszeillesztjk, meghatrozzuk a lehetsges nyitott leolvassi kereteket (open reading
frame, ORF), majd meghatrozzuk ezek biolgiai funkciit. Ezt funkcionlis annotlsnak
nevezzk. Az gy meghatrozott biolgiai funkcikat s gneket ezutn azonostjuk meg-
lv biolgiai hlzatokban, pldul metabolikai tvonalakban. Az alul-, illetve fellrep-
rezentlt biolgiai funkcik s tvonalak a bakterilis kzssg funkcionlis kpessgeirl
rulkodnak.
Termszetesen ennek a mdszernek is megvannak a maga korltai. A legtbb esetben
a kzssg tlsgosan bonyolult ahhoz, hogy teljes vagy akr csak majdnem teljes geno-
msszerekst lehessen vgezni, gy csak a nyitott leolvassi kereteknek csak rszeit lehet
azonostani. Ezek homolg szekvenciit meg lehet keresni ltez adatbzisokban ahhoz,
hogy a jsolt kdolt fehrje funkcijt meghatrozzuk, de ezt szksgszeren korltozza
az adatbzisokban rendelkezsre ll informci mennyisge. A nyitott leolvassi kere-
tekben lehet motvumokat vagy ms szekvenciamintzatokat is keresni, amelyek a kdolt
fehrje funkcijra utalhatnak (Mire kpes a jsolt fehrje?), de ebbe a folyamatba sok

hiba csszhat a nyitott leolvassi keretek tredkes volta miatt vagy a motvumkeres
algoritmusok s a tudsunk hinyossgai miatt [1].
A kzssg funkcionlis kpessgeinek meghatrozsa mellett a vletlen shotgun-szek-
venls akr tbb informcit is tud nyjtani a kzssg diverzitsval, taxonmiai ssze-
ttelvel kapcsolatban, mint a marker gneken alapul mdszerek, ugyanis ezt nem kor-
ltozzk a primer szekvencik hasznlatval sszefgg problmk. Ebbl ereden ezen
mdszerrel kpesek vagyunk bakteriofgok s egyb vrusok azonostsra is a prokari-
tk s eukaritk mellett. St, j fajok detektlsra is, amelyeket a nem tlsgosan
univerzlis primerek hasznlatval nem talltunk volna meg.
20.3. Metagenomika lpsrl lpsre

Ebben az alfejezetben rviden demonstrljuk egy tipikus vletlen shotgun-szekvenls ala-
p metagenom projekt elemzsnek tipikus lpseit.
20.3.1. Mintavtelezs
Mintamret-megfontolsok a fajok diverzitsnak tkrben
Egy metagenomikai projekt a krnyezetbl val mintavtelezssel kezddik. A f krds
ezzel kapcsolatban az, hogy honnan tudjuk, hogy elegend mintt gyjtttnk, ha nem
ltjuk azokat az organizmusokat, amelyeket ssze szeretnnk gyjteni?
Emellett vajon hny szekvencia lesz elg? Ez egyrszt a bakterilis kzssg struktr-
jn (biodiverzitsn), msrszt pedig a vizsglatunk cljtl fgg. A tovbbiakban ezeket
a szempontokat fogjuk rszletezni.
A kzssg struktrjnak komplexitsa az azt alkot klnbz fajok szmtl (rich-
ness, gazdagsg) s azok relatv gyakorisgtl (evenness, egyenletessg) fgg. A legtbb,
termszetben elfordul krnyezetben a fajok relatv gyakorisga nem egyenletes. A leg-
egyszerbb mdszer ennek az egyenetlensgnek az brzolsra az n. rang-gyakorisg
grbe, amelyben minden egyes taxonmiai egysget egy a gyakorisgval arnyos nagy-
sg oszlop reprezentl a leggyakoribb fajtl a legritkbbig (lsd az 20.1. brt). Egy
kiegyenslyozott populciban a rang-gyakorisg grbe egyenletes lenne.
Hogyan kapcsoldik mindez a szekvenlshoz? Ha egy szekvenlsi platform kpes
lenne egyetlen sejt teljes genomjnak a pontos szekvenlsra, akkor sejtenknt egyetlen
szekvencia elegend lenne ahhoz, hogy meglehetsen j kpet kapjunk egy egyetlen fajhoz
tartoz egyetlen egyedrl. Ugyanakkor a jelenlegi technikai felttelek mindssze 50700
bzispr hosszsg leolvassokat engednek meg, s a rvid fragmenseket a leolvassokban
szerepl tfed rszek alapjn kell sszerakni. Az egy nukleotidra jut tlagos leolvassok
szmt lefedettsgnek nevezzk. Ttelezzk fel, hogy a krnyezetben tallhat dominns
faj genomjnak mrete 3 Mbp (pl. a S. pneumoniae genomjnak mrete kb. 2.2 Mbp),
a relatv gyakorisga a populciban legyen 10%. Tegyk fel, hogy a szekvenls sorn
700 Mbp-nyi szekvencit olvastunk le (egy futs sorn a Roche GS FLX Titanium XL+
rendszernek tipikus teljestmnye). Ebben az esetben a dominns fajt krlbell 70 Mbp

Egyedek szma
1000
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Eloszls rangja
20.1. bra. Rang-gyakorisgi grbe
szekvencia reprezentlja, ami megkzeltleg 23.3X lefedettsget eredmnyez. Ugyanak-

kor egy alacsony gyakorisg faj esetn (legyen pldul 0.1% a populciban) az tlagos
lefedettsg 0.23X lesz.
Ahogyan azt korbban emltettk, a vizsglat cljai szintn befolysoljk, hogy mennyit
szksges szekvenlni. Tbb mint 20-szoros lefedettsg szksges ahhoz, hogyha a popu-
lciban jelenlv genetikai varicit (pl. egypontos nukleotid polimorfizmusokat) is meg
szeretnnk figyelni. Az elz pldban emltett dominns faj esetn kiszmtott lefedettsg
ehhez elegend. Krlbell 6-szoros lefedettsg szksges egy vzlatos genomsszeraks-
hoz. Mindazonltal sokkal kevesebb szekvencia is elegend lehet ahhoz, hogy a kzssgben
mint egszben fellreprezentlt gneket azonostani lehessen [9].
Metaadatok
A krnyezeti mintavtelezs mellett a metaadatok pontos rgztse elengedhetetlen: hol,
mikor s milyen krlmnyek kztt vettk a mintkat. A metaadatok kre krnyeze-
tenknt vltoz: egy talajbl vagy termszetes vzbl szrmaz minta esetn szksges
rgzteni biokmiai adatokat (pl. pH-rtk, oxigntartalom stb.), fldrajzi adatokat (pl.
GPS-koordintk), a mintk kezelsre vonatkoz adatokat (dtum s idpont, DNS-
kivonatolsi eljrs stb.). Emberi mikrobilis mrsek esetn fontos rgzteni az orvo-
si, kezelsre vonatkoz adatokat (patolgia, krtrtnet stb.); a mintakezelsre vonatkoz
adatokat (mintavtelezsi dtum s idpont, a pontos hely s szvet, ahonnan a minta
szrmazik stb.) [9, 1, 2].

20.3.2. Szekvenls
Az j genercis szekvenlsi platformok (next generation sequencing, NGS) megjelense
nagyban lecskkentette a krnyezeti mintkbl szrmaz DNS szekvenlsnak kltsgeit
s idejt a korbbi technolgikhoz kpest. Mindazonltal a Sanger-szekvenls a hossz
leolvassi hossz (>700 bp) s az alacsony szekvenlsi hibaarny miatt tovbbra is alter-
natvt jelenhet [10].
Kt NGS technolgit hasznltak eddig jellemzen metagenomikai kutatsokban: a
454/Roche s az Illumina/Solexa platformokat, amelyek kzl most rviden bemutatjuk
a Roche technolgijt. A GS FLX+ rendszer egy futsa sorn a munkafolyamat hrom
f lpsbl ll: a DNS-knyvtr elksztse, emulzis PCR s a szekvenls. A DNS-
knyvtr elksztse sorn rvid, univerzlis adaptereket adnak hozz a vletlenszeren
feldarabolt DNS fragmensek mindkt vghez. Ezeket az adaptorokat a tovbbi amplifik-
cis s szekvenlsi lpsek sorn hasznljk. A DNS darabkkat ezutn mikroszkopikus
gyngykhz kapcsoljk, s belentik egy vz-az-olajban emulzis keverkbe (egy fragmens
egy gyngyn, egy vzcseppben). Az emulzis PCR sorn a gyngyn tallhat egyetlen
templt DNS molekult felsokszorozzk, mg vgl nhny milli msolata fog a gyngyhz
kapcsoldni. A gyngyket egy specilis plate (PicoTiterPlateTM , PTP) apr regeibe tl-
tik a piroszekvenlsi reakcihoz szksges enzimekkel egytt. A szekvenlsi lps sorn
nukleotidokat ramoltatnak keresztl a PTP-en egymst kvet turnusokban, s a templt
szlakkal komplementer nukleotidok beplnek DNS polimerz kzremkdsvel, ami a
beplt nukleotidok szmval arnyos erssg fnykibocstssal jr. A kibocstott foto-
nokat egy CCD kamera rgzti s konvertlja bzissorrendd [11]. Ez a folyamat masszvan
prhuzamosan trtnik, amely 1 milli leolvasst (rvid szekvencit) eredmnyez fut-
sonknt. Kevesebb mint egy nap alatt sszesen 700 Mbp hosszsg szekvencia keletkezik;
a leolvassok hossznak medinja krlbell 700 bzispr [12]. Multiplexels hasznlatval
pedig egyetlen futs sorn akr 132 minta szekvenlsra is lehetsg van.
20.3.3. Genomsszeraks
A genomsszeraks folyamata sorn a leolvassokat sszeillesztjk az tfed rszszekvenci-
k alapjn nagyobb, sszefgg DNS szakaszokk, n. kontigokk. A kontig konszenzusos
szekvencijt ezutn ltalban az adott pozciban leggyakoribb nukleotid alapjn lltjuk
el.
Egyetlen organizmus teljes genomjnak sszeraksa is problms lehet a genomjban
szerepl repetitv rgik miatt. Ugyanakkor a metagenom sszeraksa ltalban mg bo-
nyolultabb. A szekvencik klnbz organizmusokbl szrmaznak, s ezen szekvencik
sszeillesztse tves eredmnyre, n. kimrk keletkezshez vezet. Ez a jelensg mg
gyakrabban fordul el kzeli rokonsgban ll organizmusok esetn. A szekvenlsi er-
fesztseinktl fggen az alacsony gyakorisg fajokrl esetleg csak nhny szekvencit
sikerl leolvasni, ami elmletileg is lehetetlenn teszi a genomjuk sszerakst.
Ezekbl kvetkezen egy tipikus metagenomikai vizsglatban az sszeillesztett kontigok
mrete ltalban nem haladja meg a nhny ezer bzisprt. Ennek slyos kvetkezm-
nyei vannak a tovbbi elemzsi lpsek szempontjbl, ugyanis ez a mrettartomny csak

a rvid gneket s fehrjedomaineket fedi le hosszabb funkcionlis egysgeket, pldul

operonokat, hosszabb gneket vagy teljes kromoszmkat nem fogunk tudni sszeilleszte-
ni [1].
A leolvasott szekvencik sszeillesztse megfogalmazhat gy, mint egy tkeressi al-
goritmus a szekvencikat reprezentl grfban. Minden egyes leolvasott szekvencia meg-
feleltethet a grf egy csompontjnak, s kt csompont kztt akkor fut l, ha az adott
szekvencik tfednek. Ebben az esetben a genom sszeraksa megfelel egy Hamilton-
kr keressi problmnak, amelyben minden csompontot pontosan egyszer ltogatunk
meg. Ez azonban metagenomikai vizsglatok sorn nem alkalmazhat a feladat NP-teljes
szmtsi komplexitsa miatt, a Hamilton-kr megtallshoz szksges id ugyanis expo-
nencilis mrtkben n a leolvassok szmnak nvekedsvel. Ezt a megoldst ltalban
csak kisebb genomok sszeraksra s hosszabb (tipikusan Sanger) szekvencik leolvassa
esetn szoktk alkalmazni.
Egy msik megkzeltsben a grf csompontjai k-mret szavakat jelentenek, s a le-
olvasott szekvencik azoknak az leknek feleltethetk meg, amelyek a megfelel csompon-
tokat (rsz-szavakat) sszektik. Ennl fogva a csompontok szma fggetlen a leolvasott
szekvencik szmtl. A genom sszeraksa ekkor egy Euler-kr keressi problmaknt
fogalmazhat meg, amelyben minden let pontosan egyszer ltogatunk meg. Erre ltezik
lineris idej algoritmus, ami ezltal lehetv teszi a genom sszerakst metagenomi-
kai alkalmazsok esetn is (termszetesen a korbban megfogalmazott korltozsokkal).
Tbb, szabadon hozzfrhet eszkz is ltezik, amely ezt az algoritmust valstja meg,
mint pldul az EULER [13], a Velvet [14] vagy a MetaVelvet [15].
20.3.4. Besorols
A megagenom sszeraksa sorn egybefgg kontigokat s egyedli (singleton) leolvas-
sokat kapunk eredmnyl. Azt a folyamatot, amikor ezeket sszerendeljk azokkal az
organizmusokkal (vagy magasabb taxonmiai egysgekkel), amelyekbl szrmaznak, beso-
rolsnak (binning) nevezzk. Ebben az alfejezetben kt besorolsi eljrst mutatunk be:
a szekvencia alap s a tartalom alap besorolst.
Szekvencia alap besorols

Az egyik leggyakrabban hasznlt besorols eljrs azon alapul, hogy egy adott szekven-
cihoz hasonl szekvencikat keresnk egy annotlt referencia-adatbzisban loklis szek-
venciaillesztssel, pldul a Basic Local Alignment Search Tool (BLAST) [16] felhaszn-
lsval. Ez a mdszer akkor vezet j eredmnyre, ha a legtbb szekvencihoz tallunk
szignifiknsan hasonl referenciaszekvencikat, amelyek ismert organizmusokbl szrmaz-
nak. Ugyanakkor a nem teljes vagy pontatlan adatbzisok hasznlata ersen befolysolja
a kapott eredmnyek megbzhatsgt.
Tartalom alap besorols

Egy msik besorolsi mdszer a szekvencik nukleotidkompozcijn alapul. Jl ismert
tny pldul, hogy a DNS GC tartalma ersen varibilis s j ismertetjegye a klnb-

z fajoknak. Szofisztikltabb mdszerek oligonukleotidok (k mret szavak) gyakorisgn

vagy kodonhasznlati jellemzk vizsglatn alapulnak, amelyek szintn klnbznek az
eltr fajok genomjai kztt [17]. Oligonukleotidok hasznlata esetn a szavak mrete k-
lnbz lehet, 1-tl kezdve (GC tartalom) 4-en keresztl (tetranukleotid, pl. TETRA [18])
8-ig (pl. RDP osztlyoz riboszomlis RNS-re [7]).
Azonban az olyan rvid szekvencik besorolsa, amelyek nem illeszthetk nagyobb
kontigokba, problms lehet, ugyanis ezek kevesebb szt tartalmaznak, ami miatt a be-
sorols bizonytalann vlik. Ezekben az esetekben a szekvencia alap besorolsi mdszer
hasznlhat.
20.3.5. Gnfelismers s funkcionlis annotci

A genom alapvet funkcionlis egysgei a gnek. A minta DNS-bl szrmaz gnszekvenci-
k azonostst gnfelismersnek (gene calling) nevezzk. A gnfelismers metagenomikai
mintk esetn klnsen nagy kihvst jelent a krnyezeti DNS tredkes termszete s
hinyos sszeraksa miatt.
A gnfelismers alapvet mdszere szerint az sszerakott kontigokhoz hasonl gne-
ket vagy fehrjket keresnk a BLAST segtsgvel ltez adatbzisokban. A szekvenlsi
hibk vagy az sszeillesztett kontigok rvidsge azonban megnehezti s nhny esetben le-
hetetlenn teszik a homolg szekvencik azonostst. Emellett a BLAST nem hasznlhat
j gnek megtallsra sem, hiszen ezeknek nincs ismert homolgjuk a ltez adatbzisok-
ban. gy, a homolgiakeress sorn az j gneket teljesen figyelmen kvl hagyjuk [1].
Egy msik megkzeltsben ab initio gnfelismerst is hasznlhatunk akkor, amikor
a homolgiakeress nem vezet kell eredmnyre. A ltez eszkzk statisztikai mintzat-
felismerst valstanak meg, azaz a DNS szekvencik azon bels jellemzit ismerik fel,
amelyek a kdol s nem kdol szakaszokat megklnbztetik. Teljes genomok esetn az
ab initio gnfelismers ltalban knnyebb, ugyanis a modellek az adott genom alapjn
betanthatk s a mkdsk finomhangolhat. Metagenomikai mintk esetn azonban
csak a dominns egyedek vizsglhatk ilyen mdon. Ezek szekvenciit ugyanis elvlaszt-
hatjuk a minta tbbi rsztl (besorolsi eljrssal). Az alacsony gyakorisg mintk ese-
tn azonban csak ltalnos modelleket hasznlhatunk. Pldul a MetaGene [19] szoftver
kt ltalnos modellt hasznl: egyet archaea-ra s egyet baktriumok esetn.
A gnfelismers vgrehajtsa utn ltalban arra keressk a vlaszt, hogy a mikrobilis
kzssg vajon milyen potencilis funkcit tlt be (Mire kpesek kzssgknt?). A szr-
maztatott gnlistkat ssze lehet hasonltani pldul metabolikus tvonal-adatbzisokkal
(mint amilyen a Kyoto Encyclopedia of Genes and Genomes (KEGG) [20]), amely a g-
neket hozzrendeli azokhoz a biolgiai funkcikhoz, amelyekben azok rszt vesznek. Az
alul-, illetve fellreprezentlt tvonalak s biolgiai folyamatok a kzssg funkcionlis
kpessgeirl rulkodnak.
Emellett adott gnek jelenltnek vagy hinynak megllaptsa is felfedhet fontos
funkcionlis jellemzket. Pldul antibiotikum-rezisztencia gnek jelenlte alapjn megj-
solhat az antibiotikus kezels hatsossga, illetve esetleges kros kvetkezmnyei [2].

Irodalomjegyzk
[1] John C. Wooley, Adam Godzik, and Iddo Friedberg, A primer on metagenomics. PLoS
Computational Biology, 6(2), February 2010. PMID: 20195499 PMCID: PMC2829047.
[2] George M. Weinstock, Genomic approaches to studying the human microbiota. Na-
ture, 489(7415):250256, September 2012. PMID: 22972298.
[3] R. D. Fleischmann, M. D. Adams, O. White, R. A. Clayton, E. F. Kirkness, A. R.

Kerlavage, C. J. Bult, J. F. Tomb, B. A. Dougherty, J. M. Merrick, Whole-genome
random sequencing and assembly of Haemophilus influenzae Rd. Science (New York,
N.Y.), 269(5223):496512, July 1995. PMID: 7542800.
[4] Peter J. Turnbaugh, Micah Hamady, Tanya Yatsunenko, Brandi L. Cantarel, Alexis
Duncan, Ruth E. Ley, Mitchell L. Sogin, William J. Jones, Bruce A. Roe, Jason
P. Affourtit, Michael Egholm, Bernard Henrissat, Andrew C. Heath, Rob Knight,
and Jeffrey I. Gordon, A core gut microbiome in obese and lean twins. Nature,
457(7228):480484, January 2009.
[5] J. Gregory Caporaso, Christian L. Lauber, Elizabeth K. Costello, Donna Berg-Lyons,

Antonio Gonzalez, Jesse Stombaugh, Dan Knights, Pawel Gajer, Jacques Ravel, Noah
Fierer, Jeffrey I. Gordon, and Rob Knight, Moving pictures of the human microbiome.
Genome Biology, 12(5):R50, 2011. PMID: 21624126 PMCID: PMC3271711.
[6] C. Quast, E. Pruesse, P. Yilmaz, J. Gerken, T. Schweer, P. Yarza, J. Peplies, and F.

O. Glockner, The SILVA ribosomal RNA gene database project: improved data pro-
cessing and web-based tools. Nucleic Acids Research, 41(D1):D590D596, November
2012.
[7] J. R. Cole, Q. Wang, E. Cardenas, J.Fish, B. Chai, R. J. Farris, A. S. Kulam-

Syed-Mohideen, D. M. McGarrell, T. Marsh, G. M. Garrity, and J. M. Tiedje, The
Ribosomal Database Project: improved alignments and new tools for rRNA analysis.
Nucleic Acids Research, 37(suppl 1):D141D145, January 2009.
[8] Rebecca J. Case, Yan Boucher, Ingela Dahllf, Carola Holmstrm, W. Ford Doolittle,
and Staffan Kjelleberg, Use of 16S rRNA and rpoB genes as molecular markers for
microbial ecology studies. Applied and environmental microbiology, 73(1):278288,
January 2007. PMID: 17071787.

[9] Victor Kunin, Alex Copeland, Alla Lapidus, Konstantinos Mavromatis, and Philip
Hugenholtz, A bioinformaticians guide to metagenomics. Microbiology and molecular
biology reviews: MMBR, 72(4):557578, December 2008. PMID: 19052320.
[10] Torsten Thomas, Jack Gilbert, and Folker Meyer, Metagenomics a guide from
sampling to data analysis. Microbial informatics and experimentation, 2(1):3, 2012.
[11] Michal Janitz, editor, Next-Generation Genome Sequencing: Towards Personalized
Medicine. Wiley-Blackwell, 1. ed., October 2008.
[12] Products GS FLX+ System: 454 Life Sciences, a Roche Company. http://454.
com/products/gs-flx-system/
[13] Mark J. Chaisson and Pavel A. Pevzner, Short read fragment assembly of bacterial
genomes. Genome research, 18(2):324330, February 2008. PMID: 18083777.
[14] Daniel R. Zerbino and Ewan Birney, Velvet: algorithms for de novo short read as-
sembly using de Bruijn graphs. Genome research, 18(5):821829, May 2008. PMID:
18349386.
[15] Toshiaki Namiki, Tsuyoshi Hachiya, Hideaki Tanaka, and Yasubumi Sakakibara,
MetaVelvet: an extension of Velvet assembler to de novo metagenome assemb-
ly from short sequence reads. Nucleic acids research, 40(20):e155, November 2012.
PMID:22821567.
[16] S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, Basic local
alignment search tool. Journal of molecular biology, 215(3):403410, October 1990.
PMID: 2231712.
[17] S. Karlin, J. Mrzek, and A. M. Campbell, Compositional biases of bacterial genomes
and evolutionary implications. Journal of bacteriology, 179(12):38993913, June 1997.
PMID 9190805.
[18] Hanno Teeling, Jost Waldmann, Thierry Lombardot, Margarete Bauer, and Frank
Oliver Glckner, TETRA: a web-service and a stand-alone program for the analysis
and comparison of tetranucleotide usage patterns in DNA sequences BMC bioinfor-
matics, 5:163, October 2004. PMID: 15507136.
[19] Hideki Noguchi, Jungho Park, and Toshihisa Takagi, MetaGene: prokaryotic ge-
ne finding from environmental genome shotgun sequences. Nucleic acids research,
34(19):56235630, 2006. PMID: 17028096.
[20] Minoru Kanehisa, Michihiro Araki, Susumu Goto, Masahiro Hattori, Mika Hiraka-
wa, Masumi Itoh, Toshiaki Katayama, Shuichi Kawashima, Shujiro Okuda, Toshiaki
Tokimatsu, and Yoshihiro Yamanishi, KEGG for linking genomes to life and the envi-
ronment. Nucleic acids research, 36(Database issue):D480484, January 2008. PMID:
18077471.

Antal BIOINFHUN PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Antal BIOINFHUN PDF

Uploaded by

Copyright:

Available Formats

Antal Pter Arany dm Bolgr Bence Gzsi Andrs Hajs Gergely

Hullm Gbor Marx Pter Millinghoffer Andrs Poppe Lszl

Kulcsszavak: genotipizls, j genercis szekvenlsi mdszerek, fehrjemodellezs, gnsza-

Budapesti Mszaki s Gazdasgtudomnyi Egyetem s Semmelweis Egyetem

Creative Commons NonCommercial-NoDerivs 3.0 (CC BY-NC-ND 3.0)

Szakmai lektorok: Molnr Viktor, Antos Andrs

ISBN 978 963 279 180 7

Kszlt a Typotex Kiad gondozsban

Kszlt a TMOP-4.1.2/A/1-11/1-2011-0079 szm, Konzorcium a biotechnolgia aktv

1. DNS rekombinns mrstechnolgik, zaj- s hibamodellek 11

2. Genetikai mrsek s utfeldolgozsuk, haplotpus-rekonstrukci, impu-

2.2.3. Mutcik hatsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3. sszehasonlt fehrjemodellezs s molekuladokkols 39

4. Fehrjeszerkezet-meghatrozs ksrleti mdszerei s egyszer fehrje-

5. Genetikai varinsok funkcionlis hatsainak kvantitatv modelljei 70

5.2.1. SNP, indel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6. Gnszablyozsi hlzatok matematikai modelljei 82

7. Genetikai asszocicis vizsglatok standard elemzse 90

7.5.1. Logisztikus regresszi . . . . . . . . . . . . . . . . . . . . . . . . . . 99

8. Gnexpresszis adatok standard asszocicis elemzse 107

11.Dinamikus modellezs a sejtbiolgiban 147

11.4. Hibrid mdszerek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

12.Oksgi kvetkeztetsek az orvosbiolgiban 158

13.Szvegbnyszati mdszerek a bioinformatikban 174

14.Ksrlettervezs: az alapoktl a tudsgazdag s aktv tanulsos kiter-

14.3.3. Szekvencilis dntsi folyamatok Bayes-i keretben . . . . . . . . . . 194

15.Nagy adattmegek az orvosbiolgiban 201

16.Heterogn biolgiai adatok fzis elemzse 216

17.A Bayes-i enciklopdia 227

19.A gygyszeripari kutats informatikai aspektusai 250

DNS rekombinns mrstechnolgik,

A DNS mrstechnolgik az ezredfordul utn rendkvli sebessggel fejldtek, de a kli-

1.1. Trtnelmi ttekints

Srkzy Pter www.interkonyv.hu

szekvenlssal olvastk le. A leolvasott szakaszokbl (readekbl) lltottk ssze a vgs,

1.1.1. A genomszekvenls klinikai aspektusai

1.1.2. Rszleges genetikai asszocicis vizsglatok (PGAS)

1.1.3. Genomszint asszocicis vizsglatok (GWAS)

Srkzy Pter www.interkonyv.hu

GWAS vizsglatban ltalban kivlasztanak egy betegsget, s meghatroznak tbb mint

1.2. Els genercis automatizlt Sanger-szekvenls

1.3. j genercis szekvenlsi technolgik

1.3.1. Piroszekvenls s pH alap szekvenls

Srkzy Pter www.interkonyv.hu

1.1. bra. A Sanger-szekvenls folyamata

1.2. bra. A Sanger-szekvenls eredmnye: a flowgram

A pH alap szekvenls elve a nukleotid beplsekor detektlt esemny vonatkoz-

Srkzy Pter www.interkonyv.hu

1.3. bra. Szekvenlsi technolgik sszehasonltsa

pH-vltozst egy CMOS (Complementary Metal-Oxide Semiconductor) felleten detek-

1.3.2. Reverzibilis termintor alap szekvenls

Srkzy Pter www.interkonyv.hu

1.4. bra. A piroszekvenls menete

1.3.3. Nanoprus alap szekvenls

Srkzy Pter www.interkonyv.hu

1.5. bra. A reverzibilis termintor alap szekvenls folyamata

1.4. j genercis szekvenlsi technolgik hibakarak-

Srkzy Pter www.interkonyv.hu

1.6. bra. A nanoprus alap szekvenls illusztrcija s mrsi eredmnye

1.4.1. Carry forward/incomplete extension

1.4.2. Homopolimer hibk

Srkzy Pter www.interkonyv.hu

1.7. bra. Carry forward/incomplete extension