Professional Documents
Culture Documents
BIOINFORMATIKA: MOLEKULRIS
MRSTECHNIKTL AZ ORVOSI
DNTSTMOGATSIG
A molekulris biolgiai mrstechnikai fejlds a nagy adattmegeket, majd a hipotzismentes
kutatsi paradigma megjelenst hozta el az orvosbiolgiba. Az ezredfordul eltti genetikai-
genomikai korszakot a posztgenomikai korszak kvette egyre szapord omikai szintekkel s ler
hlzati megkzeltsekkel. Egy vtized utn azonban egyre inkbb a nagylptk adat- s tu-
dsfzi kerlt a kzpontba. A jegyzet ezen j kihvsokat tekinti t. Az els kt fejezet a
genetikai mrstechnika alapjait foglalja ssze. A genetikai varinsok hatsainak megrtst a
fehrjk szerkezetnek trgyalsa, ill. a gnszablyozsi hlzatok bemutatsa segti a kvetkez
kt-kt fejezetben. Ezutn az alapvet fontossg statisztikai asszocicis elemzseket mutatja
be. Az rtelmezs tmogatsra sszefoglaljuk az oksgi kvetkeztets egy Bayes-hlkon ala-
pul formalizlst, ill. a szvegbnyszati mdszereket. A ksrletek szekvencialitsa mellett az
adatok heterogenitsa s gy integrlt elemzse is kzponti kihvs, amely kihvst mg nehezeb-
b teszik az egyre elrhetbb mly, azaz rszleteiben gazdag fenotpus- s krnyezeti lersok.
Az adatmegoszts hatkonysga miatt s a nagy szmtsigny miatt is egyre fontosabb vlnak
az ltalnosan elrhet, kzm jelleg informatikai szolgltatsok, amelyek mkdst pldkkal
is illusztrljuk. Az ttekintst egy gygyszerkutatsi sszefoglal zrja, amelyben a szemly-
re szabott medicina szempontjai is megjelennek, ill. egy metagenomikai sszefoglal, amely az
epigenetikai szint megjelense utn korunk egy j gretes omikai szintje.
Typotex Kiad
2014
COPYRIGHT: 20142019, Antal Pter, Arany dm, Bolgr Bence, Gzsi Andrs,
Hajs Gergely, Hullm Gbor, Marx Pter, Millinghoffer Andrs, Poppe Lszl, Srkzy
Pter, Budapesti Mszaki s Gazdasgtudomnyi Egyetem, Semmelweis Egyetem
www.interkonyv.hu
Tartalomjegyzk 4
www.interkonyv.hu
Tartalomjegyzk 5
www.interkonyv.hu
Tartalomjegyzk 6
9. Biomarker-elemzs 121
Jellsek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.1. Bevezet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.2. Elmleti httr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
9.3. Bayes-i tbbszint relevancia-elemzs . . . . . . . . . . . . . . . . . . . . . 127
9.4. Tbbvltozs sklzhatsg: a k-MBS jegy . . . . . . . . . . . . . . . . . . 128
9.5. Tbbclvltozs relevancia . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.6. Poszterior-dekomponlson alapul interakci s redundancia . . . . . . . . 130
9.7. MBS poszteriorok utfeldolgozsa s megjelentse . . . . . . . . . . . . . . 131
9.8. Tuds alap utaggregls . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
9.9. sszefoglal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
10.Hlzatbiolgia 135
10.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
10.2. Biolgiai hlzatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.3. Grfelmleti alapok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.4. Hlzatelemzs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.1. Hlzati topolgia . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10.4.2. Hlzati modellek s dinamika . . . . . . . . . . . . . . . . . . . . . 139
10.4.3. Asszortativits, fokszmeloszls s sklafggetlen hlzatok . . . . . 140
10.4.4. Feladatok s kihvsok . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.5. Nhny alkalmazs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
www.interkonyv.hu
Tartalomjegyzk 7
www.interkonyv.hu
Tartalomjegyzk 8
18.Bioinformatikai munkafolyamat-rendszerek
esettanulmny 243
18.1. A feladat ttekintse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
18.2. Adatmodell s -reprezentci . . . . . . . . . . . . . . . . . . . . . . . . . . 244
18.3. Felhasznli esetek s architektra . . . . . . . . . . . . . . . . . . . . . . . 245
18.4. A szerver mkdsi rszletei . . . . . . . . . . . . . . . . . . . . . . . . . . 247
18.5. Utfeldolgozsi lpsek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
www.interkonyv.hu
Tartalomjegyzk 9
20.Metagenomika 264
20.1. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
20.2. A metagenom elemzse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
20.2.1. A kzssget alkot fajok beazonostsa . . . . . . . . . . . . . . . . 265
20.2.2. Funkcionlis metagenomika . . . . . . . . . . . . . . . . . . . . . . 266
20.3. Metagenomika lpsrl lpsre . . . . . . . . . . . . . . . . . . . . . . . . . 267
20.3.1. Mintavtelezs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
20.3.2. Szekvenls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
20.3.3. Genomsszeraks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
20.3.4. Besorols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
20.3.5. Gnfelismers s funkcionlis annotci . . . . . . . . . . . . . . . . 271
www.interkonyv.hu
1. fejezet
megoldsa esetn csak egy adott nukleotid van jelen s pl be az egyms utn kvetkez
ciklusokban, mg az Illumina platform esetben egyszerre mind a ngy klnbz, ngy
klnbz festkkel. A rgztett kpekbl megllaptjk a klonlis klaszterek pozciit,
majd az egyes sznekbl s intenzitsokbl meghatrozzk a nukleotidszekvencikat.
Uniplex PCR
Az uniplex PCR sorn a reakcielegyben csak egyetlen cl rgit szaportanak fel. Az
uniplex PCR kompatibilis minden j genercis szekvenlsi platformmal, s ma mr ru-
Multiplex PCR
Multiplex PCR reakcikban tbb primert egyszerre adnak egyetlen reakcielegyhez, s k-
zs templt jelenltben sokszorostjk a targeteket. Az egyedi PCR-reakcik trben nem
kerlnek elvlasztsra, gy figyelembe kell venni a klnbz szekvencik eltr olvadsi s
hibridizcis hmrsklett a primerek tervezse sorn. A tapasztalatok szerint a lefedett-
sg egyenetlensge kb. 10 target-rgiig (amplikon) biztosthat. Az egyes target-rgik
hossza kzeltleg azonos kell, hogy legyen az egyenletes lefedettsg rdekben.
Ha a primerek interakciba lpnek egymssal (tfedsek miatt sszeakadnak), ak-
kor nagyon egyenetlen lefedettsg vrhat, vagy akr egy amplikon egyltaln nem kerl
sokszorostsra. Elfordulhat nem clzott rgik felszaporodsa is. A mdszer elnye a
fajlagosan alacsonyabb anyag- s munkaidkltsg.
Microarray capture
Egy microarray lemezen tbb milli rgztett oligonukleotid szekvencia lehet, amelyek a
clrgikra specifikusak. A teljes hosszban amplifiklt genomi DNS szekvencikat hibri-
dizljk a rgztett oligonukleotidokra. Azokat a szekvencikat, amelyek nem ktdnek
a lemezen lev helyekre, lemossk, majd a megmaradt clszekvencikat eluljk (leold-
jk) a lemezrl. A kivlasztott rgikat tartalmaz, elult DNS-t opcionlisan tovbb
amplifikljk, majd adapterszekvencik liglsa utn feltltik a szekvenl eszkzre.
Microfluidic capture
A microfluidic capture sorn apr vzcseppeket hoznak ltre egy olaj kzegben (emulzi).
Minden csepp egy mikromret reakcis tartlynak felel meg, ahol a reakcik egymstl
elszigetelve futnak. Az egyes primereket s templtokat tartalmaz cseppeket vizulis vagy
automatizlt ellenrzs utn elektrosztatikus trrel vlogatjk ssze. Ezzel a mdszerrel
egyszerre tbb milli reakcit lehet vgrehajtani elvlasztott cseppekben.
1.10.1. Szrs
Minden szekvenl platform empirikus adatokon s mrseken kalibrlt mdon hozz ren-
del minden read minden bzishoz egy Phred pontszmot. Ez a pontszm annak a log10
valsznsgt adja meg, hogy a bzishvs hibs. Minden readet szrni kell a minsg-
biztosts rdekben, pldul a tl rvid readeket s az alacsony minsg readeket el
kell dobni. Lehetsg van a readek kevsb jl sikerlt vgeinek a levgsra is, valamint
szmtalan felttel fellltsra.
1.10.2. Illeszts
Az illeszts, ms nevn mapping vagy alignment az jraszekvenls egyik fontos lpse.
Itt a clgenomhoz illesztjk a readeket egyesvel, majd ezekbl sszelltjuk a lemrt
szakaszunk konszenzusos szekvencijt. Tbb algoritmus is ltezik a legjobb illesztsi
pozci megkeressre.
1.10.3. sszeraks
Amennyiben referenciaszekvencia nlkl illesztnk ssze rvid readeket egy folytonos szek-
venciv, ezt sszeraksnak (assembly) nevezzk. Az sszeraksi problma szemlltethet
gy, hogy egy knyv tbb pldnyt vletlenszeren apr darabokra szabdaljuk, majd
ssze kell rakni az eredeti knyvet a kis darabokbl. A leggyakrabban hasznlt algoritmus
1.10.4. Varinshvs
A varinshvs folyamata az, amikor tbb readet, amelyek ugyanarra a genomi pozcira
illeszkednek, megvizsglunk, s megvizsgljuk, hogy brhol eltr-e a referencia szekven-
citl. Tbbfle varins ltezik, az egynukleotidos polimorfizmusoktl az inzercikon s
delcikon, valamint kpiaszm vltozsokon t a nagymret strukturlis trendezdse-
kig.
egy adott pontjn (lokuszn) elhelyezked gn varicii. Egy olyan egyedet, amely kt ho-
molg kromoszmjn egymssal teljesen azonos gnkpit hordoz, homozigtnak, amely
klnbzt, azt heterozigtnak nevezzk. A fenotpussal sszefgg alll lehet dominns
vagy recesszv. Egy dominns s egy recesszv alll hordozsa esetn a dominnsnak meg-
felel fenotpus fog rvnyre jutni; ugyanakkor egy recesszv alllhoz tartoz jelleg csak
homozigta genotpus esetn tud megjelenni.
Egy egyed fenotpusn teljes fizikai megjelenst, vagy brmely megfigyelhet vagy
kimutathat (szerkezeti, biokmiai, lettani vagy akr viselkedsi) jellemzjt, amelyet
genotpusa s a krnyezeti hatsok egyttesen hatroznak meg.
2.2. bra. Egyetlen nukleotid vltozsa egy msik mRNS kodon transzlcijt eredmnye-
zi, amely vgl egy eltr peptidlnc szintzishez vezet.
SNP-k elfordulhatnak a gnek kdol s nem kdol rgiiban, valamint a DNS gnek
kztt elterl intergenikus terletein is. Amennyiben a mutci egy gn kdol rszben
fordul el, a megvltozott szekvencia hatssal lehet a termk aminosav- sorrendjre s
ezltal a fehrje szerkezetre, funkcijra (2.2. bra). A gnek nem kdol rgiiban
tallhat bziseltrs befolyssal lehet pl. a splicing-ra, transzkripcis faktorok ktdsre
vagy az mRNS degradcijra.
Csendes mutci esetn bziscsere trtnik ugyan, de az nem okoz vltozst az rintett
fehrje aminosavsorrendjben. Ennek oka a genetikai kd degenerltsgban rejlik, egy
aminosavat tbbfle bzis-triplet, vagyis kodon is kdolhat, gy elfordulhat, hogy a kodon
harmadik (ltyg) pozcijban trtnt vltozs nem eredmnyez aminosav csert, amikor
egy msik, ugyanazt az aminosavat kdol tripletre vltozik meg a szekvencia.
Nonszensz mutci esetben egy, egybknt aminosavat kdol triplet egy stop ko-
donra vltozik, aminek kvetkeztben a fehrjeszintzis megll ennl a kodonnl s teljes
hosszban nem kerl leolvassra.
Misszensz mutci esetben a nukleotidcsere aminosavcsert is eredmnyez, amely ha-
tssal lehet a kpzd fehrje szerkezetre, funkcijra.
A legdrasztikusabb vltozst a genetikai kd informcitartalmban egy bzis vlto-
zsa esetn annak kiesse (delci) vagy egy j bzis bekeldse (inzerci) okozhatja.
Mindkett eset a leolvassi keret (reading frame) eltoldst eredmnyezi. Ennek kvet-
keztben az soron kvetkez aminosavak nagy valsznsggel megvltoznak. Gyakran az
is elfordul, hogy egy bziskiess rvnytelent egy stop kodont, vagy akr j ltrehoz-
st is okozhatja. Az ilyen mutci kvetkeztben a fehrjeszintzis sorn nem megfelel
hosszsg, illetve szerkezet fehrjetermk keletkezik.
lehetv.
2.3. Haplotpusok
A haplotpus a haploid (jelentse egyszeres) s a genotpus szavakbl szrmazik. A biolgi-
ai definci szerint a haplotpus egyik szltl s egy kromoszmrl szrmaz, egymshoz
szorosan kapcsold genetikai markerek halmaza. Egy msik gyakran hasznlt definci
szerint a haplotpus egy homolg kromoszmaprrl szrmaz markerek azonos gameti-
kus fzis nukleotidjait jelli (az egyms mellett a kromoszmn elhelyezked varinsok
segtsgvel meghatrozott haplotpus fzis segt annak megadsban, melyik szakasz szr-
mazik az apai s melyik az anyai homolg kromoszmrl). Ez a megkzelts a szorosan
kapcsold markereket haplotpus-blokkoknak nevezi. A fejezetben ez utbbi rtelmezst
hasznljuk.
A haplotpusok vizsglatnak szmos elnye van. A htSNP-ekre alapozva leszkthet
a tovbbiakban vizsgland SNP-ek halmaza. Emellett bizonyos fenotpusjegyeket, k-
lnsen a komplex betegsgek esetben, tbb varins egyttesen hatroz meg. Ekkor a
haplotpus-szint eredmnyek jval erteljesebbek lehetnek, mint a SNP alapak.
A haplotpusok struktrjnak meghatrozshoz szksges fzisos genotpus adatok
legegyszerbben csaldfaelemzsekbl szrmazhatnak. Csaldfaelemzsek mellett kln-
bz PCR technikkkal, vagy j genercis szekvenlsi mdszerekkel mrseket is vgez-
hetnk, amelynek eredmnyeknt szintn elll a kvnt fzisos adat. Ebben az esetben
htrnyknt lehet emlteni a magas kltsgeket, illetve a mrshez szksges sok idt. Ezen
vizsglatoknl a kell mintaszm ellltsa jelenti a legfbb gondot, ugyanis a vizsglati
szemlyen kvl a szlk mintjra is szksgnk van. Emellett az ids korban megjele-
n betegsgeknl nyilvnvalan nem hasznlhat ez az eljrs. A harmadik lehetsget a
szmtgpes algoritmusok jelentik, amelyek a nyers genotpus-adatbl statisztikai md-
szerrel kzvetetten lltjk el a haplotpusokat. Ekkor a rekonstrukci bizonytalansga
jelenti a legnagyobb akadlyt.
Jelenleg is sokan vizsgljk, hogy kzvetlenl vagy kzvetve rdemes-e ellltani a hap-
lotpusokat. ltalnossgban elmondhat, hogy br a kzvetlenl elll haplotpusokkal
vgzett elemzsek erteljesebbek, de a nvekv mintaszm, magasabb fok genetikai kap-
csoltsg (linkage disequilibrium, LD) s kevesebb marker esetn a nyers genotpusokbl
megbecslt haplotpusok is megfelelen hasznlhatak.
2.5. Haplotpus-rekonstrukci
A legtbb SNP mrstechnolgia nem ad lehetsget arra, hogy haplotpusokat ponto-
san meghatrozzunk, mivel csak diszkrt pontokon hatrozzk meg a genotpusokat, s
nem kpesek annak azonostsra, hogy az apai vagy anyai kromoszmkra vezethetek-e
vissza. A haplotpusok azonostsa azrt fontos feladat, mert ha pldul kt varinsnak
csak akkor van a fenotpusban megjelen hatsa, ha egy szlon jelennek meg, akkor egy
ketts (compound) heterozigta egyed rintettsge csak a haplotpusok meghatrozsval
llapthat meg.
Tbb elterjedt megolds is szletett a haplotpus-rekonstrukci problmjnak megol-
dsra, a legelterjedtebbek rejtett Markov-modelleken hajtanak vgre kvetkeztetst. A
legpontosabb s leggyakrabban hasznlt mdszer a PHASE, amelyik Gibbs-mintavtelezssel
becsli a lehetsges haplotpusokat, feltve az ismert (megmrt) genotpusokat s ismerve a
rekombincis rtt. A haplotpus-rekonstrukcis mdszerek ltalban fel vannak ksztve
a hinyos adatok kezelsre.
2.6. Imputls
Az SNP mrsek eredmnyeit nemcsak a haplotpusok rekonstrulsra hasznlhatjuk fel
a kapcsoltsgi egyenslytalansg segtsgvel, hanem a hinyos vagy esetleg alacsony meg-
bzhatsg mrsek esetn adatptlsra. Ez egy gyakori feladat genetikai asszocicis
vizsglatokban. A hinyzs mrtke gyakran 120% is lehet.
A hinyos adat megnehezti a ksbbi statisztikai elemzst, ezrt fontos a rendelkezsre
ll genotpus-informci maximalizlsa. Az imputls sorn kls adatforrsokat is fel-
hasznlunk, idelis esetben egy azonos populcin vgzett nagyobb (akr teljes) genetikai
asszocicis vizsglat eredmnyt is.
2.7.1. Sanger-szekvenls
A lncterminl szekvenls (ms nven Sanger-szekvenls) segtsgvel is meghatroz-
hat egy DNS szakasz pontos bzisszekvencija, errl tovbbi informcik elrhetek a
kvetkez fejezetben. Nagy kltsgignye s kis teresztkpessge miatt nem terjedt el,
felhasznlsa a genotipizl eljrsok kapcsn inkbb a nagy megbzhatsgot ignyl,
diagnosztikai terleten jelents.
festkkel megjellt vad s mutns alllokat tartalmaz DNS lncok a festkre jellemz
hullmhossz fnyt fognak kibocstani, amelyet detektlni tudunk.
Ekkor ksztnk a kt szncsatorna alatt egy-egy felvtelt, majd a ksbbiekben rsz-
letezett kpfeldolgozsi eljrssal megfigyeljk az egyes pontok fnyessgt, valamint a
pontok tovbbi jellemzit is rgztjk.
Ezutn az egyes SNP-khez tartoz mintkat sszegyjtjk s egy diagramon brzoljuk.
A diagram X tengelye a minta sznarnyt jelli, az Y tengelyen a pontok sszegzett
intenzitsa szerepel. Attl fggen, hogy az adott mintapont a diagram mely oldalra
kerl, megllapthat, hogy a vizsglt DNS tartalmazta-e a keresett mutcit vagy sem.
Vgl tbb chipen elvgzett szmos ksrlet eredmnyeit hierarchikus csoport- (cluster)
analzis segtsgvel rtkeljk.
Tbbfle eljrs is elterjedt DNS chipekkel trtn SNP meghatrozsra, a fentiekben
egy lehetsges megkzeltst ismertettnk.
sszehasonlt fehrjemodellezs s
molekuladokkols
3.1. Bevezets
A fehrjk szerkezetnek meghatrozsa a molekulris biolgia s a szerkezeti genomika
fontos kutatsi terlete. A fehrjk harmadlagos s negyedleges szerkezetnek ismeretben
a kutatk megismerhetik s elemezhetik a fehrjk funkcijt s aktv helyeit. Ez nagy-
mrtkben megknnythet olyan fontos proteomikai feladatokat, mint pldul a fehrje-
mrnksg vagy szerkezet alap gygyszertervezs.
A ksrleti mdszerek segtsgvel meghatrozott szerkezeteket tartalmaz Protein
Adatbank (PDB) [1] kpezi az elsdleges alapjt a szerkezet alap proteomikai vizsg-
latoknak. A fehrjeszerkezetek meghatrozsa klnbz ksrleti mdszerekkel (mint
pldul a rntgensugr-krisztallogrfia vagy NMR spektroszkpia, lsd Fehrjeszerkezet-
meghatrozs ksrleti mdszerei fejezet) azonban tovbbra is nehz s kltsges folyamat.
Az emberi proteom mintegy 30.000 jellemzett humn fehrjt tartalmaz (a humn fehrjk
referencia adatbzisban, Human Protein Reference Database) [2], de csak mintegy 5.000
humn fehrje vagy domn tallhat a PDB-ben.
Ezrt alakult ki igny olyan mdszerekre, melyek lehetv teszik hromdimenzis atomi
szint szerkezetek ellltst szekvencia-adatok alapjn. E feladat megoldsra olyan
szmtsi mdszerek alakultak ki, melyek alkalmasak a fehrje szerkezetnek elrejelzsre
elsdleges szerkezeti informcik (pl. szekvencia adatok) felhasznlsval [3, 4].
Az els fehrjeszerkezeti modell [5] megjelense ta szmos tovbbi fehrjemodellezsi
tanulmny is napvilgot ltott. E fejezet clja a fehrjemodellezsi technikk s a mo-
dellek pontossgnak ttekintse. Modellezsi mdszerekre mg akkor is szksg van, ha
rntgen- vagy NMR-szerkezet ll rendelkezsre, mivel a szerkezetekben szksg lehet helyi
javtsokra vagy mdostsokra (pl. a szerkezet alap gygyszertervezs sorn a nagyszm
lehetsges ligandum-receptor kombinci mindegyiknek ksrleti szerkezetmeghatrozsa
a gyakorlatban nem megvalsthat).
3.2. bra. Hogyan vlasszunk fehrjemodellezsi mdszert? Templt alap modellezs ese-
tn azonostani kell a homolgiamodellezst lehetv tev templtot (akr a > 2030%-os
szekvenciaazonossg, akr hajtogatsfelismers alapjn). Templtmentes ab initio model-
lezs olyan kismret fehrje esetben hasznlhat, ahol nem lehetett megfelel templtot
azonostani.
3.4. bra. Az egyszer fibroblaszt nvekedsi faktor (bFGF) ksrleti szerkezete s elmleti
modellje. A ksrleti szerkezet (PDB kd 1BFC) kk szalagknt, mg az elmleti modell
piros szalagknt lthat. A modell s ksrleti szerkezet kzti legnagyobb eltrst mutat
kt rgit a jellt aminosavak jelzik. A modellt a nyilvnosan hozzfrhet Swiss-Model
szerver felhasznlsval ksztettk. [Az MJ Forster sszefoglaljban [15] kzlt bra
Elsevier kiad ltal engedlyezett reprodukcija]
Szekvenciailleszts finomtsa
A templt kivlasztsa s a kezdeti sszerendezse utn szmos eszkz ll rendelkezsre
a modell- s a templt-szerkezeti illesztsek kivlasztsra s finomtsra, belertve
a hrom-dimenzis szerkezetmegjelentsi s szerkesztsi eszkzket is. Manapsg csak
nhny eszkz kpes a szekvenciaillesztsek problminak automatikus finomtst kezelni,
de gretes mdszereket is kzltek [16].
Egy adott sszerendezs jsga ellenrizhet a templt-, illetve a cl-szekvencihoz
elegenden hasonl j szekvencik, vagy ms, a templt szerkezetre jl illeszked ksrleti
szerkezetek hozzadsval. Tvoli rokonsgban ll fehrjk esetben az is fontos, hogy
ellenrizzk a cl-szekvencia msodlagos szerkezet-elrejelzseinek egyezst a templt
msodlagos szerkezetvel [17]. Ezek a szerkezeti sszerendezs-adatok megjelenthetk a
Fehrjeflnc modellezse
A szekvenciailleszts vgeztvel kvetkezik a flnc modellezse. A flnc generlsa a
legtbb modell esetben trivilis: a templtszerkezet sszerendezsben szerepl aminosa-
vainak flncbeli atomkoordintit egyszeren t kell msolni a modellbe.
Ha egy bizonyos helyzetben a modell s templt sszerendezsben az aminosavak
eltrnek, akkor csak a flnc N, C , C s O koordinti (s egyes esetekben a C is)
msolhat. Ha egy adott pozciban az aminosavak megegyeznek, sok esetben mg az
oldallnc atomkoordinti is a modellbe msolhatak.
Hurokmodellezs
A modell- s a templtszerkezet sszerendezse beszrsokat s trlseket is tartalmazhat.
Trlsek esetn egyszeren kihagyjuk a templt felesleges rszeit, s a kpzd hinyt
sszektjk. A beszrsok esetn a templt folyamatos lnct elhastjuk, majd beszrjuk
az extra aminosavak alkotta hurkot. Belthat, hogy mindkt eset a flnc konformci-
vltozsval jr.
Oldallnc-modellezs
Az oldallnc-modellezs nehzsge egyb tnyezk kztt ersen fgg a cl s a temp-
ltszekvencia hasonlsgnak foktl s a templtszerkezet minsgtl is. Hasonl fehr-
jk esetn gyakori, hogy a C C torzis szgek is megegyeznek. St, ersen homolg
(> 40%-os szekvenciaazonossg) fehrjknl gyakran (kb. 75% esetben) mg a C is ha-
sonl orientcij.
Kvetkezskppen magas szekvenciaazonossg (> 40%) esetn a konzervlt aminosa-
vak gyakran teljesen tmsolhatak a templtbl a modellszerkezetbe. Sok esetben ez a
megkzelts pontosabb, mint a flncatomok tmsolsa s oldallncok ab initio mdsze-
rekkel val elrejelzse.
Azonban ha szekvenciaazonossg alacsony (< 35%), az oldallncok a modellek s a
templtok 45%-ban klnbzek. Ezekben az esetekben az oldallnc-orientci model-
lezse szksges. A legtbb, oldallnc elrejelzsre rendelkezsre ll eszkz tuds alap
knyvtrakra tmaszkodik. Ezek sok esetben fix knyvtrakat alkalmaznak, amelyek
egy adott oldallnc sszes lehetsges llst troljk. Ms mdszerek helyzetspecifikus
knyvtrakat hasznlnak, s az oldallnc llst a flnc szerkezete/konformcija szerint
vlasztjk ki. Ezek egyszer vltozatai az oldallnc-elrendezdseket a flnc msodlagos
szerkezete (hlix vagy red) alapjn osztlyozzk, mg a kifinomultabbak az oldallnc-
konformcikat a megfelel, nagy felbonts szerkezetekben tallhatak (59) kzl v-
lasztjk ki az eltr flncgrbleteknek megfelelen.
Az oldallnc-konformci elrejelzse ltalban pontosabb a bels, hidrofb rszeknl,
mint a felszni oldallncok esetben. Ez annak a tnynek ksznhet, hogy a mozgkony
hurkok oldallncai amelyek tbbnyire a felsznen vannak jelen tbbfle konformcit
vehetnek fel.
Modelloptimalizls
A flnc templtszerkezethez kpesti beszrsokkal s trlsekkel val kiegsztse s az
oldallnc-modellezs utn a modellszerkezet normalizlshoz tovbbi lpsekre van szk-
sg, fleg a beszrsok s trlsek kzelben (lsd 3.2.1. fejezet). A megfelel erterekkel
vgzett molekulamechanikai energiaminimalizls eltvolthatja a slyos van der Waals
tkzseket s javthatja a ktshossz- s vegyrtkszg-rtkeket is. Ez azonban nem
Modellrtkels
A hromdimenzis szerkezetek rtkelse klnbz szint pontossgot ignyelhet. Magas
szekvenciaazonossg (> 50%) esetn a vals koordintktl csak kisebb mrtkben elt-
r szerkezetek nyerhetek, gy az rtkelsre alkalmasak lehetnek a ksrleti szerkezetek
esetben hasznlhat eszkzk (pl.: WHAT-CHECK [14]). Kisebb szekvenciaazonossg
(2550%) esetn a modell ltalnos minsge nem korrell, eltrsek lehetnek a norml
sztereokmitl (klnsen energiaminimalizls utn, lsd 3.2.1. fejezet). A nem-kt
atomi klcsnhatsok rtkelsre atomi statisztikai potencilok, pldul ERRAT [22],
ANOLEA alkalmasabbak lehetnek. A modellezsi eredmnyek rtkelsre tovbbi hasz-
nos eszkzk a ProSA [23] s Verify3D [24].
25% alatti szekvenciaazonossgok esetben a modell rtkelst inkbb aminosavanknt
kell elvgezni. Egyes esetekben pontos helyi elemzsre lehet szksg. A hromdimenzi-
s szerkezetrtkel pontszmokkal egyszerre trtn megjelentse hasznos lehet. Egyedi
rtkeket figyelhetnk meg az aktv helyek (vagy kt helyek) vagy ionokkal rintkez
(klnsen fmek koordincijban rszt vev) oldallncok s/vagy mlyen eltemetett li-
gandumok (klnsen a kofaktorok) krnyezetben, mert ilyen esetekben az aminosav-
oldallncok nem-klasszikus krnyezetben vannak. Hasonlan egyedi sajtsgok figyelhet-
ek meg hstabil fehrjk esetben, amelyeket eltemetett krnyezetben lv shidak stabi-
lizlhatnak. Ha ilyen sajtsgokat szlelnk, a modell minsgi rtkelse kiterjeszthet a
templt szerkezetnek rtkelsre is.
Proteinmodell-adatbzisok
Ez a fejezet olyan nyilvnosan elrhet adatbzisokat sorol fel, amelyek proteinmodellezsi
mdszerekkel elksztett fehrjemodell-szerkezeteket gyjtenek ssze.
SWISS-MODEL Repository. Lersokkal elltott fehrjeszerkezeti modellek, melyeket
automatizltan ksztettek az sszehasonlt modellezst vgz SWISS-MODEL szerverrel.
ModBase. Lersokkal elltott fehrjeszerkezeti modellek adatbzisa, melyeket a mo-
dellez automata ModPipe (valamint a PSI-BLAST s MODELLER programok) segts-
gvel ksztettek.
(Tovbbi adatok hajtogats-hozzrendelsrl, felttelezhet ligand-kthelyekrl s protein-
protein klcsnhatsokrl.)
Protein Model Portal (PMP). Hozzfrst biztost klnbz sszehasonlt modellez-
si mdszerekkel partneroldalak ltal szmtott modellekhez, s elrhetv tesz klnbz
modellptsre s rtkelsre alkalmas interaktv szolgltatsokat.
A homolgiamodellezs szoftverei
MODELLER. Szoftver fehrje-homolgiamodellek ellltsra trbeli korltozsok leg-
jobb kielgtsnek felhasznlsval. Ingyenes tudomnyos hasznlatra. Kereskedelmi
vltozata grafikus felhasznli fellettel elrhet az Accelrys-tl.
ProModel. Szoftveregyttes homolgiamodellezshez akr egy kivlasztott templt,
akr a felhasznl ltal megadott templt segtsgvel. Modellezs kzi zemmdban
(mutci, kimetszs, trls, beilleszts vagy hurokbeilleszts), vagy automata mdban. A
clfehrje szerkezetnek, aktv helynek s csatorninak elemzsre alkalmas. Elrhet a
Vlife-tl.
Prime. Teljesen integrlt fehrjeszerkezeti elrejelzs-program grafikus fellettel: szek-
venciailleszts, msodlagos szerkezet elrejelzse, homolgiamodellezs, proteinfinomts,
hurok- valamint oldallnc-elrejelzs. A Schrdinger cg fejlesztse.
DeepView Swiss-PdbViewer. nll programegyttes, amely egyttmkdik az Ex-
PASy web site teljesen automatizlt SWISS-MODEL homolgiamodellez szervervel.
TASSER-Lite. Fehrjeszerkezetet sszehasonlt modellez eszkz, csak a clprote-
in/templt prok > 25% szekvenciaazonossga esetn mkdik. Egydomnes, 41200
aminosav hosszsg fehrjk modellezsre optimalizlt. Non-profit hasznlatra ingye-
nes.
Rosettahome. nll program a Rosetta algoritmus hasznlatra (ab initio fragmens
sszellts Ginzu domn becslssel). Csak nem kereskedelmi hasznlatra.
Rosetta CM. A Rosetta kivl szoftvercsomag makromolekulris szerkezetek model-
lezsre. Rugalmas, tbbcl alkalmazs, amely a fehrjk s nukleinsavak szerkezet-
elrejelzsre, tervezsre s talaktsra alkalmas eszkzket tartalmaz. Nem kereske-
delmi hasznlatra ingyenes.
Molide. Nylt forrskd, tbbplatformos grafikus krnyezet homolgiamodellezsre.
Alkalmas a modellezs leggyakoribb lpseinek megvalstsra. Nem kereskedelmi hasz-
nlatra ingyenes.
3.3. Molekuladokkols
Ha egy fehrje atomi szint hromdimenzis szerkezete elrhet, vizsglhatv vlnak
olyan jellemzi, mint alakja, felleti tulajdonsgai, regek jelenlte. A fehrje sajt tulaj-
donsgainak vizsglata mellett az adott fehrje ms molekulkkal (mint pldul klnbz
kismret ligandumok vagy ms biolgiai makromolekulk, fehrjk vagy nukleinsavak)
trtn klcsnhatsaira vonatkoz informcik is igen fontosak.
3.6. bra. A bFGF/heparin komplex ksrleti szerkezet (jobbra) s egy dokkolsi mdszer-
rel nyert modell (balra) sszehasonltsa. Ez a dokkolsi problma komoly tesztje, mivel
a dokkolshoz hasznlt fehrjeszerkezet nem ksrleti szerkezet, hanem homolgiamodell.
Emellett a dokkols sorn hasznlt heparin-prbamolekula a modellben egy pentaszacha-
rid, mg az ismert szerkezet komplexben hexaszacharid. Ez jelzi, hogy a nvekedsi
faktorok heparin kthelyeit ltalnos prbamolekulk s fehrje-homolgiamodellek se-
gtsgvel is azonostani lehet. [Az MJ Forster sszefoglaljban [15] kzlt bra Elsevier
kiad ltal engedlyezett reprodukcija]
[1] Berman H, Henrick K, Nakamura H, Markley JL (2007) The worldwide Protein Data
Bank (wwPDB): ensuring a single, uniform archive of PDB data. Nucl Acids Res.
35(suppl 1): D301D303.
[3] (a) Kopp J, Schwede T (2004) Automated protein structure homology modeling: a
progress report. Pharmacogenomics. 5(4): 405416; (b) Jaroszewski L (2009) Protein
structure prediction based on sequence similarity Meth Mol Biol. 569: 129156.
[4] Orry AJ, Ruben Abagyan R (Eds.) (2012) Homology Modeling: Methods and Proto-
cols (Meth Mol Biol. 857, ISBN: 978-1-61779-587-9), Humana Press, Totowa.
[5] Browne WJ, North AC, Phillips DC, Brew K, Vanaman TC, Hill RL (1969) A possible
three dimensional structure of bovine alpha-lactalbumin based on that of hens egg-
white lysozyme. J Mol Biol. 42:6586.
[6] (a) Magrane M, UniProt Consortium (2011) UniProt Knowledgebase: a hub of in-
tegrated protein data. Database. bar009; (b) UniProt Consortium (2013) Update on
activities at the Universal Protein Resource (UniProt) in 2013. Nucleic Acids Res.
41(Database issue): D43D47.
[7] Maglott D, Ostell J, Pruitt KD, Tatusova T (2011) Entrez Gene: gene-centered in-
formation at NCBI. Nucleic Acids Res. 39(Database issue): D52D57.
[8] Schwede T (2013) Protein Modeling: What Happened to the Protein Structure Gap?
Structure 21, 15311540.
[9] Baker D, Sali A (2001) Protein structure prediction and structural genomics. Science
294(5540): 9396.
[10] (a) Baker D (2000) A surprising simplicity to protein folding. Nature 405: 3942;
(b) Bonneau R, Baker D (2001) Ab initio protein structure prediction: progress and
prospects. Annu Rev Biophys Biomol Struct. 30: 173189.
[11] Marti-Renom MA, Stuart A, Fiser A, Sanchez R, Melo F, Sali A (2000) Comparative
protein structure modeling of genes and genomes. Annu Rev Biophys Biomol Struct.
29: 291325.
[12] Fiser A, Sanchez R, Melo F, Sali A (2001) Comparative protein structure modeling. In:
Watanabe M, Roux B, MacKerell AD, Jr, Becker O, eds. Computational Biochemistry
and Biophysics. New York: Marcel Dekker. pp 275312.
[13] (a) Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local align-
ment search tool. J Mol Biol 215: 403410; (b) Altschul SF, Madden TL, Schaffer A,
Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Gapped BLAST and PSI-BLAST:
a new generation of protein database search programs. Nucleic Acids Res. 25: 3389
3402.
[14] Hooft RWW, Vriend G, Sander C, Abola EE (1996) Errors in protein structures.
Nature 381: 272272.
[15] Forster MJ (2002) Molecular modelling in structural biology. Micron 33: 365384.
[16] (a) Deane CM, Blundell TL (2001) Improved protein loop prediction from sequence
alone. Protein Eng 14: 473478; (b) Deane CM, Kaas Q, Blundell TL (2001) SCORE:
predicting the core of protein models. Bioinformatics 17: 541550; (c) Pei J, Sadreyev
R, Grishin NV (2003) PCMA: fast and accurate multiple sequence alignment based
on profile consistency. Bioinformatics 19: 427428.
[18] Mizuguchi K, Deane CM, Blundell TL, Johnson MS, Overington JP (1998) JOY:
protein sequence-structure representation and analysis. Bioinformatics. 14: 617623.
[19] Fiser A, Sali A (2003) Comparative protein structure modeling. In: Chasman D, ed.
Protein Structure Determination, Analysis, and Applications for Drug Discovery.
New York: Marcel Dekker, pp. 167206.
[20] Moult J, James MN (1986) An algorithm for determining the conformation of poly-
peptide segments in proteins by systematic search, Proteins 1: 146163.
[21] Flohil JA,Vriend G,Berendsen HJC (2002) Completion and refinement of 3-D homo-
logy models with restricted molecular dynamics: Application to targets 47, 58, and
111 in the CASP modeling competition and posterior analysis. Proteins 48: 593604.
Fehrjeszerkezet-meghatrozs ksrleti
mdszerei s egyszer
fehrjeszerkezet-predikcik
4.1. Bevezets
A bioinformatika legfontosabb clja, hogy ismeretlen szerkezet s/vagy funkcij fehrjk
szekvenciihoz szerkezeti s/vagy funkcionlis adatokat rendeljen a hozz hasonl, ismert
szerkezet s/vagy funkcij szekvencik kztti keresssel. E cl elrse rdekben hat-
kony s megbzhat mdszerek szksgesek ahhoz, hogy a fehrjkhez szerkezeti adatokat
rendelhessnk. E fejezet a fehrjk msodlagos szerkezetnek jellemzsre s hromdimen-
zis szerkezetk atomi szint meghatrozsra alkalmas ksrleti mdszereket mutatja be.
A klnbz bioinformatikai eljrsok sorn a fehrjeszekvencik azonostst s ele-
mezst klnbz szinteken vgezhetjk.
4.3. bra. A Thr 32 loklis hibjnak kijavtsa egy rgebbi, 1,7 felbonts szerkezetben
(1SBP). (A) Az 1SBP [8] ezen oldallnca komoly tbbatomos trbeli tkzst (vrs ts-
kk) okozott, nem voltak hidrognktsei, az N-C-C s C2-C-O1 tetraderes szgek
(jellve) rosszak. (B) Az oldallnc 180 elfordts utn mr j geometrij, tkzsmen-
tes, van kt hidrognktse, s jobban illeszkedik az elektronsrsghez. [Az R. J. Reed
s munkatrsai ltal [5] kzlt bra Elsevier kiad ltal engedlyezett reprodukcija]
4.2.4. Fehrje-rntgenkrisztallogrfia
A PDB adatbzisban [7] elhelyezett szerkezetek tbbsgt rntgenkrisztallogrfia [9] se-
gtsgvel, a 4.4. brn lthat lpseken t hatroztk meg.
Szerkezetk rntgenkrisztallogrfiai mdszerekkel trtn meghatrozshoz a fehr-
jket elszr el kell lltani, majd tiszttani s kristlyostani. Ha megvan a megfelel
kristly, azt rntgensugarakkal tbb irnybl intenzven besugrozva elektronikus detek-
torokkal diffrakcis mintk nyerhetk. Mivel a kristlyok hrom dimenziban periodikusan
tartalmazzk a molekulkat, a diffrakcis mintzat folytonos fggvny helyett inkbb fol-
tok sorozata. A foltok elemzsvel meghatrozzuk az elektronok eloszlst a fehrjben.
Az elemi cella atomi tartalmnak kpt az eltrtett rntgensugrzson alkalmazott ma-
tematikai lencse segtsgvel (inverz Fourier-transzformci) nyerjk. A kp jjptsi
folyamata bonyolult, mivel a diffraktlt rntgensugrzsnak csak az intenzitsa mrhet,
de az egyes eltrtett hullmok relatv fziseltoldsa nem. Ez a hinyz informci je-
lenti a kristlytani fzisproblmt. A hinyz fzisadatok klnbz ksrleti/szmtsi
mdszerekkel nyerhetek (izomorf csere, nehzatom rendellenes szrdsa vagy rszlege-
sen ismert szerkezetek alkalmazsa) [9]. Mivel a rntgenkrisztallogrfis vizsglatban a
rntgendiffrakcit az elektronok s a rntgensugarak klcsnhatsa okozza, az eredmnyl
kapott kp az elektronsrsg eloszlsa a kristly elemi celljban. Interaktv s iteratv
szmtsokkal a ksrleti elektronsrsg-trkphez legjobban illeszked atomi helyzeteket
meghatrozva nyerhet a vgs atomi modell. A PDB adatbzisban az gy meghatrozott
kristlyszerkezet ktfle adatot tartalmaz. A PDB fjlok a vgs modell atomi koordin-
tit s a szerkezetmeghatrozs szerkezeti tnyezit (a rntgendiffrakcis minta foltjainak
intenzitsa s fzisa) tartalmazzk. Ezekbl az adatokbl az elektronsrsg eloszls-kpe
ltrehozhat olyan eszkzkkel, mint pldul az Astex viewer.
A biolgiai molekulakristlyok egszen klnbzek lehetnek: egyes esetekben tkle-
tes, rendezett kristlyok, mg mskor csak a gyenge kristlyok nyerhetek. A meghatroz-
hat atomi szerkezet pontossga teht fgg a kristlyok minsgtl. Egy kristlyszerkezet
pontossga kt fontos paramterrel jellemezhet, mint a felbonts (amely megszabja mi-
lyen rszletessggel tehetk lthatv a ksrleti adatok) s az R-rtk (amely azt mutatja,
hogy mennyire jl tmasztjk al a szerkezeti tnyez fjl ksrleti adatai az atomi mo-
dellt). Az 4.5. bra mutatja be a felbonts jelentsgt. Lthat, hogy a nagy felbonts
(1,0 ) szerkezet pontos atomi pozcikat ad, mg 3 felbontsnl vagy az alatt csak a
fehrje alapvet alakja brzolhat, s az egyedi atomi pozcik pontatlanok.
A rntgenkrisztallogrfia nagyon rszletes atomi informcikat szolgltat szerkezete-
ket nyjthat, melyek a fehrje vagy nukleinsav minden nehzatomjt tartalmazzk, s
rszleteket szolgltatnak olyan ligandumok, inhibitorok, ionok s ms molekulk jelenlt-
rl s elrendezdsrl, amelyek megtallhatak a kristlyban. A kristlyosodsi folyamat
azonban nehz, s ez korltozza, hogy milyen tpus fehrjket lehet tanulmnyozni ezzel
a mdszerrel. Pldul a szp, jl rendezett kristlyokat alkot merev fehrjk szerkezet-
nek meghatrozsra idelis a rntgenkrisztallogrfia. Ezzel ellenttben sokkal nehezebb
a flexibilis fehrjk tanulmnyozsa ily mdon, mivel a krisztallogrfia mdszere azon ala-
pul, hogy igen sok molekulnk van pontosan azonos elrendezdsben. A fehrje flexibilis
4.2.5. Fehrje-NMR-spektroszkpia
Magmgneses rezonancia (NMR) -spektroszkpiai mdszerekkel oldott fehrjkrl jutha-
tunk adatokhoz [10], eltren azoktl a mdszerektl, amelyek fehrjket kristlyban vagy
mikroszkopikus rcshoz ktve ignyelik. Flexibilis fehrjk atomi szerkezetnek tanul-
mnyozsra teht az NMR-spektroszkpia a leginkbb alkalmas mdszer. Az NMR-
spektroszkpit fehrjeszerkezet-meghatrozshoz a 4.7. brn lthat mdon hasznljk.
Az NMR-szerkezeti vizsglatokhoz a krdses fehrje tiszttott formjnak oldata szk-
sges. Mivel csak a 1 H magok (m a 12 C s 14 N nem) NMR-aktvak, a nagyobb polipepti-
4.2.7. Fehrje-neutronkrisztallogrfia
A neutron-fehrjekrisztallogrfia (NC) hatkony kiegsztje lehet a rntgenkrisztallogr-
finak, mivel lehetsget ad a biolgiai szerkezetekben olyan kulcsfontossg hidrognato-
mok helyzetnek meghatrozsra, amelyek csupn rntgenkrisztallogrfiai mdszerekkel
nem lthatak. A teljes mrtkben deuterlt fehrjk elkszthetsge bakterilis exp-
resszis rendszerekkel megsznteti a httrhez nagyban hozzjrul inkoherens hidrogn-
szrst.
Jellemz, hogy a fehrjk rntgenszerkezetei nem adjk meg a hidrognatomok pontos
helyzett. Br a nagy felbonts rntgen-kristlyszerkezetekben nhny hidrognatom sz-
lelhet, a funkcionlisan fontos hidrognatomok gyakran nem lthatk. Egyttes rntgen-
s neutrondiffrakcis vizsglatok jeleztk a NC alkalmazhatsgt a funkcionlisan fon-
tos hidrognatomok atomi helyzetnek pontos meghatrozsra (pl. az egyes aminosavak
protonldsi/deprotonldsi llapota) a fehrjeszerkezetekben [15].
A protein NC f akadlya, hogy szokatlanul nagy kristlyokra (1 mm3 ) van szksg
a rendelkezsre ll neutronsugrzs gyenge fluxusnak ellenslyozshoz.
[1] S. M. Kelly and N. C. Price, The Use of Circular Dichroism in the Investigation of
Protein Structure and Function. Curr Prot Peptide Sci 1:349338, 2000.
[2] S. M. Kelly, T. J. Jess, and N. C. Price, How to study proteins by circular dichroism.
Biochim Biophys Acta Prot Proteom 1751:119139, 2005.
[3] (a) A. J. Miles and B. A. Wallace, Synchrotron radiation circular dichroism spectros-
copy of proteins and applications in structural and functional genomics. Chem Soc
Rev 35:3951 2006; (b) B. A. Wallace and R. W. Janes, Synchrotron radiation cir-
cular dichroism (SRCD) spectroscopy: an enhanced method for examining protein
conformations and protein interactions. Biochem Soc Trans 38(4):861873, 2010.
[6] T. Schwede, Protein Modeling: What Happened to the Protein Structure Gap?
Structure 21:15311540, 2013.
[9] E. E. Lattman and P. J. Loll, Protein Crystallography: A Concise Guide. The John
Hopkins University Press, Baltimore, Maryland, 2008, 152 pp.
[13] Y. Fujiyoshi, Electron crystallography for structural and functional studies of memb-
rane proteins. J Electron Micr 60(Suppl. 1):S149S159, 2011.
[14] T. Gonen, The collection of high-resolution electron diffraction data, Methods Mol
Biol 955:153-169, 2013.
5.1. Bevezets
A gnek kifejezdse hatrozza meg a sejt identitst s ezzel mkdst s kpessgeit.
A DNS ltal kdolt RNS-ek s fehrjk folyamatos egyensly fenntartsra trekszenek a
termels s a lebonts kztt, amire tbb szinten megvalsul, sokrt szablyozsi krk
adnak lehetsget. Az rktanyag tartalmazza az l szervezetek hasznlati tmutatsa-
it. A DNS-ben tallhat varinsok szmos mdon kpesek a gnek expresszijt s aktulis
mennyisgt befolysolni, ami termszetesen a fenotpusban is megjelenhet. Ennek meg-
felelen nagyon sok kutats foglalkozik a transzkripcis faktorokkal, de a gnexpresszi
szablyozsa tbbszint, s csak a teljes kpet vizsglva rthetjk meg pontosan, hogyan
jutunk el a DNS-tl a fehrjig, s azt, hogy egy adott pillanatban egy adott sejtben az
expresszlt fehrje mennyisgnek vltozsa mirt trtnik, s ez a vltozs mit jelent a fe-
notpusra nzve. Ebben a fejezetben a genetikai szablyozs klnbz szintjeit s tpusait
tekintjk t. Megvizsgljuk az egyes varinsok lehetsges funkcionlis hatst is.
A fejezetben elssorban a micro-RNS-ekre s transzkripcis faktorokra helyezzk a
hangslyt, ugyanakkor az emlts szintjn foglalkozunk tovbbi szablyoz mechanizmu-
sokkal is (pl. epigenetika). Mg most csak egy-egy varins lehetsges hatst tekintjk t,
egy ksbbi fejezetben mr hlzat szint modellezssel is foglalkozunk.
5.2. Varinsok
Ahhoz, hogy varinsok funkcionlis hatsrl beszlhessnk, fontos tisztzni, mit rtnk
varinsok s funkcionlis hats alatt. Egy rvid ttekintst adunk a genetikai varinsok
tpusairl s azok lehetsges funkcionlis hatsrl.
kdol
nem kdol
SNP-ket. A nem kdol rgiba es SNP-k az egyes gnekrl trd fehrjnek nem
vltoztatjk meg az aminosavak sorrendjt, de hatssal lehetnek elssorban a kzelkben
tallhat gnek expresszijra. A kdol szakaszba es SNP-k kzl a szinonim polimor-
fizmusok nem vltoztatjk meg az aminosavak sorrendjt, de ritkn kzvetlen hatssal
lehetnek a protein szerkezetre. Ezek mellett a kdol szakaszba es s aminosavcsert
okoz SNP-k fejtik ki a legknnyebben lerhat hatst. Kt tpusukat klnbztetjk
meg: a missense aminosavcsert okoz, de nem stop codonra cserli ki az adott amino-
savat, mg a nonsense tpus SNP stop codonra cserli az eredeti aminosavat, ezzel sok
esetben jelentsen lervidtve a fehrjelnc hosszt, aminek tovbbi ers hatsa lehet a fe-
hrje expresszijra. Az gynevezett UTR SNP-k, ahogy azt a ksbbiekben ltni fogjuk,
szintn fontos szerephez juthatnak a gnexpresszi megvltozsban, ugyanis elsdlegesen
ezeken a szakaszokon tallhatjuk a miRNS kthelyeket. Az intronikus szakaszokra es
SNP-k esetben hasonl megfigyelsek tehetk, mint a nem kdol szakaszokon talhat
polimorfizmusok esetn.
Az egy bzist rint polimorfizmusok mellett lteznek mg egyb hasonlan kis kiter-
jeds varinsok, melyek akr tbb bzist s rinthetnek, mint az inszercik s a delcik.
Inszerci s delci esetn egy vagy tbb bzis illesztdik be, illetve esik ki a genom egy
adott pontjrl. Ezek az eltrsek az SNP-khez hasonl mdon rinthetik a fenotpust.
Kdol rgiba es mutci esetn tovbbi krds, hogy okoz-e az aminosav tfordtsakor
n. leolvassi kereteltoldst (frame shift). Ez abban az esetben fordul el, ha nem (az
aminosavakat kdol kodonokban lv bzisoknak megfelelen) 3 vagy ennek valamilyen
egsz szm tbbszrse a kiesett vagy hozzadott darab hossza.
transzlci gtls
mRNS deadenylci
mRNS trols
A miRNS mindig gtolja a mRNS trst. Az 5.1. brn lthat a miRNS klnbz
hatsainak sszefoglalsa.
5.5.1. miRNS rs
A miRNS rsnek folyamata klnbzik llatokban s nvnyekben. A jelen fejezetben
az llatokra, gy emberekre jellemz folyamatot ismertetjk [1]. A miRNS rse a sejt-
magban kezddik, ahol az elsdleges miRNS-t (pri-miRNS) az RNS-polymerase II enzim
trja a DNS-rl. A pri-miRNS tbb szz bp hossz lehet s tbb miRNS-t is tartalmazhat.
Ezt kveten a Drosha enzim kimetszi a pri-miRNS-bl a hajtre emlkeztet prekurzor
miRNS-t (pre-miRNS). A pre-miRNS kijut a citoplazmba s itt egy Dicer enzim vgja ki
a hajt trzsnek megfelel kettsszl szakaszt, amibl rett miRNS keletkezik [1]. Az
rett miRNS-nek megfelel szakasz egy sszeszereld fehrjekomplexbe (miRISC, miR-
NA induced silencing complex) pl be, majd egyszlv vlva, molekulris cmzsknt
irnytja a komplexet a komplementer szekvencit tartalmaz clpontok fel.
mRNS deadenylci
Az mRNS deadenilci sorn a miRNS-tl fggen az mRNS mennyisge is cskken. Ilyen-
kor miRNS ltal vezetett komplex kapcsoldsa destabilizlja az mRNS molekult. A de-
adenilcit az mRNS 5 vgn tallhat sapka (cap) levlasztsa kvetheti, ami az mRNS
degradldshoz vezet. Habr sok esetben a deadenilci elfelttele a degradcinak,
megfigyelsek szerint az mRNS nem minden esetben kerl lebontsra. Egy ksrletben a
deadenilcit kveten talltak stabil, rszben stabil mRNS molekulkat is. Annak elle-
nre, viszont, hogy a deadenylcit kveten az mRNS stabil maradt, az expresszi ersen
gtolt maradt a miRNS kapcsoldsnak eredmnyeknt.
mRNS szekvesztrcija
A miRNS szablyozsnak egy kzvetett formja a cl-mRNS-ek kivonsa az genetikai in-
formciramls folyamatbl. Ilyenkor a miRNS a szoksos szablyszersgek szerint
hozzktdik a mRNS-hez, majd a citoplazma n. P-testbe irnytja az mRNS-t. Itt
trtnhet deadenilci s a mRNS degradcija is elfordul, de sok esetben csak a kom-
partment csak ideiglenesen trolja az mRNS-t. Mivel a P-testekben egyltaln nincsen
riboszma, ezrt itt nem tud vgbemenni transzlci.
5.7. Epigenetika
Az epigenetikai vizsglatok a XXI. szzad elejn lettek igazn npszerek, jllehet maga
a kifejezs a XX. szzad els felbl szrmazik. Az epigenetika azokkal a molekulris me-
chanizmusokkal foglalkozik, amelyeknek ksznheten kialakul rklhet llapotok nem
a DNS szekvencia eltrseire vezethetk vissza. Amellett, hogy sejt- s szvetspecifikus
gnexpresszis-szablyozst valstanak meg, lehetv teszik a sejtek gyorsabb alkalmaz-
kodst a krnyezet vltozsaihoz. Kt fbb epigenetikai mechanizmust jrunk krbe: a
hiszton mdosulsok s a metilci segtsgvel trtn szablyozst.
5.7.1. Metilci
A DNS metilcija sorn a citozin bzisokhoz, a metil-transzferz enzimek segtsgvel
egy metil (-CH3) csoport ktdhet, amely gy metil-citozinn alakul. A metilci mrtke
fordtottan arnyos az rintett kdol szekvencik aktivitsval. Az emlsk nagyszm
GC-ismtldst tartalmaz, jellemzen a gnek promter rgija krnyezetben elfordul
CpG-szigeteinek j rsze, 70-80%-a metillt llapotban tallhat a genomban, csendestve
az adott gnt. Daganatok esetben rendszerint rendellenes metilcis mintzat figyelhet
meg.
Megjegyzs. A gnekhez tartoz cisz-szablyoz rgik metilltsga s a rluk foly transzkripci mr-
tke kztti sszefggs nem minden esetben egyrtelm: a gnek kdol rgijban lev, gyakran szvet-
specifikusan kialakul metilci egyes esetekben ppen fokozza az transzkripci hatkonysgt. A DNS
metilcijnak s a hiszton-fehrjk kovalens mdosulsainak jelentsgt a kromatin denzitsnak sza-
blyozsban s ezzel a DNS hozzfrhetsgben felttelezik. A kzelmltban felismert duonok (dual-
use codons) a gnek kdol, exonikus, fehrjv lefordtd szakaszainak msodlagos (ketts) szerepre
mutatnak r, amikor ezek a szekvencik amellett, hogy a fehrje aminosavsorrendjt is meghatrozzk,
transzkripcis faktorok szmra szolglnak kthelyknt. Az tfog vizsglatok, a mintegy 81 klnbz
sejttpusban vgzett genomszint TF-kthely trkpezs mdszert hasznlva, megdbbent megfigyel-
sekhez vezettek: a gnek tbb, mint 85%-ban elfordulan, a genom sszes kodonjnak, azaz fehrjre
lefordtd szekvencijnak, 15%-nak transzkripcis faktorokkal trtn lefedse igazolhat. A jelensg
a kodonok hasznlatnak preferencijt alakt tnyezk kz, a fehrjk aminosavsorrendje mellett a
transzkripcis faktorok ktdst lehetv tv motvumok kialaktst vetik fel. Ugyanakkor a szinonm,
aminosavcsert nem eredmnyez varinsok gnexpresszira s ezzel a fenotpusra gyakorolt hatst is
szksges trtkelni.
Jllehet megfigyelhet, hogy a transzkripcis faktorok fellreprezentltak a magasabb szinten exp-
resszld gnek exonjaiban, egyelre tisztzatlan, milyen mdon kpesek befolysolni a transzkripci
folyamatt. A jelenlegi ltalnos tanknyvi modellbe az eredmny mindenesetre egyelre nehezen illeszt-
het be. Lehetsges, hogy ezek a transzkripcis faktorok ms, szomszdos gnek trsra gyakorolnak
hatst, s az is lehet, hogy nem is hagyomnyos mdon mkdnek, hanem egyszeren nyitva tartjk a
kromatinszerkezetet, s ezzel a gneket is az trs szmra.
A kzelmltban tett megfigyels ismtelten felhvja a figyelmet arra, hogy a genom mg szmos rejtett
kdot hordozhat magban, s hasonlak felfedezse tovbb diverzifiklja az amgy is sszetett elkpzel-
snket a mkdsrl.
5.7.2. Hisztonmdosulsok
A beavatkozs setjmagban tallhat DNS magasabb rend szervezdsbe szintn sza-
blyozsra ad lehetsget. A ketts hlix hiszton fehrjk alkotta komplexekre feltekert
formja elsegti az rintett szakaszok hozzfrhetsgnek befolysolst, valamint a sejt-
osztds folyamn a kromatin kromoszmkk tmrtst. Transzkripci sorn a hisz-
tonfehrjk (pl. hiszton deacetilzok ltal katalizlt) mdosulsainak kvetkeztben a
megfelel szekvenciarszletek letekerednek s hozzfrhetv vlnak.
5.8. Modellezs
A technolgiai jtsoknak ksznheten, egyre tbb genetikai informci vlik elrhetv.
Ezeket az adatokat felhasznlva egyre pontosabban megismerhetjk s modellezhetjk
az egyes gnszablyozsi mechanizmusokat vagy akr teljes gnszablyozsi hlzatokat.
A biolgiai szablyozs komplexitsa miatt jelenleg nincs olyan ltalnosan hasznlhat
modell, amelynek segtsgvel az egyes mutcik hatst lehetne tbb szinten vizsglni.
Leginkbb a prokaritk alap szablyoz mechanizmusait ismerjk, erre mutatunk egy
pldt, a laktz operont.
Egy SNP-nek jelents hatsa lehet egy gn expresszijra, s nem csak akkor, ha ami-
nosavat kdol rgiba esik. Bemutatunk egy mdszert, mellyel meg lehet hatrozni,
hogy egy-egy transzkripcis faktor kthelyre (TFBS) es SNP-nek milyen hatsa lehet
a TF ktsi energijra. Vgl adunk egy ltalnos tmutatt arra nzve, hogy milyen
tpus matematikai modellekkel lehet jellemezni a transzkripcitl akr a keletkez fehr-
je mennyisgig az egyes szablyoz mechanizmusok hatst. Ezek a pldk ltalban
az egyes esetekben jelents megszortsokkal alkalmazhatak. A paramterezsk pedig
nagyban fgg a rendelkezsre ll informciktl [3].
5.8.1. regSNP
Az egyes varinsok lehetsges hatsait rviden bemutattuk az 5.2.1. alfejezetben, elssor-
ban az aminosav sorrendre s a fehrje szerkezetre gyakorolt vltozsokra koncentrltva.
Ezek mellett hasonlan fontos a keletkez fehrje mennyisgt befolysol varinsok hat-
sa. A gnek promter rgijban tallhat transzkripcis faktor kthelyek s a hozzjuk
kapcsold TF-ek kcslnhatst jelentsen befolysolhatja akr egy SNP is. Ugyanis a
TFBS-on tallhat SNP-k mdosthatjk a ktsi energit a DNS szakasz s a TF kztt.
A regSNP [4] algoritmust arra fejlesztettk, hogy a TFBS s a TF kztti ktsi energit
s az adott gn egy fenotpusban (jellemzen egyfajta betegsgben) vrt szerepe alapjn
fellltsanak egy sorrendet a kthelyeken elhelyezked SNP-k kztt.
A ktsi energia kiszmtshoz felhasznltk a TRANSFAC [5] adatbzisban szerepl
n. positional weight mtrixokat (PWM). Az alll gyakorisgt, az sszes a TRANSFAC
adatbzisban elfordul adott TFBS-hez ktd TF szmt s az adott alll adott pozici-
ban lv PWM-bl vett szmossgt felhasznlva adjk meg a referencia s az alternatv
alll esetn szmolt ktsi energit a TFBS-re s az adott TF-re nzve. Ezt felhasznlva
megllapthat, hogy az adott SNP mekkora hatssal van a TF ktdsre. A p-rtk sz-
mtshoz vletlenszeren vlasztanak SNP-ket a HapMapbl. A vgs sorrendet az elbb
emltett mdszer s az Endavourrel [6] vgzett gnprioritizls sorrendjnek fzijbl
szmtjk.
egy gnrl trtnik trs. Az egyes szablyoz elemek kztt pedig S (AND, ), VAGY
(OR, ) s NEM (NOT, ) jelleg kapcsolatokat hasznlhatunk. Ezzel a mdszerrel
kvalitatvan jl lerhat egy biolgiai hlzat. Pldul egy adott gnrl a fehrje trdst
lehet jellemezni a kvetkezkpp.
A gnt egy transzkripcis faktor gtolja s egy bekapcsolja, emellett egy miRNS
gtolja, akkor fehrje akkor keletkezik, ha
5.8.4. Differencilegyenletek
Differencilegyenleteket akkor hasznlunk modellek lersra, ha tipikusan idben s/vagy
trben vltoz mennyisgeket akarunk jellemezni. Ilyenkor minden egyes elem a tbbi elem
fggvnye. Pldul az mRNS koncentrcijt meg lehet adni a miRNS koncentrcijnak
fggvnyben. Az egyes mennyisgekhez pedig paramterknt megadjuk a lebomlsi idt
A lac operont E. coli baktriumban rtk le. Ez az operon 3 strukturlis gnt tartal-
maz (lacY,lacZ, lacA). A mkdst a lacI gn szablyozza, amelynek trsa folyamatos,
amg nincs laktz a sejtben. Ilyenkor nincs szksg a laktzt feldolgoz enzimekre sem,
ezrt a lacI gn ltal kdolt represszor az opertorrgiba ktdve megakadlyozza az
enzimek transzkripcijt. Laktz megjelenst kveten a represszor fehrjnek megvl-
tozik a szerkezete, ezrt levlik az opertorrl, gy lehetv vlik az enzimeket kdol
gnek transzkripcija. Ksbbi kutatsok kimutattk, hogy a lac operon tovbbi 2 ope-
rtort tartalmaz [8], s ezek kombinatorikusan szablyozzk a mr ismert opertorral
egytt a transzkripcit. A teljes gtlshoz szksges, hogy minden opertorrgiba ks-
sn gtl fehrje. A korbban mr lert opertor ugyan a legfontosabb, de nmagban
csak gyengbben gtolja az DNS trst. Tovbb egy szablyoz fehrje egyszerre tbb
opertorrgiba kthet, hurok formba knyszertve a DNS-t.
[1] K. Chen and N. Rajewsky, The evolution of gene regulation by transcription factors
and microRNAs. Nat Rev Genet, 8(2):93103, 2007.
[3] A. Ay and D. N. Arnosti, Mathematical modeling of gene expression: a guide for the
perplexed biologist. Critical reviews in biochemistry and molecular biology, 46(2):137
151, 2011.
[7] F. Jacob and J. Monod, On the Regulation of Gene Activity. Cold Spring Harbor
Symposia on Quantitative Biology, 26:193211, 1961.
[8] S. Oehler, E. R. Eismann, H. Krmer, and B. Mller-Hill, The three operators of the
lac operon cooperate in repression. The EMBO journal, 9(4):973, 1990.
[9] L. Cerulo, C. Elkan, and M. Ceccarelli, Learning gene regulatory networks from only
positive and unlabeled data. BMC Bioinformatics, 11(1):228, 2010.
[13] C. Elkan and K. Noto, Learning Classifiers from Only Positive and Unlabeled Data.
In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD 08, pp. 213220, New York, NY, USA, 2008. ACM.
[14] T. D. Le, L. Liu, B. Liu, A. Tsykin, G. J. Goodall, K. Satou, and J. Li, Inferring
microRNA and transcription factor regulatory networks in heterogeneous data. BMC
Bioinformatics, 14:92, 2013.
6.1. Bevezets
Az 5. fejezetben bemutattuk az egyes genetikai mutcikat s azok lehetsges hatsa-
it. Tovbb krbejrtuk azokat az alapvet mdszereket, melyekkel ezeket a hatsokat
akr polimorfizmusok szintjn lehet modellezni. Vgl rviden sszefoglaltunk egy-kt
mdszercsaldot (termodinamikai, differencilegyenlet, Boole-mdszerek), melyek a ma-
gasabb szint modellezst tesznek lehetv. Ebben a fejezetben folytatjuk s rszleteseb-
ben trgyaljuk a genetikai szablyozsi hlzatok tanulst. ttekintjk, hogy az egyes
algoritmusokat milyen adatforrsokkal tudjuk tantani, vgl nhny mdszert rszletesen
bemutatunk.
llni a publikcik hinya miatt. Eddig nem asszocilt gnekrl nem tudhatjuk biztosan,
hogy nem llnak kapcsolatban az adott fenotpussal. Ez jelents torztst okoz a tanul
rendszerben, amit figyelembe kell venni.
A gnszablyozsi hlkat tanul gpi tanulsi technikk ltalban irnytott grfnak
tekintik a szablyozsi hlt. Az egyes csompontok a szablyozsi hl elemei, pldul
gnek vagy fehrjk, mg az lek az egyes elemek kztti kapcsolatot jelentik meg.
Informcielmleti modellek
Boole-hlzati modellek
Differencil- s differenciaegyenletekbl ptkez modellek
Bayes-i modellek
6.3.1. ARACNE
Egy informcielmleti mdszer az ARACNE [10], amely gnproknak a klcsns infor-
mci- (mutual information, MI) tartalmt szmtja ki az expresszis mrsekbl. Az
egyes mrsek alapjn meghatrozk a gnekhez tartoz valsznsget P (gi )-t. Majd ezt
felhasznlva szmoljk a klcsns informcit:
6.3.2. REVEAL
Sok esetben nem a hlzat dinamikjra vagyunk kvncsiak, esetleg nincs elegend ada-
tunk, vagy szmtsi kapacitsunk bonyolultabb hlk esetn, hanem csak egy hlzat
M (Y 0 , X)/H(Y 0 ) = 1, (6.4)
mirTarBase
miRanda
TarBase
KEGG
IPA
Ezen mdszerek alaptlete intuitv. Amennyiben A elem e(A) expresszis profillal ren-
delkezik s ismert, hogy szablyozza B elemet e(B) expresszis szinttel, akkor a hasonl
expresszis profillal rendelkez elemek kztt is felttelezhetjk, hogy hasonl szablyoz
kapcsolat ll fenn. Annak ellenre, hogy ezek az adatbzisok sok informcit tartalmaz-
nak, a klnbz interakcikrl csak pozitv pldk szerepelnek bennk, ami a legtbb
osztlyoz algoritmusnak gondot okoz. Tbb megolds is ltezik ennek a hatsnak a ki-
kszblsre, de ezek kzl pr ersen alkalmazsfgg.
A legegyszerbb mdszer a negatv tant pontok vletlenszer kivlasztsa a nem
osztlyozott halmazbl. Ebben az esetben viszont az algoritmus teljestmnyt nagyban
befolysolhatja, ha a random vlasztott pontok kz hamis negatv pontok kerlnek. Ah-
hoz, hogy jobban tudjunk vlasztani a nem osztlyozott tantpontok kzl, hasznlhatunk
6.4.1. PosOnly
Rvid betekintst nyjtunk az algoritmusba, a tma irnt mlyebben rdekldk a [13, 9]
cikkekben tallnak tbb informcit.
Az adatot a szoksos mdon egy tulajdonsgokat tartalmaz vektorral, x, s az osz-
tlyok cmkjt tartalmaz vektorral, y = 0, 1 rjuk le. Emelett bevezetnk egy jabb
binris vektort, s:
(
1, ha x-hez tartozik y,
s=
0 egybknt.
A tanuls clja itt a kvetkez fggvny: f (x) = p(y = 1|x). Megmutattk, hogy
ebben az esetben ez ekvivalens a
fggvnnyel, ahol p(s = 1|y = 1) egy konstans faktor. Ezt a konstanst egy validci-
s halmaz segtsgvel lehet becslni. Ez azt jelenti, hogy ilyenkor a kapott feltteles
valsznsg egy konstans faktorral klnbzik csak az eredetileg kiszmtand feltteles
valsznsgtl. A [9] cikkben a szerzk mutatnak egy lehetsges becslst p(s = 1|y = 1)-
re. P
p(s = 1|x)
xP
p(s = 1|y = 1) = P , (6.5)
p(s = 1|x)
xV
6.4.2. SIRENE
SIRENE egy szupport vektor gp (support vector machine, SVM) alap tantsi algorit-
mus. A feladatot felbontjk sok kisebb rszre, s minden egyes TF esetn tantanak egy
SVM-et. A Gauss-fle radilis bzisfggvny kernelt hasznljk fel.
kx yk
K(x, y) = exp . (6.6)
2 2
[1] K. Chen and N. Rajewsky, The evolution of gene regulation by transcription factors
and microRNAs. Nat Rev Genet, 8(2):93103, 2007.
[3] A. Ay and D. N. Arnosti, Mathematical modeling of gene expression: a guide for the
perplexed biologist. Critical reviews in biochemistry and molecular biology, 46(2):137
151, 2011.
[7] F. Jacob and J. Monod, On the Regulation of Gene Activity. Cold Spring Harbor
Symposia on Quantitative Biology, 26:193211, 1961.
[8] S. Oehler, E. R. Eismann, H. Krmer, and B. Mller-Hill, The three operators of the
lac operon cooperate in repression. The EMBO journal, 9(4):973, 1990.
[9] L. Cerulo, C. Elkan, and M. Ceccarelli, Learning gene regulatory networks from only
positive and unlabeled data. BMC Bioinformatics, 11(1):228, 2010.
[13] C. Elkan and K. Noto, Learning Classifiers from Only Positive and Unlabeled Data.
In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, KDD 08, pp. 213220, New York, NY, USA, 2008. ACM.
[14] T. D. Le, L. Liu, B. Liu, A. Tsykin, G. J. Goodall, K. Satou, and J. Li, Inferring
microRNA and transcription factor regulatory networks in heterogeneous data. BMC
Bioinformatics, 14:92, 2013.
7.1. Bevezets
A genetikai asszocicis vizsglatok clja, hogy feltrja a klnfle mrstechnikk ltal
mrt genotpusok gyakorisga s a vizsglt fenotpusok kztti statisztikai fggsgeket.
A leggyakoribb az esetkontroll vizsglat, ahol egynukleotidos polimorfizmusok (single
nucleotide polymorphism - SNP) s egy binris, betegsgsttuszt ler vltoz kztti
statisztikai fggsg elemzsre kerl sor. Ha egy adott SNP lehetsges genotpusainak
eloszlsa szignifiknsan eltr betegeknl a kontrollokhoz kpest, akkor az annak a jele,
hogy az adott SNP valamilyen szerepet jtszik az adott betegsg mechanizmusban. A
mrstechnikk gyors fejldse jelents vltozst eredmnyezett a genomikai vizsglatok
kialaktsban s az eredmnynek feldolgozsban. A kezdetben nhnyszor 10-100 SNP
egyttes mrst, melyet manapsg kandidns gnasszocicis vizsglatnak (Candidate
Gene Association Study - CGAS) neveznk, felvltotta az 1000-10000 nagysgrend teljes
genom asszocicis vizsglatok (Genome-Wide Association Study - GWAS) sora. Ezek
azonban sok esetben nem vltottk be a hozzjuk fztt remnyeket, azaz szmos mul-
tifaktorilis betegsg (pl.: asztma, obezits) genetikai htternek megfejtse tovbbra is
vrat magra. Ennek egyik lehetsges oka a krnyezeti tnyezk, fenotpusok nem megfele-
l mrse, vizsglatnak hinya, a msik a rendelkezsre ll statisztikai eszkzk korltai,
legfkpp a tbbszrs hipotzistesztels miatti korrekci. Mindezek miatt jra eltrbe
kerltek az olyan CGAS-ok, melyek rszletes krnyezeti s fenotpus-lerk figyelembev-
tele mellett vizsgljk a statisztikai fggsgeket. Ebben a fejezetben olyan statisztikai
mdszereket s eszkzket mutatunk be, melyeket gyakran alkalmaznak gnasszocicis
vizsglatok elemzshez.
7.2.1. Szrs
Felttelezve, hogy az adathalmaz mr tesett egy alapszint feldolgozson egy genotipi-
zl mszer ltal (a mrsi hibk jellse megtrtnt az adathalmazban), az adathalmaz
vizsglatt a hibs elemek szrsvel kezdjk. A szrs clja a nem megfelel adatcel-
lk eltvoltsa mintk elhagysval vagy vltozk kizrsval. Ehhez kt kszbrtket
kell meghatroznunk: egyfell a hinyzs arnyt vltoznknt (HAV), msfell a hiny-
zs arnyt mintnknt (HAM). Els lpsben a (majdnem) teljesen hinyz SNP-eket
tvoltjuk el, melyeknl a HAV> 95%. Ezt kveten az adathalmaz mrete s a mintk
minsgnek fggvnyben vgezzk a szrst. Egy nagymret adathalmaz esetn, amely
j minsg mintkat tartalmaz, szigor szrsi kszbrtket alkalmazhatunk a mintk
szrsre, gymint HAM: 5 10%. A gyakorlatban jellemzen ennl jval engedkenyebb
kszbrtket kell alkalmaznunk, HAM: 20 25%. Olyan esetben azonban, mikor a min-
taszm alacsony, illetve a mintk minsge kzepesnl nem jobb, akkor akr 50% is lehet
ez az rtk. Mindezek mellett, ha a clvltoz vagy valamelyik kzponti fontossg ler
rtke hinyos, akkor a mintt ki kell zrni az elemzsbl, fggetlenl a tovbbi hiny-
zs mrtktl. A vlasztott kszbrtk feletti hinyzssal rendelkez mintk elhagyst
kveten a vltozk szrsre kerl sor. Ezt a kszbrtket szintn az adathalmaz min-
sgnek fggvnyben kell megvlasztanunk. Az 5%, 10% s 20%-os rtkeket sorrendben
szigor, kzepes s engedkeny kszbknek tekinthetjk. Egy tovbbi lpsben figyel-
met kell fordtanunk a vltozk rtkkszletre. Mindazon vltozkat, melyek csak egy
lehetsges rtkkel rendelkeznek, mint pldul monomorf SNP-eket, el kell tvoltanunk.
ltalnossgban az 1% alatti variabilitst mutat vltozkat (azaz a vltoz egyik rtke
az adathalmaz kevesebb, mint 1%-ban vagy kevesebb, mint 10 mintban szerepel) el kell
tvoltani.
A hinyz genotpus-rtkek ptlsra (imputcijra) tbb mdszer alkalmas, kzlk
a legegyszerbb az adott genotpus eloszlsn alapul vletlen mintavtel.
7.3. Fenotpus-adattranszformci
A rendelkezsre ll fenotpus lerktl, klinikai s krnyezeti faktoroktl fggen tovbbi
adatfeldolgozsra, transzformcira lehet szksg. A genetikai faktorok rtkeivel szemben
a fenotpus-, klinikai, illetve krnyezeti lerk rtkei alaprtelmezs szerint nem ptolha-
tk. Ebbl kifolylag e vltozk megfelel elfeldolgozsa alapvet fontossg lehet az
elemzs sikeressge szempontjbl.
7.3.1. Transzformci
Abban az esetben, ha tbb kvantitatv fenotpus-ler adott, melyek clvltozknt (fgg
vltozknt) szolglhatnak az elemzsben, akkor dntennk kell, hogy egymstl fgget-
lenl kezeljk, vagy egy komplex fenotpus-lerv transzformljuk ket. Az els esetben
annyi klnll elemzst kell elvgezni, ahny clvltoznak vlasztott vltoz adott. En-
nek kvetkezmnyeknt a tbbszrs tesztels miatt szigorbb p-rtk-kszbk alkalma-
zsra lesz szksg, ami ellehetetlentheti az eredmnyek rtelmezst (rszletekrt lsd
az asszocicis tesztek alfejezetet). Mindez elkerlhet megfelel vltozszelekcival s
transzformcival. Egy lehetsges megolds, hogy fkomponens-analzissel (PCA) kiv-
lasztjuk a lnyeges fenotpus-elemeket, melyekbl egy komplex fenotpus-lert alaktunk
ki [Zhang et al. 2012]. Ekkor az elemzsekben mr ezt az sszetett lert hasznlhatjuk.
Megjegyezzk, hogy egy Bayes-i keretrendszerben ilyen sszevonsra nincs szksg, az
egyes clvltozk egyttesen is vizsglhatak.
7.3.2. Diszkretizls
Szmos frekventista s Bayes-i mdszer csak diszkrt (kategorikus) vltozkon alkalmaz-
hat, ezrt szksg lehet a folytonos jelleg, kvantitatv fenotpus-, krnyezeti s klinikai
faktorok diszkretizlsra. Erre szmos mdszer ll rendelkezsre, kztk a legegyszerbb
az egyenl szlessg kategrikat alkalmaz mdszer. A nagyobb statisztikai program-
csomagokban (pl.: R) jellemzen tbb sszetett diszkretizl algoritmus elrhet.
amely vagy egy ltalnos modellt, vagy GAS esetben specilis genetikai rklsi modellt
(additv, dominns, recesszv) alapul vve asszocicit felttelez. Az asszocicis tesztek
alapvet eleme a tesztstatisztika, amin a hipotzisek kirtkelse alapszik. ltalnosan, a
nullhipotzis akkor utasthat el, ha a kiszmtott statisztikhoz tartoz szignifikanciaszint
alacsonyabb egy elre meghatrozott kszbrtknl. A leggyakrabban az = 0,05 r-
tket alkalmazzuk kszbrtkknt. GAS esetben a Pearson-fle khi-ngyzet-statisztika
egy gyakran alkalmazott mdszer, ami lehetv teszi kategorikus vltozk (pldul beteg-
sglerk s genetikai faktorok) kztti fggsg vizsglatt. A szmtsok elsegtsre a
vltozk kardinalitsnak (rtkeik szmossgnak) megfelel mret kontingenciatbl-
zatot hozhatunk ltre [Agresti 2002]. Pldul ha adott kt binris vltoz X (egy adott
alll) s Y (egy vizsglt fenotpus), akkor egy 2 2 tblt hozunk ltre.
ahol Oi,j jelli a megfigyelt s Ei,j a vrhat gyakorisgt az i-adik sorban s a j-edik
oszlopban lv cellhoz tartoz rtknek. A vrhat gyakorisgot a megfigyelt rtkek sor
(r) s az oszlop (c) rszsszegei alapjn szmolhatjuk:
( cm=1 Oi,m ) ( rn=1 On,j )
P P
Ei,j = , (7.2)
N
ahol N az sszmintaszm. Ez a tesztstatisztika aszimptotikusan megkzelti a (r1)(c1)
szabadsgfok 2 eloszlst. Ha a szmtott Pearson-fle khi-ngyzet-statisztika magasabb,
mint a 2 eloszls = 0,05 szignifikanciaszinthez tartoz kritikus rtke, akkor a fg-
getlensget felttelez nullhipotzis elvethet. Ms megfogalmazsban, ha a szmtott
statisztikhoz tartoz p-rtk kisebb, mint = 0,05, akkor a nullhipotzis elvethet.
Tekintsk pldaknt a 2 2 kontingenciatblt, melynek elemei, a megfigyelt gyako-
risgok, illetve a sor s oszlop rszsszegek a 7.2. tblzatban lthatak. A feladatunk
az, hogy megvizsgljuk, hogy fennll-e fggsg X genetikai faktor s Y clvltoz kztt.
A nullhipotzis szerint X s Y fggetlen egymstl, mg az alternatv hipotzis szerint
X s Y fgg egymstl. Az els lps a vrhat gyakorisgok szmtsa a megfigyelt
gyakorisgok alapjn a nullhipotzis szerint.
Pldul az X = 0, Y = 0 rtkpr esetn a megfigyelt gyakorisg 60, a vrhat gya-
korisg pedig a sor s oszlop rszsszegek, illetve a teljes mintaszm alapjn szmthat
7.4.2. CochranArmitage-trendteszt
A CochranArmitage-trendteszt a Pearson-fle khi-ngyzet-prba egy specilis vltozata,
melyben egy binris s egy tbbrtk kategorikus vltoz kztti fggsg vizsglatra
kerl sor [Cochran 1954, Armitage 1955]. A teszt lnyege, hogy a tbbrtk vltoz ka-
tegrii kztt sorrendezettsget (trendet) felttelez, teht pldul a 0, 1, 2 kategrik egy
lehetsges rtelmezse rendre alacsony, kzepes, magas. Esetkontroll tpus gnasszo-
cicis vizsglatok esetn a CochranArmitage-trendtesztben szerepl binris vltoz a
vizsglt betegsg sttuszt ler clvltoz (Target: T ), amely megadja, hogy egy adott
minta kontroll vagy eset. A tbbrtk vltoz S pedig egy vizsglt SNP-nek felel meg
0, 1, 2 rtkekkel, melyek jellemz rtelmezse rendre gyakori homozigta, heterozigta,
ritka homozigta (hrom lehetsges genotpust felttelezve).
7.4.3. Hatserssg
Amg az asszocicis tesztek clja feltrni, hogy kt vltoz kztt szignifikns-e a fggs,
addig a hatserssg-mrck a fggs erssgt hatrozzk meg kvantitatv mdon. Az
odds ratio a leginkbb alkalmazott hatserssg-mutat, ami megmutatja egy adott beteg-
sg vagy llapot kontextusban, hogy egy adott genetikai jegy hogyan befolysolja az eset
s kontroll populci arnyt [Balding 2006]. Teht voltakppen azt szmszersti, hogy
az adott jegy vd (OR< 1), kockzatnvel (OR> 1) vagy semleges (OR= 1) szerepet
tlt be az adott betegsg szempontjbl. A standard odds ratio kizrlag a populcik
arnyt veszi figyelembe; a tbbvltozs kapcsolatokat nem veszi szmtsba.
Jellje X1 , X2 , ..., Xn azon diszkrt vltozkat, melyek SNP rtkeket (0, 1, 2) kdolnak,
melyek a gyakori homozigta, a heterozigta s a ritka homozigta genotpusoknak felelnek
(s)
meg. Ekkor Xi jellje az Xi SNP-et s rtkkel. Tovbb egy Y betegsgler esetn (ahol
Y (0) : kontroll, Y (1) : eset) az odds a kvetkezkpp definilhat:
(s)
p(Y (1) |Xi )
oX (s) = (s)
. (7.7)
i
p(Y (0) |Xi )
Ennek alapjn az odds-ratio (OR) pldul egy heterozigta (1) versus gyakori homozigta
(0) esetben ily mdon adhat meg:
oX (1)
ORX (1,0) = i . (7.8)
i oX (0)
i
r
1 1 1 1
SE = + + + , (7.10)
n00 n01 n10 n11
ahol njk jelli azon esetek szmt, ahol Xij s Y k . Erre ptve a log odds ratio (L) 95%
konfidenciaintervalluma (CI) megadhat gymint CI = L 1,96 SE. Teht a CI nem
ms, mint [OR\ exp(1,96SE), OR exp(1,96SE)]. Tekintsk pldaknt a 7.2. tblzatban
ismertetett adathalmazt. Ennek odds ratioja s konfidenciaintervalluma a kvetkezkpp
szmthat:
o (1) 50/60 0,833
ORX (1,0) = X = = = 0,536 (7.11)
oX (0) 70/45 1,556
p
SE = 1/60 + 1/50 + 1/45 + 1/70 = 0,2705 (7.12)
95%CILow = ORX (1,0) / exp(1,96 SE) = 0,536/1,699 = 0,3154 (7.13)
95%CIHigh = ORX (1,0) exp(1,96 SE) = 0,536 1,699 = 0,9108. (7.14)
Ez azt jelenti, hogy X-nek vd hatsa van Y betegsgre nzve OR = 0,536 rtkkel, s
(0,3154 0,9108) kztti 95%-os konfidenciaintervallummal. Mivel a 95% CI ez esetben
nem tartalmazza a semleges hatserssget jelent 1-es odds ratiot, ezrt ez a hatserssg
szignifiknsnak tekinthet.
egy konvergens llapotot, azaz ahonnan mr nem lehet javtani, vagy az is lehetsges,
hogy ilyen llapot egyltaln nem rhet el. A logisztikus regresszis modell rszt kpzik
mindazok a magyarz vltozk, amelyek nem nulla regresszis koefficienssel rendelkeznek.
Br ez ebben a formban egy tbbvltozs modell, az egyes faktorok egyni hozzjrulsa
a modellhez mrhet Wald- vagy likelihood ratio teszt ltal. A Wald-teszt a Wald-
statisztikra pl W = (i2 /SE2i ), melynek eloszlsa kzelthet 2 eloszlssal. Ennek
megfelelen a teszt szignifikancijnak meghatrozsa a khi-ngyzet-teszthez hasonlan
trtnik.
7.5.2. Haplotpus-asszocici
A SNP-k egyttes vizsglatra kzenfekv vlaszts a haplotpus szint asszocicis elem-
zs. Ekkor a haplotpust forml SNP-ek (H1 : {S1 , S2 , S3 }) lehetsges alllvarinsainak
(pl.: S1 : A/G, S2 : C/T, S3 : G/A) kombincijaknt llnak el a haplotpus lehetsges
rtkei (pl.: ACG,ACA,ATA,ATG,GTG,GTA,. . .). Az gy ltrehozott tbbrtk vlto-
z clvltozval vett fggsgnek vizsglatra klnfle mdszerek alkalmazsval nylik
lehetsg, melyeknek alapveten kt lnyeges problmt kell kezelnik: a (1) haplotpus
fzisinformci hinya s (2) a haplotpus rtkkszletnek nagysga [Liu et al. 2008].
A fzisinformci megadja, hogy az adott alll az anyai vagy az apai kromoszmn
tallhat, ennek hinyban minden kombincis lehetsget figyelembe kell venni. A
haplotpus-asszocicis metdusok egy rsze felttelezi, hogy rendelkezsre ll a fzisin-
formci (akr mrs, akr becsls ltal), a mdszerek egy msik rsze pedig integrltan
tartalmazza a fzisinformci becslst.
A haplotpus rtkkszletnek szmossga azrt jelenthet gondot, mert jellemzen nem
elegend a mintahalmaz ahhoz, hogy a legritkbb haplotpus-varinsokat is statisztikai-
lag elgsges mrtkben tartalmazza. Pldul ahhoz, hogy egy 4 bialllikus SNP-et (pl.:
A/G esetben AA, AG, GG genotpust) tartalmaz haplotpus (melynek kardinalitsa:
3 3 3 3 = 81) minden lehetsges varinshoz elgsges mintaszm (> 10) lljon
rendelkezsre, 810 mintra lenne szksg egyenletes gyakorisgot felttelezve. Valjban
azonban nem helytll az egyenletessg felttelezse, ehelyett jellemzen egy pr gyakori
haplotpusrtk mellett a lehetsges varinsok nagy rsze ritka, azaz 1% alatti gyakorisg.
A ritka haplotpusok kezelsnek egy lehetsges mdja a hasonlsg alap sszevons pl-
dul hierarchikus klaszterezssel [Durrant et al. 2004] vagy evolcis fa alap valsznsgi
klaszterezssel [Tzeng 2005]. Egy tovbbi lehetsges mdszer a slyozott log-likelihood
alap megkzelts [Souverein et al. 2006].
Haplotpus-asszocicis teszt
A haplotpus asszocicis tesztek legegyszerbb vltozata azt vizsglja, hogy a haplotpus
eloszlsa az eseteknl s kontrolloknl klnbzik-e (ez az n. goodness-of-fit teszt). Ehhez
egy likelihood-arny statisztika (LHR) kszthet, melynek ltalnos formja
Haplotpus-megoszls
A haplotpus-megoszlst vizsgl mdszerek arra fkuszlnak, hogy az egyes mintahalma-
zokon bell mennyire hasonlak a haplotpust alkot alllok. Teht egy adott L lkusz
s s(.) hasonlsgi mrce esetn U1 , U2 , . . . UN kontroll haplotpusokat s V1 , V2 , . . . VM
eset haplotpusokat vizsglva ngyfle haplotpus-megoszlst mr metrika adhat meg
[Nolte et al. 2007].
A kontrollcsoporton belli haplotpus-megoszls:
N 1 X
N
2 X
HSkontroll (L) = s(Ui , Uj , L). (7.20)
N (N 1) i=1 j=i+1
sszestett haplotpus-megoszls:
N 2 HSkontroll (L) + M 2 HSeset (L) + 2N M HSkereszt (L)
HStotal (L) = . (7.23)
(N + M )2
Ezek segtsgvel klnbz haplotpus-megoszlst tesztel statisztikk hozhatk lt-
re, gymint a HSS -teszt s a CROSS -teszt [Nolte et al. 2007]. A HSS -teszt az eset s a
ahol (.) az adott haplotpus-megoszlsokhoz tartoz becslt szrst jelli. Nagy min-
taszm esetn HSeset (L) s HSkontroll (L) norml eloszlst kvet, a kztk lv eltrs
szignifikancija egy N + M 2 szabadsgfok t-teszttel adhat meg.
A CROSS -teszt ehhez kpest azon alapszik, hogy az esetek s a kontrollok kztti
haplotpus-megoszls kisebb, mint kt vletlenszeren vlasztott haplotpus kztt:
ahol (.) jelli a szrst. A zCROSS (L) statisztika eloszlsa norml eloszlssal kzelt-
het az extrm L rtkeket leszmtva, ahol egy transzformcit kveten 2 eloszlssal
becslhet [Nolte et al. 2007].
Tovbbi statisztikk is kialakthatak az ismertetett metrikk felhasznlsval, melyek
tbbsge az albbi kvadratikus formban rhat fel:
Q
Q = Htv Av Hv Htu Au Hu , T = , (7.26)
(Q)
ahol yi az i-adik minta betegsgler rtke, yi pedig a GLM-mel illesztett becsls, kizr-
lag krnyezeti faktorok alkalmazsval, f () pedig egy normalizcis faktor a GLM-ben
hasznlt eloszlsnak megfelelen. E[Hi |Gi ] a haplotpusok eloszlsa felett szmtott felt-
teles vrhat rtket jelli az adathalmaz ltal megadott genotpus fggvnyben. A W
Szmos ms tnyez befolysolhatja ezeken kvl a statisztikai ert, azonban ezek jel-
lemzen kisebb hatsak s az adott vizsglat jellemzitl fggenek.
A statisztikai er elemzsre sor kerlhet a priori, a vizsglat (mintagyjts) elvgzse
eltt, illetve post-hoc jelleggel a vizsglatot (mintagyjtst) kveten. Az elbbi esetben
az erelemzs clja - adott szignifikanciaszint s hatserssg mellett - a kitztt statiszti-
kai erhz szksges mintaszm meghatrozsa. Mg post-hoc esetben a cl a tnylegesen
rendelkezsre ll mintaszm alapjn add statisztikai er kiszmtsa. Az erelemzs a
priori alkalmazsa teljes mrtkben elfogadott, a post-hoc felhasznls azonban vitatott,
mivel a statisztikai er fgg a statisztikai teszttel elrt p-rtktl. Klnsen akkor add-
hatnak flrevezet eredmnyek, amikor a minta eleve nem volt megfelelen nagy egy adott
nagysg hats vizsglathoz.
A statisztikai er szmtsnak egy mdja a bemutatott fbb tnyezket tartalmaz
regresszis modell maximum-likelihood mdszerrel trtn illesztse. Ezt valstja meg
pldul a Quanto program [Gauderman and Morrison 2006] vagy az online elrhet Ge-
netic Power Calculator [Purcell et al. 2003], de szmos ms statisztikai programcsomag is
alkalmas a statisztikai er szmtsra.
[Agresti 2002] A. Agresti, Categorical Data Analysis. Wiley-Interscience, New York, 2002.
[Armitage 1955] P. Armitage, Tests for linear trends in proportions and frequencies. Bio-
metrics, 11(3):375386, 1955.
[Balding 2006] D. J. Balding,A tutorial on statistical methods for population association
studies. Nat. Rev. Genet., 7(10):781791, 2006.
[Barrett et al. 2005] J. C. Barrett, B. Fry, J. Maller, and M. J. Daly, Haploview: analysis
and visualization of LD and haplotype maps. Bioinformatics, 21(2):263265, 2005.
[Benjamini and Hochberg 1995] Y. Benjamini and Y. Hochberg, Controlling the false dis-
covery rate: a practical and powerful approach to multiple testing. J. R. Stat. Soc.,
57(1):289300, 1995.
[Cochran 1954] W. G. Cochran, Some methods for strengthening the common chi-squared
tests. Biometrics, 10(4):417451, 1954.
[Dunn 1961] O. J. Dunn, Multiple comparisons among means. Journal of the American
Statistical Association, 56(293):5264, 1961.
[Durrant et al. 2004] C. Durrant, K. T. Zondervan, L. R. Cardon, S. Hunt, P. Deloukas,
and A. P. Morris, Linkage disequilibrium mapping via cladistic analysis of single-
nucleotide polymorphism haplotypes. Am. J. Hum. Genet., 75(1):3543, 2004.
[Epstein and Satten 2003] M. P. Epstein and G. A. Satten, Inference on haplotype ef-
fects in case-control studies using unphased genotype data. Am. J. Hum. Genet.,
73(6):13161329, 2003.
[Gauderman and Morrison 2006] W. J. Gauderman and J. Morrison, QUANTO 1.1: A
computer program for power and sample size calculations for genetic-epidemiology
studies. 148, http://hydra.usc.edu/gxe, 2006.
[J. E. Wigginton et al. 2005] J. E. Wigginton, D. J. Cutler, and G. R. Abecasis, A note
on exact tests of HardyWeinberg equilibrium, Am J Hum Genet, 76:887893, 2005.
[Lake et al. 2003] S. L. Lake, H. Lyon, K. Tantisira, E. K. Silverman, S. T. Weiss, N. M.
Laird, and D. J. Schaid, Estimation and tests of haplotype-environment interaction
when linkage phase is ambiguous. Hum. Hered., 55(1):5665, 2003.
[Liu et al. 2008] N. Liu, K. Zhang, and H. Zhao, Haplotype-association analysis. Adv Ge-
net., 60:335405, 2008.
[Marchini et al. 2007] J. Marchini, B. Howie, S. Myers, G. McVean, and P. Donnelly, A
new multipoint method for genome-wide association studies via imputation of geno-
types, Nature Genetics, 39:906913, 2007.
[Nolte et al. 2007] I. M. Nolte, A. R. deVries, G. T. Spijker, R. C. Jansen, D. Brinza, A.
Zelikovsky, and G. J. teMeerman, Association testing by haplotype-sharing methods
applicable to whole-genome analysis. BMC Proc., 1(Supp 1):S129, 2007.
[Purcell et al. 2003] S. Purcell, S. S. Cherny, and P. C. Sham, Genetic Power Calculator:
design of linkage and association genetic mapping studies of complex traits. Bioin-
formatics, 19(1):149150, 2003.
[Purcell et al. 2007] S. Purcell, B. Neale, K. Todd-Brown, L. Thomas, M. A. R. Ferreira,
D. Bender, J. Maller, P. Sklar, P. I. W. deBakker, M. J. Daly, and P. C. Sham, PLINK:
a tool set for whole-genome association and population-based linkage analyses. Am.
J. Hum. Genet., 81(3):559575, 2007.
[Satten and Epstein 2004] G. A. Satten and M. P. Epstein, Comparison of prospective
and retrospective methods for haplotype inference in case-control studies. Genet.
Epidemiol., 27(3):192201, 2004.
[Schaid 2004] D. J. Schaid, Evaluating associations of haplotypes with traits. Genet. Epi-
demiol., 27(4):348364, 2004.
[Souverein et al. 2006] O. W. Souverein, A. H. Zwinderman, and M. W. T. Tanck, Est-
imating haplotype effects on dichotomous outcome for unphased genotype data using
a weighted penalized log-likelihood approach. Hum. Hered., 61(2):104110, 2006.
[Stephens and Balding 2009] M. Stephens and D.J. Balding, Bayesian statistical methods
for genetic association studies. Nature Review Genetics, 10(10):681690, 2009.
[Tzeng et al. 2003] J. Y. Tzeng, B. Devlin, L. Wasserman, and K. Roeder, On the identi-
fication of disease mutations by the analysis of haplotype similarity and goodness of
fit. Am. J. Hum. Genet., 72(4):891902, 2003.
[Tzeng 2005] J. Y. Tzeng, Evolutionary-based grouping of haplotypes in association analy-
sis. Genet. Epidemiol., 28(3):220231, 2005.
[Zhang et al. 2012] F. Zhang, X. Guo, S. Wu, J. Han, and Y. M. Liu, Genome-wide path-
way association studies of multiple correlated quantitative phenotypes using principle
component analyses. PLoS ONE, 7(12):e53320, 2012.
[Zhao et al. 2003] J. Zhao, S. S. Li, and N. L. Khalid, A method for the assessment of dise-
ase associations with single-nucleotide polymorphism haplotypes and environmental
variables in case-control studies. Am. J. Hum. Genet., 72(5):12311250, 2003.
[Zhao et al. 2006] J. Zhao, L. Jin, and M. Xiong, Nonlinear tests for genomewide associ-
ation studies. Genetics, 174(3):15291538, 2006.
8.1. Bevezets
A DNS molekula ketts hlixet alkot. A hlix szlai egyms tkletes komplementerei:
minden adeninnel szemben egy timin s minden guaninnal szemben egy citozin ll a msik
szlon. A hibridizci folyamata sorn a kt komplementer DNS (vagy RNS) szl sszekap-
csoldik. A microarray-technolgik ezt hasznljk ki: egy microarray-chip felsznhez ren-
geteg egyszl gnszekvencia darabka (n. prba) van hozzcsatolva, amellyel egy adott
mintban tallhat komplementer RNS molekula mennyisgt mrhetjk meg. Az RNS a
DNS-bl szrmaz genetikai zenetet tovbbtja (a gnek megfelel szakaszainak lemso-
lsval) a citoplazmba, ahol a fehrjk kszlnek a gnmsolatok aminosav-szekvencikra
val lefordtsval. A microarray-k egyetlen ksrletben tbb tzezer gn expresszis szint-
jt (az RNS formjban trolt zenet mennyisgt) kpesek megmrni. Megfestett RNS-t
ntenek a microarray felletre, majd ha az RNS megtallja a komplementer szekven-
cijt az array felletn, akkor hibridizldik hozz. A mrs sorn a kibocstott fny
mennyisge elrulja, hogy az adott gnhez mennyi RNS kszlt a mintban. Ez lehetv
teszi a kutatk szmra, hogy hipotzismentes mdon sszehasonltsk klnbz biolgiai
rendszerek, folyamatok s betegsg-llapotok transzkripcis profiljt [1].
A mikroarray-ket a sok klnfle clra hasznljk: betegsgek csoportostsra, illetve
besorolsra; egy adott kezels in vivo vagy in vitro hatsainak azonostsra; betegsg-
gnek, vagy bizonyos folyamatokban rszt vev gnek keressre [2].
Ebben a fejezetben megprblunk egy rvid zeltt nyjtani abbl, hogy hogyan tr-
tnik egy mikroarray-ksrlet elemzse. A ltez szmtsi mdszerek s eszkzk kimert
ttekintse helyett arra fkuszlunk, hogy bemutassuk a leggyakrabban hasznlt md-
szereket s az ltalnos megkzeltseket. Elszr is, a prbk nyers intenzitsrtkeinek
megmrstl hossz t vezet a gnek, illetve transzkriptumaik genomszint expresszis
szintjnek meghatrozsig. A gyakorlatban szmos forrsbl szrmaz variabilits lp be,
amelyet figyelembe kell venni, illetve a megfelel mdon kezelni kell: szmos mdostst
kell vgezni, hogy megfelelen pontos eredmnyeket kapjunk. Ezeket a lpseket sszefog-
8.2. Elfeldolgozs
Az elfeldolgozs t lpsbl ll [3]: (1) kpelemzs, amely sorn a szkennelt kpeken
lv kppontok intenzitsrtkeit prba-szint adatokk konvertljuk, (2) httrkorrek-
ci, amelyben a lemrt prba-intenzitsok nem-specifikus hibridizcijt s a httrzajt
kiszrjk az intenzitsadatokbl, (3) normalizci, amely sorn tbb forrsbl szrmaz
variabilitst korriglunk annak rdekben, hogy a klnbz array-kbl szrmaz mr-
sek sszehasonlthatak legyenek egymssal, (4) sszegzs, amelyben a prbk httrzajra
korriglt s normalizlt intenzitsadatit sszegezzk minden transzkripthez, amelybl az
adott prba szrmazik; s gy egy olyan rtket kapunk, amely megbecsli az adott transzk-
riptnek megfelel RNS mennyisgt a mintban, vgl (5) minsgellenrzsi lps, amely
sorn a kilg mrsi eredmnyeket, amelyek az elfogadhatnl nagyobb mrtk fluktu-
cival rendelkeznek, kiszrjk.
8.2.1. Httrkorrekci
A kpelemzsi lps utn (amellyel jelen fejezetben nem foglalkozunk) az elfeldolgozs
els lpse, a httrzaj hatsainak kiszrse kvetkezik. Ez azrt nagyon fontos, mert a
httrzaj ersen befolysolja a differencilis expresszira vonatkoz becslseinket. Kpzel-
jk el a kvetkez esetet: Kt klnbz mintban egy adott gn valdi expresszijnak
mrtke legyen s1 illetve s2 . A kppontok krl azonban kzel egyenl mrtkben pozitv
httrzajt is rzkelnk, amelyek torztjk a mrseinket, legyen ezek szintje b1 illetve b2 .
Ebben az esetben a kt gn expresszijnak valdi arnya s1 /s2 , azonban a megfigyelt
(s1 + b1 )/(s2 + b2 ) arny kzelebb van 1-hez mint a valdi arny, s minl kzelebb van a
valdi expresszis szint a httrzajhoz, annl inkbb kzelebb lesz a mrt arny 1-hez.
Tbbfle httrkorrekcis mdszer ltezik, pldul az RMA algoritmus httrkorrekcis
rsze, amelyet Irizarry s munkatrsai fejlesztettek ki [4], vagy pldul az Affymetrix ltal
kifejlesztett MicroArray Suite 5.0 (MAS) szoftver httrkorrekcis algoritmusa [5].
8.2.2. Normalizci
A normalizci f clja az, hogy a httrzajra korriglt intenzitsadatokat mdostsa gy,
hogy a klnbz mrsekbl szrmaz array-k sszehasonlthatak legyenek. ltalban
a normalizcis mdszerek a kvetkez kategrik valamelyikbe sorolhatk [6]: (1) skl-
zs, amely azt felttelezi, hogy minden egyes array-n az intenzitsoknak hasonl tlagak-
nak kell lennie, vagy hasonl medin rtkkel kell rendelkeznie; (2) kvantil-normalizci,
amely felttelezi, hogy minden egyes array-n a jelintenzits-rtkeknek azonos eloszls-
aknak kell lennie; (3) loklis regresszis (loess) normalizci, amely azt felttelezi, hogy
a technikai forrsbl szrmaz torzuls intenzitsfgg, s egy loess-grbt illeszt ennek
kikszblsre s (4) modell-alap normalizci, amely bizonyos technikai forrsbl szr-
maz variancikra explicit mdon modelleket illeszt, s ezek segtsgvel szri ki a nem
megfelel variancikat.
Sklzs. Vlasszunk ki egy alap array-t, s a tbbi array-t sklzzuk t gy, hogy a
jelintenzitsok tlagos vagy medin rtke legyen ugyanakkora, mint a kivlasztott alap
array-n. Pldaknt lsd az 8.1. brt.
8.1. bra. Sklzs alap normalizci. Bal oldalon: Az eredeti adatmtrix: 5 prba
jelintenzits-rtke 3 array-n. Az els array-t vlasztjuk ki alapknt. Kzpen: A msodik
s a harmadik array-t tsklztuk, hogy a jelintenzitsok tlaga ugyanakkora legyen, mint
az els array-n. Jobb oldalon: A normalizlt adatmtrix
8.2.3. sszegzs
Mivel az array-n minden egyes gnhez tbb prba is hozz van rendelve, ezrt ezeket a tech-
nikai repliktumokat (n. prbahalmazokat, probe set) sszegezni kell annak rdekben,
hogy a gnhez egyetlen expresszis rtket kapjunk. Ezt tbbflekppen is megtehetjk,
pldul a logaritmikusan transzformlt expresszis rtkek tlagolsval, az eredeti exp-
resszis rtkek tlagnak logaritmikus transzformcijval, a logaritmikus skla medin-
jval, a medin rtkek logaritmusval, vagy kifinomultabb, modell-alap mdszerekkel [3].
8.2.4. Szrs
A normalizcis lpsek utn bevett gyakorlat, hogy a prbahalmazok egy rszt a tovb-
bi adatelemzsi lpsek elvgzse eltt kiszrjk. Ennek szmos oka van: Elszr is az
array-k feldolgozsnak, ill. kezelsnek szmos olyan technikai aspektusa van, amelynek
kvetkeztben zavar hatsok s potencilis variabilits lphet fel, ami kilg vagy meg-
bzhatatlan expresszis rtkekhez vezet. Msodszor ltalnosan elvrt, hogy a ksrlettl
fggen a gnek egy nagy rsze vrhatan nem expresszldik egyik ksrleti krlmnyben
(llapotban) sem. A szrsek sorn megprbljuk azonostani s kizrni a megbzhatat-
lan, nem vltoz expresszij vagy nem expresszld prbahalmazokat annak rdekben,
hogy pontosabb, megbzhatbb eredmnyeket kapjunk a tovbbi statisztikai elemzsek
sorn [6].
Az elbbiek szemlltetsre lerjuk Kaminski s Friedman [2] szrsi javaslatait: Els
lpsben meghatrozzk az n. leglis gnek halmazt; ezek azok a gnek, amelyeknek
expresszija legalbb egy array-ben meghalad egy bizonyos elre meghatrozott kszb-
rtket. Ez utbbit gy hatrozzk meg, hogy ugyanazt a mintt kt mikroarray-re is
felviszik s sszehasonltjk az expresszis szinteket. Mivel ezek konzisztencija fgg az
rtkktl (a nagyobb intenzitsrtk tartomnyokban kisebb mrtkben klnbznek a
kt array-n mrt rtkek, mint a kisebb jelintenzitsok esetn), gyakran megllapthat
egy olyan kszbrtk, amely fltt az array-k konzisztencija meggyz. Ez a lps lta-
lban harmadval vagy felvel cskkenti a gnek szmt. Ezt kveten meghatrozzk az
n. aktv gnek halmazt, amelybe azok a gnek tartoznak, amelyek megvltoztak vala-
mely ksrleti krlmnyek (llapotok) kztt. A gyakorlatban ez azt jelenti, hogy kiszrik
azokat a gneket, amelyek expresszija nem vltozott legalbb msflszeres mrtkben a
ksrletek legalbb 5%-ban. Ez a lps rendszerint jelents mrtkben lecskkenti a gnek
szmt a tovbbi elemzsi lpsek eltt.
8.3. Adatelemzs
8.3.1. Klaszterezs
A klaszterezs fleg feldert jelleg clokat szolgl a mikroarray-k elemzse sorn. Ezek
a mdszerek sokkal inkbb az intucin, mintsem valamifle formlis elmleten alapulnak.
Az alaptletk az, hogy meghatrozzk gnek vagy mintk olyan csoportjait, amelyek va-
lamilyen mdon elklnlnek egymstl, mikzben a csoport elemei kztt bels kohzi,
hasonlsg van. Ezek a klaszterek ltalban termszetes mdon is addnak a ksrle-
tnk trgybl ereden. A klnfle klaszterez mdszerek szma zavarba ejt; ebben
a fejezetben rviden sszefoglaljuk a leggyakrabban hasznltakat s a htterkben rejl
elgondolsokat.
Mintk klaszterezse
A mintink klaszterezsnek clja a ksrletnk tpustl fgg.
Az idbeli vltozsokat kvet (time-course) ksrletekben egy organizmust klnbz
fejldsi llapotokban mintavteleznk. Ebben az esetben a mintink klaszterezsvel
felderthetjk ezeknek az llapotoknak a hasonlsgt vagy klnbzsgt. Pldul ha
asztms szemlyeket vizsglunk az asztmarohamok kialakulsa eltt, alatt s utn, akkor
megbecslhetjk, hogy mennyi idre van szksg ahhoz, hogy a sejtek visszanyerjk az
eredeti llapotukat.
sszehasonlt vizsglatokban klnbz szemlyeket vizsglunk eltr ksrleti krl-
mnyek kztt annak rdekben, hogy a krlmnyeknek a gnek expresszijra gyakorolt
hatsait feldertsk. Ezekben a ksrletekben egy adott ksrleti krlmnyhez ltal-
ban tbb szemlybl s egynenknt tbb technikai ismtlssel vesznk mintt. Ilyenkor
a klaszterezs segthet a minsgellenrzsben, ugyanis ha egy minta nem ugyanabba a
klaszterbe kerl, mint a technikai vagy biolgiai repliktumai (mg a tbbi minta igen),
akkor ez fnyt derthet az adott minta normalizcis vagy hibridizcis problmira.
Klinikai ksrletekben hasonl fenotpusos jeggyel rendelkez (pl. mellrkos) egyneket
mintavteleznk azzal az a priori tudssal, hogy az egyes szemlyek genetikailag klnbz-
nek egymstl. Ebben az esetben a mintk klaszterezse nagyon fontos, ugyanis segthet
meghatrozni az egynek klnll csoportjait, amelyek hasonl genotpussal (azaz jelen
rtelemben hasonl gnexpresszis profillal) rendelkeznek.
A klaszterezs eltt kt dolgot kell meghatroznunk: (1) Mit rtnk az alatt, hogy a
csoportok elemei kztt bels kohzi van? s (2) Mit rtnk az alatt, hogy a klnfle
csoportok elklnlnek egymstl?
A mintk kztti tvolsg Elszr is, definiljuk az adatpontjaink kztti tvolsg
fogalmt. Ha a clunk a mintk klaszterezse, akkor tekinthetjk ezeket gy, mint olyan
pontokat, amelyeket a gnexpresszis rtkek reprezentlnak a gnek nagy-dimenzis te-
rben. Ezek utn a mintk kztti tvolsgot definilhatjuk geometriai tvolsgok (Lp
normk) segtsgvel: v
ungenes
uX
p
dp (x, y) = t |xi yi |p , (8.1)
i=1
Gnek klaszterezse
A mintink klaszterezse mellett rdekes lehet a hasonl expresszij gncsoportok azo-
nostsa (azaz a gnek klaszterezse) is. Ennek a f mozgatrugja az, hogy az egyttes
expresszi (co-expresszi) a gnek kzs szablyozsra derthet fnyt (co-regulci). Az-
az az olyan gnek, amelyek klnbz krlmnyek kztt is hasonl mdon viselkednek,
valsznleg kzs jegyeket mutatnak, pldul kzs szablyozsi mechanizmusokkal ren-
delkeznek, vagy kzs funkcikat ltnak el. Teht a gnek esetn a hasonlsgi s tvolsgi
mrtkek jellemzen msok, mint a mintk esetn. A leggyakrabban hasznlt tvolsgi
metrika az egyttes expresszin alapul:
cov(x, y)
(x, y) = , (8.3)
x y
Klasszikus hipotzistesztels
A differencilisan expresszld gnek meghatrozsra a leggyakrabban hasznlt statisz-
tikai technika a klasszikus hipotzistesztels [1]. Ennek sorn minden egyes gnre teszteljk
azt a hipotzist, hogy az adott gn nem expresszldik differencilisan. Ez az n. nullhi-
potzis, H0 . Hacsak nincs elegend bizonytkunk arra, hogy ez a hipotzis nem igaz, akkor
nem tudjuk elvetni, azaz nem tudjuk elfogadni az n. alternatv hipotzist, H1 -et, ami azt
lltja, hogy az adott gn differencilisan expresszldik. Hipotzistesztelsnek nevezzk
azt a mdszert, amivel sszegezzk az adatainkban tallhat bizonytkokat (az n. teszt-
statisztika kiszmtsval) annak rdekben, hogy vlasztani tudjunk a kt hipotzis kzl.
A tesztstatisztika kiszmtsnak eredmnye egy valsznsg (az n. p-rtk ), ami a null-
hipotzis abszurditsnak mrtkt jelzi. Ms szval, ha a p-rtk kzel van nullhoz, az
azt jelzi, hogy a nullhipotzis nagyon valszntlen, abszurd, gy el kell vetnnk, s helyet-
te el kell fogadnunk az alternatv hipotzist. A hipotzistesztels folyamatt sszefoglalva
a 8.5. brn lthatjuk.
Kt tlag kztti eltrs (pl. kt klnbz llapot sorn mrt expresszis rtkek
tlagnak eltrse) tesztelsre a legnpszerbb statisztika az n. t-statisztika. Ennek
rtke egy g gn esetn valjban a kt llapot kztti tlagos eltrs standardizltja:
xg yg
zg = q 2 , (8.4)
sxg s2yg
nx
+ ny
Ebbl ereden, azon felttelezs mellett, hogy nincs asszocici a biolgiai funkci s az r-
dekes gnlista kztt, az adott funkcival br rdekes gnek szmnak a hipergeometrikus
eloszlst kell kvetnie. A megfigyelt rtk alapjn kiszmthat a nullhipotzis abszurdi-
tst jelz p-rtk, s a nullhipotzist elvethetjk, ha ez a p-rtk kzel van nullhoz. Ha
egyszerre tbb tesztet is vgrehajtunk, akkor szksges valamilyen korrekci is a tbbsz-
rs hipotzistesztelsi problma kezelsre a korbban ismertetett mdok valamelyikn. Ez
az elemzs tbb szoftverben is kszen elrhet, pl. a Cytoscape [17] szoftver BiNGO [16]
bepl moduljban.
biolgiai funkcit ellt gnek halmaza) mennyire mutat statisztikailag szignifikns, kon-
kordns klnbsgeket kt llapot kztt [19]. A legfontosabb klnbsg a fent ismertetett
hipergeometrikus teszt s a GSEA kztt az, hogy az utbbi nem kvnja a gnek rdekes
s rdektelen csoportokba sorolst. Ehelyett a gnek egy teljes sorrendjt hasznlja, ahol
a gneket valamilyen folytonos rtk pontszm (pl. a t-statisztika rtke) alapjn sorren-
dezzk. Ez alapjn kiszmt egy n. feldsulsi pontszmot (enrichment score, ES), ami
arrl nyjt informcit, hogy egy elre definilt gnlista milyen mrtkben van fellrepre-
zentlva a sorrend elejn vagy vgn. Ha a feldsulsi pontszm pozitv, akkor a gnlista
a sorrend elejn csoportosul (lsd a 8.6. brt); ha pedig negatv, akkor a sorrend vgn.
A GSEA alapvet elgondolsa az, hogy pldul egy adott metabolikus tvonalba es
gnek expresszijnak 20%-os megnvekedse drmai mdon fogja befolysolni az adott
tvonalon tmen fluxust, s ez valsznleg sokkal fontosabb, mint egyetlen gn expresszi-
jnak 20-szoros megnvekedse [18].
A GSEA mdszer szabadon elrhet egy szoftvercsomagban [19] a MSigDB nev, tbb
mint 8500 elre definilt gnhalmazt tartoz adatbzissal egytt (a v3.1-es verzi szerint).
[1] Ernst Wit and John McClure, Statistics for Microarrays: Design, Analysis and Infe-
rence. Wiley, 1st ed., July 2004.
[2] Naftali Kaminski and Nir Friedman, Practical approaches to analyzing results of
microarray experiments. American journal of respiratory cell and molecular biology,
27(2):125132, August 2002. PMID:12151303.
[4] Rafael A. Irizarry, Bridget Hobbs, Francois Collin, Yasmin D. Beazer-Barclay, Kris-
ten J. Antonellis, Uwe Scherf, and Terence P. Speed, Exploration, normalization,
and summaries of high density oligonucleotide array probe level data. Biostatistics
(Oxford, England), 4(2):249264, April 2003. PMID: 12925520.
[6] S. B. Pounds, C. Cheng, and A. Onar, Statistical Inference for Microarray Studies. In:
D. J. Balding, M. Bishop, and C. Cannings, editors, Handbook of Statistical Genetics,
pages 231266. John Wiley & Sons, Ltd, 2008.
[9] R. Sharan and R. Shamir, CLICK: a clustering algorithm with applications to gene
expression analysis. Proceedings / ... International Conference on Intelligent Systems
for Molecular Biology; ISMB. International Conference on Intelligent Systems for
Molecular Biology, 8:307316, 2000. PMID: 10977092.
[10] F. E. Satterthwaite, An approximate distribution of estimates of variance components.
Biometrics Bulletin, 2(6):110114, December 1946.
[11] Gordon K. Smyth, Linear models and empirical Bayes methods for assessing diffe-
rential expression in microarray experiments. Statistical applications in genetics and
molecular biology, vol. 3, issue 1, 2004. PMID: 16646809.
[12] V. G. Tusher, R. Tibshirani, and G. Chu, Significance analysis of microarrays applied
to the ionizing radiation response. Proceedings of the National Academy of Sciences
of the United States of America, 98(9):51165121, April 2001. PMID: 11309499.
[13] Yoav Benjamini and Yosef Hochberg, Controlling the false discovery rate: A practical
and powerful approach to multiple testing. Journal of the Royal Statistical Society.
Series B (Methodological), 57(1):289300, January 1995.
[14] M. Ashburner, C. A. Ball, J. A. Blake, D. Botstein, H. Butler, J. M. Cherry, A. P.
Davis, K. Dolinski, S. S. Dwight, J. T. Eppig, M. A. Harris, D. P. Hill, L. Issel-
Tarver, A. Kasarskis, S. Lewis, J. C. Matese, J. E. Richardson, M. Ringwald, G. M.
Rubin, and G. Sherlock, Gene ontology: tool for the unification of biology. The Gene
Ontology Consortium. Nature genetics, 25(1)2529, May 2000. PMID: 10802651.
[15] Louis du Plessis, Nives Skunca, and Christophe Dessimoz, The what, where, how
and why of gene ontologya primer for bioinformaticians. Briefings in bioinformatics,
12(6):723735. November 2011. PMID: 21330331.
[16] Steven Maere, Karel Heymans, and Martin Kuiper, BiNGO: a Cytoscape plugin to
assess overrepresentation of gene ontology categories in biological networks. Bioinfor-
matics (Oxford, England), 21(16):34483449, August 2005. PMID: 15972284.
[17] Michael E. Smoot, Keiichiro Ono, Johannes Ruscheinski, Peng-Liang Wang, and Trey
Ideker, Cytoscape 2.8: new features for data integration and network visualization.
Bioinformatics (Oxford, England), 27(3):431432, February 2011. PMID: 21149340.
[18] Aravind Subramanian, Pablo Tamayo, Vamsi K. Mootha, Sayan Mukherjee, Benjamin
L. Ebert, Michael A. Gillette, Amanda Paulovich, Scott L. Pomeroy, Todd R. Golub,
Eric. S. Lander, and Jill P. Mesirov, Gene set enrichment analysis: A knowledge-
based approach for interpreting genome-wide expression profiles. Proceedings of the
National Academy of Sciences of the United States of America, 102(43):1554515550,
October 2005.
[19] GSEA. http://www.broadinstitute.org/gsea/index.jsp
Biomarker-elemzs
Jellsek
x,x,x skalr, (oszlop)vektor vagy halmaz, mtrix
X, x, p(X) vletlen vltoz X, rtk x,
valsznsgi tmegfggvny/srsgfggvny X
EX,p(X) [f (X)] f (X) vrhat rtke p(X) szerint
varp(X) [f (X)] f (X) variancija p(X) szerint
Ip (X|Z|Y ) X s Y megfigyelsi fggetlensge Z felttellel p esetben
(X Y |Z)p Ip (X|Z|Y )
(X 6 Y |Z)p ) Ip (X|Z|Y )
CIp (X; Y |Z) X s Y beavatkozsi fggetlensge Z felttellel p esetben
(rszleges) sorrendezs
c a vltozk egy teljes sorrendezse
G adott G irnytott krmentes grffal kompatibilis sorrendek halmaza
(n) n objektum sorrendjeinek (permutciinak) a halmaza
G, Bayes-hl struktrja s paramterei
G G irnytott krmentes grf esszencilis grfja
G(n)/G k (n) n csompont maximum k szlj DAG-ok halmaza
G adott sorrenddel kompatibilis DAG-ok halmaza
GG adott G DAG-gal megfigyelsi ekvivalens DAG-ok halmaza
kompatibilitsi relci
pa(Xi , G) pa(Xi , G) szli halmaz kompatibilis sorrendezssel
MBp (Xi ) Markov-takarja Xi -nek p-ben
Tovbbi konvencik az egyes fejezetekben jelltek.
Rvidtsek
ROC Receiver Operating Characteristic (ROC) grbe
AUC ROC-grbe alatti terlet
9.1. Bevezet
Az lettani tudomnyok tern a kzelmltban vgbement technikai fejlds lehetv tette a
genomok szekvenlst, s a nagy teresztkpessg genomikai, proteomikai, metabolikai
technikk jradefiniltk a biolgit s az orvostudomnyt, tovbb megnyitottk a geno-
mikai s poszt-genomikai korszakot. E korszak nagy gretei a szemlyre szabott megelzs,
diagnzis, hatanyagok s kezels. A klinikum nzpontjbl azonban ezek aztmeneti
gretek mg mindig bevltsukra vrnak, s folyamatosan mind ksbbi idpontokra to-
ldtak. Adatelemzsi nzpontbl sem magyarz jelleg, diagnosztikai biomarkerek, sem
j oki clpontok s j hatanyagok, sem objektv klinikai vgpontok felfedezse nem vl-
totta be a vrakozsokat, amint azt olyan hrhedt problmk s cikkek pldzzk, mint a
missing heritability, missing the mark s a production gap a gygyszerszetben.
Az utbbi kt vtizedben egyre gyorsul temben felhalmozd rendkvl sokrt, he-
terogn s nagy mennyisg orvosbiolgiai adatra s tudsra gondolva valban paradoxon-
nak tnik a gygyszerkutatsok egyre roml kltsghatkonysga, vagy akr a szemlyre
szabott medicina remltnl lassabb fejldse. A remlttl elmarad teljestmnye az oki,
diagnosztikai, leri biomarkereknek azrt is meglep, mert a hatanyagokhoz, gnekhez s
betegsgekhez tartoz felhalmozd informciforrsok gazdagsga megdbbent: ez tar-
talmaz olyan gygyszerszeti informcikat, mint a hatanyag taxonmik, kmiai ujjle-
nyomatok, clfehrjk, hatanyagok s betegsgek gnexpresszis profiljai, mellkhatsok,
indikcik, off-label gygyszeralkalmazs. Tovbb nvekszik a mennyisge a betegs-
gek molekulris biolgiai htterrl rendelkezsre ll informciknak, gymint tvonal-
informcik, gnregulcis mechanizmusok, fehrje-fehrje hlzatok, gn-betegsg hl-
zatok s a genetikai, epigenetikai varicik hatsai. Megoldst az j, egyre rszletesebb s
kiterjedtebb molekulris biolgiai adatok mellett legalbb annyira az egyre hatkonyabb,
tudsgazdag informatikai s statisztikai elemzsektl is vrnak a szakrtk, klnsen a
betegsgek genetikai htternek feldertse kapcsn.
Paradox mdon azonban a potencilis biomarkerek nagy szma is statisztikai kihvst
jelent, illetve az informcikszlet sokflesge is komoly kihvst tmaszt az integrlt elem-
1. Kzvetlensg.
2. Oksgi szerep.
3. Hatserssg.
4. Interakcik.
P(M)
P(K|M) Mutci
Kezdet
P(B|K,M)
Betegsg
3. Egyttes eloszls reprezentlsa P(S|B) P(T|S,M)
P( M , K , B, S , T ) Szimptma Terpia
P( M ) P( K | M ) P( B | K , M ) P( S | B) P(T | S , M )
1. Oksgi modell
MP={IP,1(B;T|M),...}
2. Fggetlensgek grfos reprezentlsa
ha
M BM (Xi , Xj )P Xj M Bo(Xi )P (9.1)
A Markov-hatrbelisgen bell definilhat egy szigorbb kategria is, amelyet kzvet-
len fggsnek neveznk, ha minden diszjunkt Z V halmazra (X 6 Y |Z) fennll (ebben
az esetben a fggs kt vltoz kztt is ltezik, amikor Z = , ami nem felttlenl igaz a
Markov-hatrbeli vltozproknl).
A feltteles valsznsgi analgja, amely modellosztlytl, vesztesgfggvnytl, adat-
halmaztl, optimalizcitl fggetlen, a kvetkez:
9.2. Definci. Egy Xi bemeneti (prediktor) vltoz vagy jegy ersen relevns Y -ra, ha
ltezik egy olyan Xi = xi , Y = y s
hogy p(xi , si ) > 0 s p(y|xi , si ) 6= p(y|si ). Az Xi jegy gyengn relevns, ha nem ersen
relevns, s van egy olyan Si0 rszhalmaza az Si jegyeknek, amelyekre ltezik egy olyan
xi , y s s0i , hogy p(xi , s0i ) > 0 s p(y|xi , s0i ) 6= p(y|s0i ). Egy jegy relevns, ha gyengn vagy
ersen relevns; amgy irrelevns [9].
9.1. Ttel. Egy (G, ) Bayes-hl ltal definilt p eloszls esetben a bd(Y, G) vltozk
Y Markov-takarja, ahol bd(Y, G) Y szleinek, gyerekeinek s gyerekei egyb szleinek
halmaza [14]. Ha a p eloszls stabil s G perfekt trkpe, akkor bd(Y, G) az egyrtelm
s minimlis Markov-takarja Y -nak (MBSp (Y )), tovbb, Xi MBSp (Y ) ha Xi ersen
relevns [16].
Markov-takarbelisgnek hvjuk.
A Markov-takar jelentsgt az adja, hogy egy olyan minimlis vltozhalmazt azo-
nost, amely szksges s elgsges egy vltozhalmaz esetn. A 9.2. bra egy vals orvosi
diagnosztikai modell Markov-takarjt mutatja.
Egy ltalnos Bayes-i formalizciban (pldul Dirichlet-eloszlsok alkalmazsval p(|G) paramter
prioroknl), a bd(Y, G) szomszdok 1 valsznsggel alkotnak Markov-hatrt [13].
9.2. bra. Egy preoperatv petefszekrk diagnosztikai modell [3]. A Pathology clvltozt
flkvr kiemels jelzi, Markov-takarjt szrke keret.
9.4. Definci (k-MBS). Egy p(V ) eloszls esetn (|V | = n), ha minden Xi s vltoz,
ahol s V , Markov-hatrbeliek mbs s |s| = k, akkor s egy k-s Markov-hatr subset
k-MBSp (s, Y ) (mbs : MBSp (mbs, Y ), s mbs.
9.1. Propozci. Egy stabil p eloszls esetn, amit (G, ) Bayes-hl definil, s egy k-s
Markov-hatr k-MBSp (s, Y ), ha s bd(Y, G) s |s| = k.
9.5. Definci. Legyen az mbs vltoz halmaz egy Markov-takar a p(V ) eloszls esetn.
Egy s vltozhalmazt relevnsbelinek s k-as Markov-takar-rszhalmaznak (k-subMBS)
neveznk, ha |s| = k s s mbs. Egy s vltozhalmazt rszben relevnsnak s k-as
Markov-takar-fedhalmaznak nevezzk (k-supMBS), ha |s| = k s mbs s.
9.6. Definci (Multi-target relevance). Egy jegy (vletlen vltoz) Xi ersen (gyengn)
relevns Y clvltozkra, ha ersen (gyengn) relevns brmely Yi Y elemre.
Megjegyezzk, hogy ez a definci ltalnosthat magasabb rend k-ra (azaz k > 1),
illetve tbb clvltozra. A redunds jegyek feltrsra lehet gy is tekinteni, mint a
stabil jegyek feltrsnak komplementerre, vagyis legegyszerbb esetben olyan jegyeket
kereshetnk, melyek a stabil jegyek mellett tnnek fel. A k-(sub)MBS poszterior a sta-
tisztikai interakci j, rendszerszint jellemzst teszi lehetv, amely a valdi poszterior
s alacsonyabb rend k-subMBS poszteriorokon alapul kzelts klnbsgn alapul, s a
vltozk modellen keresztli klcsns informcitartalmval fgg ssze.
9.9. sszefoglal
A Bayes-hln alapul tbbszint Bayes-i metodolgia egy igen rszletes relevancia-elem-
zst tesz lehetv, amely rvn tbbek kztt kpet kapunk a mintaszm elgsges voltrl
is. Tovbb lehetsget nyjt szleskr trgyterleti a priori tuds felhasznlsra, s ki-
vlan alkalmazhat kis mintamret esetn is. Az interakcik MBG jegy alap egzakt
modellezse lehetv teszi a relevns jegyek s a kztk lv interakcik tanulsi bizonyta-
lansgnak szmszerstst. Az MBS s MBG komplex modelltulajdonsgok clvltoz-
fkuszltak, de rendszerszemlletek, sklzhatak, polinom komplexitssal. Tbb clvl-
toz (clvltozhalmaz) egyttes vizsglatt is lehetv teszi, illetve interakci s redun-
dancia feltrsra is alkalmas, ami alapveten a struktra poszterior dekomponlhats-
gn alapszik.
[2] C.F. Aliferis, I. Tsamardinos, and A. Statnikov, Large-scale feature selection using
Markov blanket induction for the prediction of protein-drug binding, 2003.
[4] P. Antal, G. Hullm, A. Gzsi, and A. Millinghoffer, Learning complex Bayesian net-
work features for classification. In Proc. of third European Workshop on Probabilistic
Graphical Models, pages 916, 2006.
[5] P. Antal, A. Millinghoffer, G. Hullm, Cs. Szalai, and A. Falus, A Bayesian view
of challenges in feature selection: Feature aggregation, multiple targets, redundancy
and interaction. Journal of Machine Learning Research: Workshop and Conference
Proceedings, 4:7489, 2008.
[6] G. F. Cooper and E. Herskovits, A Bayesian method for the induction of probabilistic
networks from data. Machine Learning, 9:309347, 1992.
[7] N. Friedman and D. Koller, Being Bayesian about network structure. In Proc. of
the 16th Conf. on Uncertainty in Artificial Intelligence(UAI-2000), pages 201211.
Morgan Kaufmann, 2000.
[8] N. Friedman and D. Koller, Being Bayesian about network structure. Machine Lear-
ning, 50:95125, 2003.
[9] R. Kohavi and G. H. John, Wrappers for feature subset selection. Artificial Intelli-
gence, 97:273324, 1997.
[10] M. Koivisto and K. Sood, Exact Bayesian structure discovery in Bayesian networks.
Journal of Machine Learning Research, 5:549573, 2004.
[11] D. Koller and M. Sahami, Toward optimal feature selection. In International Confe-
rence on Machine Learning, pages 284292, 1996.
[13] C. Meek, Causal inference and causal explanation with background knowledge. In
Proc. of the 11th Conf. on Uncertainty in Artificial Intelligence (UAI-1995), pages
403410. Morgan Kaufmann, 1995.
[14] J. Pearl, Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Fran-
cisco, CA, 1988.
[15] J.M. Pena, R. Nilsson, J. Bjorkegren, and J. Tegnr, Towards scalable and data effici-
ent learning of Markov boundaries. International Journal of Approximate Reasoning,
45:211232, 2007.
[16] I. Tsamardinos and C. Aliferis, Towards principled feature selection: Relevancy, fil-
ters, and wrappers. In Proc. of the Artificial Intelligence and Statistics, pages 334342,
2003.
[18] Lei Yu and Huan Liu, Efficient feature selection via analysis of relevance and redun-
dancy. Journal of Machine Learning Research, 5:12051224, 2004.
Hlzatbiolgia
10.1. Bevezets
A XXI. szzad els vtizedben j korszak ksznttt be az orvosbiolgiai kutatsok tr-
tnetben. Ezen gyakran poszt-genomikus nvvel illetett korszak sajtossga a k-
lnbz sejtszint komponensek holisztikus, rendszerszint szemllete; egyes entitsok (pl.
gnek, fehrjk) vizsglata helyett komplex kapcsolatok s interakcis mintzatok lersa.
A szmtstechnika s mrstechnikk fejldse hatalmas ugrshoz vezetett a heterogn,
klnbz omikai szinteken ltez biolgiai adatok mennyisgben, j kihvsokat teremtve
napjaink tudsainak. A rendszerbiolgia clja, hogy jszer betekintst nyjtson, illetve
tbb sejtbiolgiai szinten egyszerre operl eszkzkkel tmogassa a kutatkat ezen er-
prba sorn.
Nem kell sokig keresglnnk, ha a rendszerbiolgiai szemletet matematikai keretbe
prbljuk foglalni: a hlzatelmlet az egyik kzenfekv vlasztsknt addik. A grfel-
mlet ezen alterletnek megltsa szerint az egsz tbb, mint a rszek sszessge, gy
az rdeklds kzppontjban diszkrt entitsok kztti kapcsolatok, mintzatok, illetve
a hlzatok emergens tulajdonsgai llnak. A hlzat kifejezs azonban kiss pongyola,
szmos klnbz fogalmat jellhet, amelyek gyakorlati haszna eltr lehet. Tisztzzuk
teht, hogy mit is rthetnk hlzat alatt az albbi ngy fogalmi szint elklntsvel:
10.4. Hlzatelemzs
A hlzatelemzs a hlzat kvalitatv s kvantitatv tulajdonsgait vizsglja, idertve a
mgttes strukturlis alapelveket, funkcionlis szervezdst, loklis mintzatokat, emer-
gens tulajdonsgokat s dinamikus viselkedst. Interdiszciplinris terletrl lvn sz,
alkalmazsi terlete nem korltozdik a hlzatbiolgira; hasonl eszkzket hasznlnak
a telekommunikciban, szocilis hlzatok elemzsben s szmos egyb terleten.
de nem extrm mdon kicsire vlasztjuk, elfogadhat mrtk loklis klaszterezds marad
a hlzatban; p = 1-re az ErdsRnyi-modellt kapjuk vissza.
0.100
Frekvencia
0.001
1 10 100
Fokszm
[11] F. Schacherer, C. Choi, U. Gotze, M. Krull, S. Pistor, and E. Wingender, The TRAN-
SPATH signal transduction database: a knowledge base on signal transduction net-
works. Bioinformatics, 17(11):10531057, Nov. 2001.
[12] D. Fazekas, M. Koltai, D Turei, D. Modos, M. Palfy, Z. Dul, L. Zsakai, M. Szalay-
Bek, K. Lenti, I. J. Farkas, T. Vellai, P. Csermely, and T. Korcsmaros, SignaLink
2 - a signaling pathway resource with multi-layered regulatory networks. BMC Syst
Biol, 7:7, 2013.
[13] A. Sandelin, W. Alkema, P. Engstrom, W. W. Wasserman, and B. Lenhard, JASPAR:
an open-access database for eukaryotic transcription factor binding profiles. Nucleic
Acids Res., 32 (Database issue):D9194, Jan. 2004.
[14] E. Wingender, X. Chen, R. Hehl, H. Karas, I. Liebich, V. Matys, T. Meinhardt,
M. Pruss, I. Reuter, and F. Schacherer, TRANSFAC: an integrated system for gene
expression regulation. Nucleic Acids Res., 28(1):316319, Jan. 2000.
[15] J. Lamb, E. D. Crawford, D. Peck, J. W. Modell, I. C. Blat, M. J. Wrobel, J. Lerner,
J. P. Brunet, A. Subramanian, K. N. Ross, M. Reich, H. Hieronymus, G. Wei, S. A.
Armstrong, S. J. Haggarty, P. A. Clemons, R. Wei, S. A. Carr, E. S. Lander, and T.
R. Golub, The Connectivity Map: using gene-expression signatures to connect small
molecules, genes, and disease. Science, 313(5795):19291935, Sep. 2006.
[16] P. Erds and A. Rnyi, On the evolution of random graphs. In: Publication of the
Mathematical Institute of the Hungarian Academy of Sciences, pages 1761, 1960.
[17] M. E. Newman, S. H. Strogatz, and D. J. Watts, Random graphs with arbitrary degree
distributions and their applications. Phys Rev E Stat Nonlin Soft Matter Phys, 64(2
Pt 2):026118, Aug. 2001.
[18] A. L. Barabasi and R. Albert, Emergence of scaling in random networks. Science,
286(5439):509512, Oct. 1999.
[19] A. L. Barabasi and Z. N. Oltvai, Network biology: understanding the cells functional
organization. Nat. Rev. Genet., 5(2):101113, Feb. 2004.
[20] M. E. Newman, Assortative mixing in networks. Phys. Rev. Lett., 89(20):208701, Nov.
2002.
[21] Linyuan L and Tao Zhou, Link prediction in complex networks: A survey. Physica
A, 390(6):11501170, 2011.
[22] R. Singh, J. Xu, and B. Berger, Global alignment of multiple protein interaction
networks with application to functional orthology detection. Proc. Natl. Acad. Sci.
U.S.A., 105(35):1276312768, Sep. 2008.
[23] V. Lacroix, C. G. Fernandes, and M. F. Sagot, Motif search in graphs: application to
metabolic networks. IEEE/ACM Trans Comput Biol Bioinform, 3(4):360368, 2006.
[24] A. Gottlieb, G. Y. Stein, E. Ruppin, and R. Sharan, PREDICT: a method for inferring
novel drug indications with application to personalized medicine. Mol. Syst. Biol.
7:496, 2011.
na A + nb B nc C + nd D : k.
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 148
na A + nb B nc C + nd D : k1 ,
nc C + nd D na A + nb B : k2 ,
egyszerbb alakban
na A + nb B nc C + nd D : k1 , k2 .
Amikor a kt fluxus megegyezik:
hi (x) = xj c.
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 149
A + B + C ABC : k,
A + B AB : k1 ; AB + C ABC : k2 .
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 150
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 151
1. Inicializls: t = 0; n = 0; x = x0 .
M
P
2. Szmtsuk ki: hi (x, ci ) i = 1..M ; h0 = hi (x, ci ).
i=1
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 152
lim P o() N (, ),
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 153
11.5. Reakcidiffzi-rendszerek
Minden eddig trgyalt megkzelts felttelezi, hogy a vizsglt rendszer jl kevered, a ve-
gyletek koncentrcii s tkzsi valsznsgeik azonosak a rendszer minden rszben.
Ha ezek a felttelezsek legalbb kzeltleg helytllak, minden reakcit gy kezelhe-
tnk, mintha a tr azonos pontjn jtszdnnak le. Egy sejtben azonban a reakcik jl
lokalizltak, s ez a lokalizci elengedhetetlen a komplex szablyozsi mechanizmusok
mkdshez. Ebben az esetben teht az id mellett a trbeli koordintkat is be kell ve-
zetni mint vltozkat. A trbeli transzport-folyamat formalizlsa immr elengedhetetlen,
s a legegyszerbb ilyen folyamat a diffzi. A diffzi egy statisztikai termszet spontn
folyamat. A rszecskk Brown mozgsa folyamatos keveredst vlt ki a rendszerben. Az
egyedi molekulk szintjrl nzve egy rszecske vletlen bolyongst vgez a trben. Egy
rszecske tvolsga a kiindulsi helytl vrhat rtkben N ahol N az tkzsek szma
s az tlagos szabad thossz.
Populcis szinten egy kicsi i-edik dx trrszben ni a rszecskk szma. Egy rvid
idszelet alatt annak a valsznsge, hogy a rszecske tlp egy trrsz-hatrt: p, teht
ha az i-edik trrszben a loklis koncentrci nagyobb, mint a szomszdos trrszekben, a
trrszbl kilp rszecskk vrhat szma nagyobb, mint az oda belpk vrhat szma.
A lineris kt dimenzis esetet tekintve annak a valsznsge, hogy a rszecske tlp
egy konkrt hatrt, 0,5 teht
1 1
nki = nki+1 nki + nki1 .
2 2
Vve a trrsz mretnek hatrrtkt nullban, az albbi differencilegyenlethez ju-
tunk, melyet diffzis egyenletnek neveznk:
C(x, t) 2 C(x, t)
=D ,
t 2x
ahol D a diffzis konstans [4]. A molekulris fluxus arnyos a koncentrci gradiensvel:
C(x, t)
JF (x, t) = D .
x
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 154
C(x, t) JF (x, t)
= .
t x
A fenti egyenletek egy dimenziban vannak megadva, de egyszeren szrmaztathatk
hromdimenzis megfelelik is. A reakcik ltal alkotott differencilegyenlet-rendszerrel
kombinlva megkapjuk a reakcidiffzi-rendszert reprezentl parcilis differencilegyen-
let-rendszert:
Ci (r, t)
= f (C1 , C2 , .., CN ) + Di 2 Ci (r, t).
t
Mikor megoldjuk ezeket az egyenleteket, a peremfeltteleknek, gy-mint a sejtek trbeli
alakjnak nagy hatsa van a megolds alakjra. A reakcikinetika s a diffzi sszjtka
kifejezetten komplex mintzatokat hozhat ltre, ha a kt folyamat hasonl idskln jtsz-
dik le. Ezeket gyakran Turing-mintzatoknak nevezzk, mert Alan Turing The Chemical
Basis of Morphogenesis cm hress vlt publikcijban trgyalja a jelensget [5]. A
cikkben reakcidiffzi-egyenleteket alkalmazott modell-rendszereken, s a megoldsok
tulajdonsgait vizsglta.
Az lvilgban szmos plda tallhat olyan motvumokra, melyek ersen emlkeztet-
nek a Turing-mintzatokra. Lthatak pldul llatok szrzetn, mint pldul a cirmos
macskk cskjai vagy a leoprd foltjai.
11.6. Modell-illeszts
Az alapvet kapcsolatot a modell s a ksrlet kztt az adat testesti meg. A modell
paramterei a ksrleti adatok segtsgvel hatrozhatk meg, a modell-illesztsre gpi
tanulsi mdszereket hasznlunk. A differencilegyenletes mdszer esetben az f (v) fgg-
vny meghatrozsa a modell-illeszts clja. Erre a clra tetszleges regresszis mdszert
hasznlhatunk.
Sztochasztikus szimulci esetn a modell-illeszts sokkal nehezebb feladat s jelen-
leg is aktv kutats trgyt kpezi. Az a felttelezs, hogy minden reakci bekvetke-
zsnek pontos idpontjval rendelkeznk, irrelis, teht a sztochasztikus modell-tanuls
kontextusban a hinyos adat kezelsnek problematikjval talljuk magunkat szembe.
gynevezett Markov-lnc Monte Carlo-mdszereket hasznlhatunk a sztochasztikus mo-
dellek Bayes-i paramterbecslsre [6]. Egy adat-imputcit tartalmaz mintavtelezsi
smt hasznlhatunk, hogy meghatrozzuk a modell-paramterek a posteriori eloszlst
a hinyos megfigyelsek ismeretben.
Egy alternatv megkzelts, hogy a paramtertanulst a sztochasztikus modell egy
folytonos normlis eloszls kzeltsn hajtjuk vgre. Ez a modell szintn ignyel im-
putcit, mivel ltalban nem ll rendelkezsnkre elg srn minta, hogy kzvetlenl
alkalmazhassuk a sztochasztikus differencilegyenlet EulerMoruyama-kzeltst [7].
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 155
11.7. Teljes-sejt-szimulci
Egy olyan komplex biolgiai rendszernek, mint egy teljes sejtnek a megrtse tbb szin-
ten trtnik. Amikor egy organizmus teljes genomjt szekvenljk, egyrtelm, hogy a
rejtlyek nagy rsze mg megoldatlan. Mikor minden gnt annotlnak, a gntermkeket
azonostjk, a szerkezetket meghatrozzk, mg mindig szmos nyitott krds marad. A
tuds egy kvetkez szintjt a gntermkek funkcija s a kzttk lv komplex klcsnha-
tsok kpezik. Tovbb fennllnak klcsnhatsok a gntermkek s a kromatin-struktra
kztt is. A klcsnhats lehet kzvetlen vagy kzvetett, melyet kzs metabolitok ren-
deznek biokmiai tvonalakba. Ha meg tudjuk rajzolni ezt a trkpet, s az organizmus
teljes metabolomjt ismerjk, mg mindig van a tudsnak egy fennmarad szintje: a sejt
dinamikus viselkedse [8]. Ezt a szintet tekinthetjk az organizmus legmagasabb szin-
t fenotpusnak, ha figyelmen kvl hagyjuk a krnyezetet. Az egyetlen megvalsthat
mdja, hogy a sejt dinamikus viselkedst tanulmnyozzuk, az in silico szimulci.
Az elvrsunk egy modelltl valamifle alapveten j elrejelzs. Ezeknek az elre-
jelzseknek kt eltr nzpontjt neveztk tallan Freddolino s munkatrsai a fizikus
nzpontjnak s a mrnk nzpontjnak [9]. Az els tpus egy szles krben alkalmaz-
hat rendezelv, amely segtheti a rendszerrl val tudomnyos gondolkodst, a msodik
tpus egy praktikusabb, ltalban kvantitatv becsls, mely valamely mrnki feladatban
lehet hasznos, pldul hatanyag szrsben.
A Mycoplasma genitalium nev patogn mikroba rendelkezik a legkisebb genommal
minden ismert organizmus kztt: 525 azonostott gnje s 580kb hossz genomja van.
Nem meglep teht, hogy a teljes sejt szimulcira tett els ksrletek az M. genitaliumot
hasznltk modellorganizmusknt. Mivel mg ez az organizmus is relatve nagy szm
gnnel rendelkezik, valamint a gnkitses vizsglatok megmutattk, hogy nem minden
gn esszencilis a mikroorganizmus tllshez, lehetsges egy minimlis gnhalmaz egy
minimlis genom kivlasztsa. Azt a mestersges sejtet, mely ezt a genomot tartalmazza,
minimlis nfenntart sejtnek (angolul self-surviving cell, SSC) nevezzk.
Az E-CELL modell (127 gn, 495 reakcis szably) glukzt fogyaszt a krnyezetbl
s lakttot termel mint anyacserjnek vgtermkt [10]. Ez a trivilis viselkeds in silico
szimulci nlkl is megjsolhat, de ez az egyszer modell is kpes nhny rdekes jelensg
elrejelzsre.
Ha a krnyezeti glukz-szint elri a nullt, a sejt hezni kezd. Paradox mdon a
modellek azt jsoljk, hogy az hezs nagyon korai szakaszban az ATP-szint ideiglenesen
emelkedik, majd ksbb esni kezd mindaddig, mg az ATP-kszletek kimerlnek (11.1.
bra) [8, 9].
Ez a fajta szimulci hatkonyan hasznlhat fel patolgis llapotok vagy egyni k-
lnbsgek modellezsre, hogy szemlyre szabott beavatkozsokat vlaszthassunk ki. Egy
teljes rtk humn sejt modellezse mg nem elrhet, de humn eritrocita modellek mr
lteznek. Ezek a modellek lehetv teszik bizonyos fajta rkletes anmik vizsglatt [8].
Arany dm www.interkonyv.hu
11. Dinamikus modellezs a sejtbiolgiban 156
Dihydroxyaceton-
Phosphoglycerate Phosphoglycerate
PyruvateHkinase Enolase mutase kinase
3-phospho- 1,3-biphospho-
Pyruvate Phosphoenol- 2-phospho- glycerate
pyruvate glycerate glycerate
mATPHRevenuem
Time
11.8. ttekints
Ebben a fejezetben bemutattuk a dinamikus modellezs fontossgt, s ttekintettnk
nhny szmtsi eljrst ennek vgrehajtshoz. Ezek az eljrsok leginkbb a vizsglt
rendszerre vonatkoz alapvet feltevseikben klnbznek. A trgyalt keretrendszerek
csoportostshoz lsd a 11.1. tblzatot. A reakcidiffzi-rendszerek sztochasztikus
kezelsnek lehetsgvel jelen fejezetben nem foglalkoztunk.
Determinisztikus Sztochasztikus
Folytonos Diszkrt Folytonos
Homogn Differencilegyenletek Poisson folyamatok, SDE, Langevin-
Gillespie algoritmus, egyenlet, Fokker
GibsonBruck- Planck-egyenlet
algoritmus
Heterogn Parcilis differencil- nem trgyaltuk nem trgyaltuk
egyenletek
Arany dm www.interkonyv.hu
Irodalomjegyzk
[2] D. T. Gillespie, Exact stochastic simulation of coupled chemical reactions. The Jour-
nal of Physical Chemistry, 81(25):23402361, 1977.
[3] D. J. Wilkinson, Stochastic modelling for systems biology, Chapter Chemical and bio-
chemical kinetics. Chapman and Hall/CRC mathematical and computational biology
series, [11], Chapman & Hall/CRC, Boca Raton, Fla., 2006.
[7] Andrew Golightly and Darren J. Wilkinson, Bayesian sequential inference for stochas-
tic kinetic biochemical network models. Journal of Computational Biology, 13(3):838
851, 2006.
[8] M. Tomita, Whole-cell simulation: a grand challenge of the 21st century. TRENDS
in Biotechnology, 19(6):205210, 2001.
[9] P. L. Freddolino and S. Tavazoie, The dawn of virtual cell biology. Cell, 150(2):248
250, July 2012.
[11] D. J. Wilkinson, Stochastic modelling for systems biology. Chapman and Hall/CRC
mathematical and computational biology series, Chapman & Hall/CRC, Boca Raton,
Fla., 2006.
Arany dm www.interkonyv.hu
12. fejezet
Oksgi kvetkeztetsek az
orvosbiolgiban
Jellsek
x,x,x skalr, (oszlop)vektor vagy halmaz, mtrix
X, x, p(X) vletlen vltoz X, rtk x,
valsznsgi tmegfggvny/srsgfggvny X
EX,p(X) [f (X)] f (X) vrhat rtke p(X) szerint
varp(X) [f (X)] f (X) variancija p(X) szerint
Ip (X|Z|Y ) X s Y megfigyelsi fggetlensge Z felttellel p esetben
(X Y |Z)p Ip (X|Z|Y )
(X 6 Y |Z)p ) Ip (X|Z|Y )
CIp (X; Y |Z) X s Y beavatkozsi fggetlensge Z felttellel p esetben
(rszleges) sorrendezs
c a vltozk egy teljes sorrendezse
G adott G irnytott krmentes grffal kompatibilis sorrendek halmaza
(n) n objektum sorrendjeinek (permutciinak) a halmaza
G, Bayes-hl struktrja s paramterei
G G irnytott krmentes grf esszencilis grfja
G(n)/G k (n) n csompont maximum k szlj DAG-ok halmaza
G adott sorrenddel kompatibilis DAG-ok halmaza
Tovbbi konvencik az egyes fejezetekben jelltek.
Rvidtsek
ROC Receiver Operating Characteristic (ROC) grbe
AUC ROC-grbe alatti terlet
BMA Bayes-i modell tlagols
BN Bayes-hl
DAG irnytott krmentes grf
FSS jegykivlasztsi problma
MAP maximum a posteriori
MI klcsns informci
ML maximum likelihood
MBG Markov-hatr grf
MB Markov-takar
MBM Markov-takarbelisg
(MC)MC (Markov-lncos) Monte Carlo
NBN naiv Bayes-hl
12.1. Bevezet
Az omikai mrsi technikk elterjedse lehetv tettk a hipotzismentes orvosbiolgiai
kutatsokat. Az omikai adatok nagy vltozszma s az ehhez kpesti alacsony mintasz-
ma egyszer (kevs statisztikai) teszten alapul statisztikai elemzseket indokol, amelyek
azonban a remlttl elmarad eredmnyeket hoztak pldul a biomarker-kutatsok, j
gygyszerclpontok s j klinikai vgpontok felfedezsnek terletn is. A komplexebb
modellek alkalmazsra a Bayes-statisztikai keretrendszer knl egy konzisztens, nkor-
rigl lehetsget, klnsen az azon belli Monte Carlo alap kvetkeztetsek utbbi
negyedszzadban bekvetkezett fejldse. Ennek rszben oka a szmtstechnika fejld-
se, illetve az ezredfordultl megfigyelhet trendfordulsa is, ami a prhuzamos szmtsi
erforrsok fejldst jelenti: az ltalnos cl grafikus krtyk, elosztott grid rendsze-
rek s a felh alap szmtsi kzm elterjedst. Ezen tnyezk eredmnyeknt tfog,
oksgi modellek induktv strukturlis vizsglata is lehetv vlt. Az oksgi kutatsok-
nak ez az ga klnsen relevnss vlt az omikai megkzelts miatt, amely vizsglatot
kvethetnek ms tpus oksgi kvetkeztetsek, mint pldul az adott oksgi modellen
belli hatserssg identifiklsnak s becslsnek a krdsei, illetve funkcionlis oks-
gi modelleken alapul vizsglatai kontrafaktulis jelleg kvetkeztetseknek. Az oksgi
relcik rendszerszint vizsglatt a Bayes-statisztikai keretben mutatjuk be, amelyhez
elsknt sszefoglaljuk a passzv megfigyelsekbl trtn tanuls elmleti korltait, s be-
mutatunk olyan idealisztikus tanulsi algoritmusokat, amelyek aszimptotikus mennyisg
adatot tteleznek fel. Ezt kveten bemutatjuk egy elterjedt poszterior szrmaztatst
az oksgi modellekhez, amely kpes oksgi priorokat s oksgi (beavatkozsokat is tartal-
maz) adatokat is integrlni. Vgl bemutatunk olyan strukturlis modelltulajdonsgok
feletti Bayes-kvetkeztetst, amely modelltulajdonsgok sokrt oksgi rtelmezssel br-
nak.
(X
Y |Z)p iff (x, y, z p(x, y|z) = p(x|z)p(y|z) ha p(z) > 0). (12.1)
12.7. Definci. Egy P(U) eloszls stabil, ha ltezik olyan G DAG, hogy P(U)-ban ponto-
san a G-bl d-szeparcival kiolvashat fggsek s fggetlensgek teljeslnek benne (azaz
G perfekt trkp).
12.12. Definci. Egy G, oksgi modell esetn p(Y |z, do(X = x)) jellje azt az elosz-
lst, amelyet gy kapunk, hogy a (perfekt) beavatkozshoz tartoz X vltoz(k) bemen
leit trljk s ezeket a vltozkat az elrt rtkre belltjuk (azaz a faktorizciban a
belltott vltozkhoz tartoz faktorok nem szerepelnek) [15].
12.2. Ttel. Egy (G, ) Bayes-hlval definilt p stabil eloszlsban az irnytott tlefogs
egzakt mdon reprezentlja az oksgi irrelevancit, azaz int(X Y |Z)G (X Y |Z)p ,
X, Y, Z V ), ahol int(X Y |Z)G jelli, hogy Z minden irnytott utat lefog X-bl
Y -ba, azaz minden X-bl Y -ba vezet s t tartalmaz egy csompontot Z-ben.
A likelihood tnyezre egy hatkonyan szmolhat kplet vezethet le (lsd [6, 18, 11]):
qi
n Y ri
Y (ij+ ) Y (ijk+nijk )
p(G, DN ) = p(G) , (12.5)
i=1 j=1
( ij+ + nij+ ) k=1
( ijk )
12.5.4. Hatsmdostk
Az interakcik kzponti szerepe ellenre genetikai asszocicis, gn-krnyezet s farma-
kogenomikai kutatsokban az interakcik tpusai jelenleg mg nincsenek kidolgozva. A
fejezetben trgyalt rendszerszint megkzelts lehetv teszi altpusok definilst, mint
pldul a 12.1. brn lthat asszocicis tpusok: pontozott vonal jelzi az asszocilt vl-
tozkat X6 -tal, a szaggatott tvonal X4 -tl X13 -ba jelzi azokat a vltozkat, amelyek po-
tencilisan befolysoltak vagy relevnsak az X4 , X13 relcira, illetve a pontozott tvonal
X1 -tl X14 -ig jelzi azokat a vltozkat, amelyek potencilisan asszociltak vagy relevnsak
az X1 , X14 oksgi relcira.
Az oksgi Bayes-hlk felhasznlsnak illusztrlsra fontoljuk meg a kvetkez kr-
dst:
Oksgi relevancia hatserssg-mdostja. Mi az a minimlis halmaz, amely elszigeteli az
X vltozn trtn beavatkozs Y -ra gyakorolt hatst a tbbi vltoztl?
Adott felttelek mellett erre a vlasz az X-bl Y -ba vezet utakon lv csompontjai-
nak a szleinek a halmaza, amelyhez a Bayes-i modelltlagolsos keretben szintn becsl-
het poszterior.
X1
X2 X3 X4
X5 X6 X7
X4
X8 X9 X10 X11
[2] P. Antal, G. Hullm, A. Gzsi, and A. Millinghoffer, Learning complex Bayesian net-
work features for classification. In Proc. of third European Workshop on Probabilistic
Graphical Models, pages 916, 2006.
[3] W. L. Buntine, Theory refinement of Bayesian networks. In Proc. of the 7th Conf. on
Uncertainty in Artificial Intelligence (UAI-1991), pages 5260. Morgan Kaufmann,
1991.
[6] G. F. Cooper and E. Herskovits, A Bayesian method for the induction of probabilistic
networks from data. Machine Learning, 9:309347, 1992.
[8] N. Friedman and D. Koller, Being Bayesian about network structure. In Proc. of
the 16th Conf. on Uncertainty in Artificial Intelligence(UAI-2000), pages 201211.
Morgan Kaufmann, 2000.
[9] D. Galles and J. Pearl, Axioms of causal relevance. Artificial Intelligence, 97(1-2):9
43, 1997.
[10] C. Glymour and G. F. Cooper, Computation, Causation, and Discovery. AAAI Press,
1999.
[11] D. Heckerman, D. Geiger, and D. Chickering, Learning Bayesian networks: The com-
bination of knowledge and statistical data. Machine Learning, 20:197243, 1995.
[12] Subramani Mani and Gregory F. Cooper, A simulation study of three related cau-
sal data mining algorithms. In International Workshop on Artificial Intelligence and
Statistics, pages 7380. Morgan Kaufmann, San Francisco, CA, 2001.
[13] C. Meek, Causal inference and causal explanation with background knowledge. In
Proc. of the 11th Conf. on Uncertainty in Artificial Intelligence (UAI-1995), pages
403410. Morgan Kaufmann, 1995.
[14] J. Pearl, Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Fran-
cisco, CA, 1988.
[15] J. Pearl, Causal diagrams for empirical research. Biometrika, 82(4):669710, 1995.
[16] J. Pearl, Causality: Models, Reasoning, and Inference. Cambridge University Press,
2000.
[17] C. Silverstein, S. Brin, R. Motwani, and J. D. Ullman, Scalable techniques for mining
causal structures. Data Mining and Knowledge Discovery, 4(2/3):163192, 2000.
[19] P. Spirtes, C. Glymour, and R. Scheines, Causation, Prediction, and Search. MIT
Press, 2001.
[20] T. Verma and J. Pearl, Equivalence and synthesis of causal models, volume 6, pages
25568. Elsevier, 1990.
[21] M. Woodward, Epidemiology: Study design and data analysis. Chapman&Hall, 1999.
Szvegbnyszati mdszerek a
bioinformatikban
13.1. Bevezets
Az emberisg egszen a digitlis korszak kezdete ta szmtgpet hasznlt tudsnak
tkletestsre, trolsra s megosztsra. Napjainkban vente tbb milli publikci
szletik; e hatalmas mennyisg kollektv tudssal lpst tartani a kutatk szmra re-
mnytelen vllalkozs, mg sajt szakterletkn is. A szvegbnyszat rohamosan fejl-
d tudomnya ezt a nehzsget hivatott orvosolni; pontosabban szlva, a szvegbnyszat
clja rejtett tuds felfedse nagy mennyisg szveges adat feldolgozsval. Orvosbiol-
giai kontextusban ez rendszerint cikkek tzezreinek vagy akr milliinak elemzst jelenti,
amely lehetv teszi eddig ismeretlen kapcsolatok feldertst s j hipotzisek generl-
st. A szvegbnyszatra tekinthetnk az adatbnyszat vadhajtsaknt, amelyet elszr
a 80-as vekben kezdtek alkalmazni, de a kutats framba csak a XX. szzad vgn
kerlt be. Az orvosbiolgiai szvegbnyszat azta hatalmas fejldsen ment t, rszben
a szmtstechnika, rszben ms kapcsold terletek (adatbnyszat, gpi tanuls, sta-
tisztika, szmtgpes lingvisztika) prhuzamos fejldsnek ksznheten. E fejezetben
alapfogalmakat s gyakran alkalmazott technikkat tekintnk t.
13.2.1. Korpuszpts
A fellelhet biomediklis szvegek egsze ms nven a bibliom felfoghat a korpuszp-
tsi folyamat bemeneteknt. Az orvosbiolgiai szvegbnyszati alkalmazsok hagyom-
nyosan a bibliom egy kitntetett rszt, a tudomnyos kzlemnyek absztraktjait helyeztk
eltrbe; ennek legfbb okai a kompakt, lnyegre tr rsmd s a nylt hozzfrs voltak.
Napjainkra a hangsly egyb dokumentumtpusok (pl. szabadalmak, teljes cikkek) fel
toldott; ezek elrhetsge a szabad hozzfrs elvnek ksznheten folyamatosan nvek-
szik. A dokumentumok kzs jellemzje, hogy nem-strukturlt adatot tartalmaznak, azaz
a strukturlt adatokkal szemben semmilyen elre meghatrozott szerkezetet vagy modellt
nem kvetnek, ami egy adatbzis esetn elvrhat lenne. Nem-strukturlt adatot hordoz-
nak pldul a videk, kpek s a szabadszveges lersok. A bibliom egy kis rsze flig
strukturlt dokumentumokbl ll, pldul XML fjlok formjban, amelyek gy tmenetet
kpeznek az adatbzisok s a nem-strukturlt adatok kztt.
107
106.5
Publikcik sszesen
6
10
105.5
105
1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
v
1100000
1000000
900000
800000
j publikcik szma
700000
600000
500000
400000
300000
200000
100000
1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
v
13.2.2. Sztrpts
Sztr alatt a vizsgland kifejezsek egy listjt rtjk, amely a sztralap szveg-
bnyszati mdszerek elengedhetetlen bemenete. E mdszerek rendszerint a megadott
kifejezsek keressn alapulnak, s olyan feladatokat hajtanak vgre, mint pldul az enti-
tsfelismers, egytt-elfordulsi elemzs, szemantikus annotci, szvegklasszifikci stb.
A sztraknak sok formjt ismerjk:
Kontrolllt sztrak ltalnos rtelemben klnbz tudsforrsok alapjn pt-
hetk, a legfontosabbak ezek kzl a szakrti tuds s az online adatbzisok. A
kifejezsek kivonatolsa s szrse trtnhet flig vagy teljesen automatizlt mdon,
szmos online adatbzis nyjt ilyen szolgltatsokat (UMLS, HUGO, OMIM stb.).
A kifejezsek szabadszveges rsokbl is kivonhatk, ezzel jabb szvegbnyszati
terletekre jutunk (pl. ontolgik ksztse [2]).
Taxonmik alatt hierarchikus struktrval rendelkez kontrolllt sztrakat r-
tnk; a kifejezs hagyomnyosan az llnyek rendszertant jellte. Nhny em-
ltsre mlt plda: a Betegsgek Nemzetkzi Osztlyozsa (BNO), a gygyszerek
ATC-klasszifikcija, valamint egy sereg szakterlet-specifikus taxonmia.
Tezauruszok az elbbiektl eltren nem csak hierarchikus kapcsolatokat enged-
nek meg a kifejezsek kztt. Az UMLS Metathesaurus pldul orvosbiolgiai s
egszsggyi kifejezsek milliit, ezek szinonimit s kapcsolatait tartalmazza.
Ontolgikrl szigor rtelemben formlis, szmtgp ltal is olvashat reprezen-
tcis nyelven lert sztrak esetn beszlnk; a gyakorlatban azonban a fenti ka-
tegrik mindegyikre hasznljk az ontolgia kifejezst. Az Open Biological and
Biomedical Ontologies (OBO) Foundry a szakterletek szles skljn elhelyezked
ontolgikat tart fent.
kerl sor; a feladatra sok megkzelts alkalmas, pl. kvetkeztets, gpi tanuls vagy
informci-visszakeressi technikk.
13.3.1. Mintailleszts
A mintailleszts sorn elre meghatrozott mintkat keresnk a szvegben; ez egyben a
legtbb szvegbnyszati technika alapjt is kpezi. A mintk lehetnek egyszer sztrin-
gek (karaktersorozatok) vagy regulris kifejezsek (kvetelmnyeket reprezentl specilis
kifejezsek, amelyek tbbfle sztringhez is illeszkedhetnek). A XX. szzad msodik fel-
ben mindkt clra rengeteg algoritmust terveztek. Elbbire plda a BoyerMoore algorit-
mus [6]; a regulris kifejezsek s vges llapot automatk rszleteirt Cox sszefoglal
mvre hivatkozunk [7].
Az n. fuzzy mintaillesztssel (ms nven hibatr mintailleszts) adott tvolsgmr-
tk alapjn mrt hozzvetleges egyezsek is megtallhatk. Ezen mdszerek nemcsak a
szvegbnyszatban, hanem a szekvenciaillesztsben is hasznosak. Nhny gyakran hasz-
nlt tvolsgmrtk:
(T2T2T3T2T2T2) T2
(T1T2T1T2T2T1)
(T2T3T3T3)
T1
T3
S
NP VP
Det N V NP
Det N PP
P NP
Det N
The drug inhibited the receptor in the experiment.
P (S NP VP) = 1.0,
P (VP Vi) = 0.6,
P (VP Vt NP) = 0.4,
P (NN cAMP) = 0.001.
[13] Dan Klein and Christopher D. Manning, Accurate Unlexicalized Parsing. In: Procee-
dings of the 41st Annual Meeting on Association for Computational Linguistics, Vol.
1, ACL 03, pages 423430, Association for Computational Linguistics, Stroudsburg,
PA, USA, 2003.
[14] Jennifer DSouza and Vincent Ng, Anaphora Resolution in Biomedical Literature: A
Hybrid Approach. In: Proceedings of the 3rd ACM Conference on Bioinformatics,
Computational Biology and Biomedicine, pages 113122, 2012.
Ksrlettervezs: az alapoktl a
tudsgazdag s aktv tanulsos
kiterjesztsekig
14.1. Bevezets
A ksrletezs az emberisg egyik leghatkonyabb eszkze a krltte lv vilg felfede-
zsre; brmifle tudomnyos (vagy akr filozfiai!) elrehalads elkpzelhetetlen volna
gondosan megtervezett ksrletek nlkl. Nem meglep, hogy a fejldsllektan legtbb
kpviselje szerint a ksrletezs az emberi kognitv fejldsben is kzponti szerepet tlt
be. Jean Piaget a 1218 hnapos gyermekeket egyenesen fiatal tudsoknak tartotta, akik
a vilgot ksrletek tervezsn s kivitelezsn keresztl fedezik fel.
Mindennek dacra a matematikusok rdekldst csak a XX. szzadban kezdte felkel-
teni a krds. Amita Ronald Fisher, az egyik legnevesebb statisztikus (egyben elismert
evolcibiolgus s genetikus) megrta The Design of Experiments c. mvt (1935), a
ksrlettervezs a matematikai statisztika jelents alterletv ntte ki magt. Ebben a
fejezetben ttekintjk a ksrlettervezs folyamatt a biolgus s a statisztikus nzpont-
jbl egyarnt.
SNP validcik
Szekvenls Genotipizls
Jellt gn asszocici
Mintk
Rszleges genomszurs
Exome szekvenls
Vltozk
...
U (a, e, Di , Ej )
Di
... e Ej ...
a ...
U (a, e0 , Ej )
a
e0 Ej
Ez a mennyisg az adat vrhat rtke (Expected Value of the Data). A Di adat kit-
lagolsval megkapjuk a ksrlet vrhat rtkt (Expected Value of the Experiment):
X
EV E(e) = EV D(e, Di )p(Di |e).
Di D
Mrsi Ksrletezo
knyszerek preferencii
A fenti mdszerek kzs elnye, hogy jobban illeszkednek a vals ksrletekhez (pl.
rendszeres monitorozs), knyelmesebben alkalmazhatk, valamint lehetv teszik a korai
lelltst, ami alacsonyabb mintaszmhoz s rvidebb tanulmnyokhoz vezet.
Minden lpsben dnteni kell a ksrletek folytatsrl vagy lelltsrl. Utbbi esetben
az eddigi lpsek hasznossga, U (D<i ), megegyezik az optimlis jelents hasznossgval;
folytats esetn U (D<i ) a vrhat adat hasznossgaknt hatrozhat meg.
U (D<i ) = max(U R (D<i ), U C (D<i )) = max Ep(f |D<i ) [U (f |f )] , Ep(Di |D<i ) [U (Di )] .
E2
Q1
Q3
Q2 I
E1
E3
0
E20 Q1
k(, )
2
Q02
3 Q03
E10 E30
ahol a clfggvny els tagja a modell simasgt biztostja, jelli a margt, szablyozza
a komplexitst s i a soft-margin formalizcihoz szksges slack vltozk. () kpezi
le a mintkat a H reprodukl kernel Hilbert-trbe, azaz K(xi , xj ) = h(xi ), (xj )iH . A
dul
1
max D() = T K
2
s.t. 0 1, 1T = l.
A prioritizci sorn az origtl szmtott hiperskra ortogonlis tvolsg:
P
i K(xi , x)
f (x) = i
T K
ahol a nevez a normalizcirt felel, a konstans paramtert pedig elhagyjuk.
[5] P. Antal, G. Hajs, A. Millinghoffer, G. Hullm, Cs. Szalai, and A. Falus, Variable
pruning in Bayesian sequential study design. Machine Learning in Systems Biology,
page 141, 2009.
[6] Pter Antal, Andrs Gzsi, Gbor Hullm, and Andrs Millinghoffer, Learning comp-
lex bayesian network features for classification. In: Proc. of third European Workshop
on Probabilistic Graphical Models, pages 916, 2006.
[10] Bernhard Schlkopf, John C. Platt, John C. Shawe-Taylor, Alex J. Smola, and Robert
C. Williamson, Estimating the support of a high-dimensional distribution. Neural
Comput., 13:14431471, July 2001.
15.1. Bevezet
Az 1965-ben G. Moore ltal megfogalmazott trvny a tranzisztorok srsgrl az elekt-
ronika egy ltalnos trvnyv vlt, amely az eredeti fizikai alapoktl elvlva a szmtsi
teljestmny s adattrols sokfle vonatkozsban is helynvalnak bizonyult. Az adatt-
rols fejldsvel prhuzamosan a mrstechnika is exponencilis fejldsi szakaszon ment
keresztl pl. a csillagszat, meteorolgia, rszecskefizika, kmia, molekulris s neurobio-
lgia terletn. A felhalmozd adatok miatt az ezredfordul tudomnytrtneti korszak-
hatrnak is tekinthet, amikor a XX. szzad msodik felre jellemz szmtsintenzv,
szimulcis korszakot egy adatintenzv, adatelemz korszak vltotta fel. Tudomnytr-
tnszek egy j kutatsi paradigma, az e-science megjelenst is vizionltk, amelynek
kzponti eleme ezen nagy adattmegek lte, hatkony begyjtse, trolsa, elemzse s
modellalkotsban, ksrlettervezsben val felhasznlsa. Fontos felismerni azonban, hogy
az adatgazdagsg nem kizrja, hanem csak megelz fzisa a szmtsintenzv szimul-
ciknak, gy ezek megjelense egyre komplexebb terleteken vrhat.
Az e-science paradigma elmleti s gyakorlati httere tbb tudomnyterleten is el-
osztva fejldik, amely a kvetkez kulcsszavak kr szervezdik: (1) a szmtsintenzv
szimulci, (2) a nagy adattmegek, a Big Data, (3) kzssgi kutats, (4) a nylt elrs,
hatkony kombinlhatsg, jrafelhasznlhatsg.
szerepe miatt nll, a bioinformatikai kutatsoktl kiss elvl utat jrt be a hatanyagok
s gygyszerek reprezentlsnak s adatbzisainak fejldse.
Gyors, br ehhez nem foghat nvekedsi jelleget mutat az orvosbiolgiai szakcikkek
szmnak gyarapodsa is.
A molekulris entitsokrl szl adatok mellett a pronknti adatok, mind a gnsza-
blyozsi vonaln, mind a fehrje-fehrje interakcik kapcsn, illetve a genetikai varinsok
s betegsgek kapcsn a genetikai asszocicis adatbzisok. A hatanyagok s gygy-
szerek adatbzisainak fejldse jl tkrzte a kemoinformatika nll fejldst, hogy az
orvosbiolgiai nagy adattmegek megjelensnek els hullmban, az ezredfordulig, a
gygyszer-clpont adatbzisokon tl, a gygyszer-betegsg relciban nem jttek mg lt-
re nagy mennyisgben adatok.
kinyitsra kszl, illetve, hogy az engedlyeztetsi eljrsban keletkez adatok nyers for-
mjukban is elrhetek lesznek. Hasonl rdeklds az lelmiszerbiztonsg s a kmiai
biztonsg irnybl is vrhat.
Vgezetl a legalapvetbb tnyez a htkznapi nagy adattmegek orvosi felhasznlsa
mellett maga az egynek nmegismer s egszsgmegrz trekvse. Br a hordhat
elektronikai eszkzk az ezredfordultl folyamatosan a tmeggyrts s tmeges elterjeds
hatrn vannak, a trsadalmi szint fogkonysg s ipari felkszltsg tbb felmrs szerint
is most fog egy kritikus szintet elrni.
A viselhet (wearable) szmtstechnika, a begyazott, transzparens szmtstechni-
ka (ambient assisted living) miatt vrhatan tovbbi j adatforrsok is megjelennek a
kzeljvben (15 v), mint pldul a kvetkezk:
Testhmrsklet
Pulzus, EKG; szrmaztatott mutatk
Lgzs; kapacits, gyakorisg
Vrnyoms
Brellenlls
Sly
Kalriabevitel
Vrcukorszint
Testmozgs
2. Kommunikci
Telefon
Elektronikus zenetek
Kzssgi hlkon s szmtgpes jtkokban val rszvtel
3. Otthoni krnyezet
4. Kzlekeds
tvonal
Eltlttt id
Ezen adatoknak fontos sajtossga a tbbszint, tbb idi lptk mentn elhelyezked
adatok, amit az albbi pldval illusztrlunk, bemutatva az allergis llapot tbbszint
kvetsnek adatait:
Szakorvosi adatok: szezon szerinti s ves vizitek, eseti megkeressek.
Laboradatok: szezonszerinti s ves viziteken mrt immunolgiai profilok.
Tnetek: szervrendszer s klinikai vgpontok szerinti pontszmok helysznnel rs,
napi, heti, szezonlis s vi bontsban.
Gygyszerels: napi, heti, szezonlis s vi bontsban.
Mellkhatsok: napi, heti, szezonlis s vi bontsban.
Meteorolgiai adatok: helysznnel rs, napi, heti, szezonlis s vi bontsban.
Ebben a szereplk az ids kor vagy otthon lbadoz egyn maga, hozztartozk,
gondozi ellts, hziorvosi ellts, szakorvosi ellts, diszpcserkzpont. Az itt keletkez
adatok lehetv teszik pldul a kvetkezket:
(a) megelzst,
(b) diagnzist s
(c) kezelst rhet el.
(d) Elektronikus betegadatok (krtrtnet, laboreredmnyek), gygyszerezs, l-
talnos s betegsgspecifikus fiziolgis adatok alapjn figyelmeztetst krhet
gygyszerbelltsra.
(a) a modellek mind egyetlen, mind tbb szemly adatai alapjn adaptvak lehet-
nek,
(b) specilis, szemlyre szabott kvetsi vagy figyelmeztetsi modelleket hozhat-
nak ltre, amelyek a gondozi s hozztartozi kapcsolatban jelenthetnek nagy
segtsget.
hogy lehetsges-e jzan sz (common sense) nlkl ezeket az adatok elemezni. A krds
trgyalsa meghaladja a jegyzet kereteit, de valjban ppen ez a mindennapi letbl szr-
maz nagy adattmeg biztosthatja a magasabb absztrakcis szinten lv bioinformatikai
s kemoinformatikai adatok rtelmezst, hatkony kihasznlst.
Erre vrhatan els pldkat a htkznapi nagy adattmegek azon felhasznlsa fog
eredmnyezni posztgenomikai kutatsokban s gygyszerhatkonysgi, mellkhats-kvetsi
vizsglatokban, amikor ezen adatok mint egy rszletes krnyezeti lers s a lehet leg-
teljesebb szervezet/egyn szint fenotpus-lers kerlenk felhasznlsra, j vgpontokat
biztostva (v. a gnexpresszi mint ultimate sejt szint fenotpus [8][11]).
[2] Carlson R, The Pace and Proliferation of Biological Technologies. Biosecurity and
Bioterrorism: Biodefense Strategy, Practice, and Science 2004, 1(3).
[5] Pearl J, Causality: models, reasoning, and inference. Cambridge University Press,
Cambridge, U.K.; New York, 2000.
[6] Bell G, Hey T, Szalay A, Beyond the Data Deluge. Science, 323(5919):12971298,
2009.
[8] Schadt E, Monks S, Drake T, Lusis A, Che N, Colinayo V, Ruff T, Milligan S, Lamb
J, Cavet G et al., Genetics of gene expression surveyed in maize, mouse and man.
Nature, 422(6929):297302, 2003.
[9] Schadt E, Monks S, Friend S, A new paradigm for drug discovery: integrating clinical,
genetic, genomic and molecular phenotype data to identify drug targets. Biochemical
Society Transactions, 31:437443, 2003.
16.1. Bevezets
A modern orvosbiolgiai, bioinformatikai kutatsok egyik legfbb mozgatrugja az a
technolgiai forradalom, amely a XX. szzad, a fizika vszzadnak msodik felben kez-
ddtt s mind a mai napig tart. A szmtsi teljestmny nvekedsnek, a cskszlessg
cskkensnek temt megfogalmaz Moore-trvnyhez hasonlan ms tudomnyterle-
teken is hasonl szrevtelek szlettek, amelyek a mrstechnikk exponencilis fejldst
jsoltk (pl. Carlson-trvnyek [1]). Ennek megfelelen a XXI. szzadban amelyet sokan
a biolgia vszzadnak tartanak rengeteg nagy teresztkpessg biolgiai mdszer
ltott napvilgot, s hatalmas mennyisg, heterogn mrsi adat szletett, amelynek
fejben trtn szintetizlsa s elemzse remnytelen vllalkozs. A biolgiai s sz-
mtstudomnyi fejlds, valamint ezzel prhuzamosan a mrsi mdszerek s szmtsok
rnak cskkense egyttesen j kutatsi megkzeltsek kialakulshoz vezetett. Ezek k-
z tartozik a hipotzismentes kutatsi paradigma (gnhalszat), illetve a kapcsolt omikai
(genomikai, proteomikai stb.) szintek egyttes vizsglatnak tlete. Az j vezred elejtl
a modern biolgiai alapkutats az entitsszint szemlletet maga mgtt hagyva egyre
inkbb a rendszerszint elemzsek fel mozdult el (systems biology). A nvekv adat-
mennyisggel prhuzamosan az orvosbiolgiai adatbzisok szma is emelkedett, amelyek
a kvetkezkppen oszthatk fel (a teljessg ignye nlkl):
12
10000$ 10
Moore-trvny Kltsg
Bzisprok
1000$
GenBank bzisprok
r/megabzis
10$ 1011
1$
1.352.982$/genom
5800$, 1 nap/genom
0.01$ 1010
20
20
20
20
20
20
20
20
20
01
04
05
06
07
09
10
12
13
.sz
.ja
.j
.o
.ja
.ja
.
pr
pr
pr
k
nu
nu
nu
liu
ep
t
ili
ili
ili
te
r
be
s
s
s
m
r
be
r
GSEA
2005. Submarinan
IPA WebGestalt
2003. Ingenuity 2005. Zhang STRING
Galaxy 2007. Bork
2005. Giardine
Kepler Taverna
Biomart Bioconductor 2006. Oinn
2001. 2004. Altintas, Gentleman
Bioclipse
Watson
2007. Spjut
TAMBIS Cytoscape 2011. IBM
2000. Stevens 2004. Smoot OBO Foundry
2007. Smith
Gene Ontology Connectivity Map
2000. Ashburner 2006. Lamb
Kernel fzi ProDiGe
UMLS 2004. Lanckriet
Hasonlsgi fzi 2011. Mordelet
1986 Endeavour
2000. Willett
2007. De Bie
Sorrendi fzi Korai-ksi fzi Sorrendi statisztika
1997. Willett 2002. Pavlidis 2006. Aerts
Bayesi tudsfzi MAGIC
1995-... 2003. Altman
Kztes/kzpszint fzi
G1
G2
G3
VSI
G4 Tetszleges
GGGG GGGG GGGG GGGG
Expressz 1234 1234 1234 1234
Gn1 G1 G1 Kernel fzi
Gn2
Gn3
Gn4
G2
G3
G4
+ + = G2
G3
G4
SVM, GP, CCA,
Kernel kNN, ...
Kztes
tvonal G1: y1
Gn1 p(G4|G3)
Gn2 G2: y2
Gn3
Gn4
Bayes-hl G3: y3
p(G3|G1,G2) Bayesian inference,
Szekvencia Network integration, G4: y4
Gn1
Gn2 Label propagation, ...
Gn3
Gn4 p(G1) p(G2|G1)
Sum rank: adott entits sszes sorrendezsben elrt pozciit sszeadjuk, a vgs
sorrend az gy nyert pozcik alapjn alakul.
Sum score: adott entits sszes sorrendezsben elrt pontszmait elosztjuk az adott
Pareto ranking: adott entits vgs sorrendben elfoglalt pozcija attl fgg, hogy
hny entits r el nla magasabb rangot a sorrendekben. A dntetlenek a sum rank
mdszerrel dlnek el.
Rank vote: minden sorrend szavaz az els n elemre, az entitsok vgs sorrendje
a kapott szavazatok alapjn alakul. A dntetlenek a sum score mdszerrel dlnek
el.
ahol () vgzi az adatok vettst a RKHS-be, az SVM pedig ebben a trben vgzi a tanu-
lst. A fenti pldban definilt k fggvnyt nevezzk Gauss-fle radilis bzisfggvnynek
(RBF). Megmutathat, hogy az ehhez tartoz tr pldul vgtelen dimenzis.
B3 B2
B1 I
G1
G2
G3
B10
K1
<1
B
B20
G01
G02 B30
G03
H1
is szletett. Ugyancsak ezen a ponton jelent meg a slyok regularizcijnak krdse, ahol
az n. L2-normalizci vlt be a sparse (p < 2) mdszerekkel szemben [15].
[1] R. Carlson, The pace and proliferation of biological technologies. Biosecur Bioterror,
1:203214, 2003.
[2] J. Synnergren, B. Olsson, and J. Gamalielsson, Classification of information fusion
methods in systems biology. In Silico Biol. (Gedrukt), 9:6576, 2009.
[3] d. a. W. Huang, B. T. Sherman, Q. Tan, J. Kir, D. Liu, D. Bryant, Y. Guo, R.
Stephens, M. W. Baseler, H. C. Lane, and R. A. Lempicki, DAVID Bioinformatics
Resources: expanded annotation database and novel algorithms to better extract
biology from large gene lists. Nucleic Acids Res., 35:W169175, July 2007.
[4] B.Zhang, S. Kirov, and J. Snoddy, WebGestalt: an integrated system for exploring
gene sets in various biological contexts. Nucleic Acids Res., 33:W741748, July 2005.
[5] C. von Mering, L. J. Jensen, M. Kuhn, S. Chaffron, T. Doerks, B. Kruger, B. Snel,
and P. Bork, STRING 7 recent developments in the integration and prediction of
protein interactions. Nucleic Acids Res., 35:D358362, Jan. 2007.
[6] P. G. Baker, A. Brass, S. Bechhofer, C. Goble, N. Paton, and R. Stevens, TAMBIS:
Transparent Access to Multiple Bioinformatics Information Sources. An Overview. In:
Proceedings of the Sixth International Conference on Intelligent Systems for Molecular
Biology (ISMB98), pages 2534, Menlow Park, California, June 28July 1 1998.
AAAI Press.
[7] J. Lamb, E. D. Crawford, D. Peck, J. W. Modell, I. C. Blat, M. J. Wrobel, J. Lerner,
J. P. Brunet, A. Subramanian, K. N. Ross, M. Reich, H. Hieronymus, G. Wei, S. A.
Armstrong, S. J. Haggarty, P. A. Clemons, R. Wei, S. A. Carr, E. S. Lander, and T.
R. Golub, The Connectivity Map: using gene-expression signatures to connect small
molecules, genes and disease. Science, 313(5795):19291935, Sep. 2006.
[8] O. G. Troyanskaya, K. Dolinski, A. B. Owen, R. B. Altman, and D. Botstein, A
Bayesian framework for combining heterogeneous data sources for gene function pre-
diction (in Saccharomyces cerevisiae). Proc. Natl. Acad. Sci. U.S.A., 100:83488353,
July 2003.
[9] T. De Bie, L. C. Tranchevent, L. M. van Oeffelen, and Y. Moreau, Kernel-based data
fusion for gene prioritization. Bioinformatics, 23:i125132, July 2007.
[11] M. E. Smoot, K. Ono, J. Ruscheinski, P. L. Wang, and T. Ideker, Cytoscape 2.8: new
features for data integration and network visualization. Bioinformatics, 27:431432,
Feb. 2011.
[12] P. Pavlidis, J. Weston, J. Cai, and W. S. Noble, Learning gene functional classifica-
tions from multiple data types. J. Comput. Biol., 9:401411, 2002.
[13] F. Svensson, A. Karlen, and C. Skold, Virtual screening data fusion using both
structure- and ligand-based methods. J Chem Inf Model, 52(1):225232, Jan. 2012.
[16] Alain Rakotomamonjy, Francis R. Bach, Stephane Canu, and Yves Grandvalet, Simp-
leMKL. Journal of Machine Learning Research, 9:24912521, November 2008.
[17] Marius Kloft, Ulf Brefeld, Soeren Sonnenburg, Pavel Laskov, Klaus-Robert Mller,
and Alexander Zien, Efficient and Accurate Lp-Norm Multiple Kernel Learning. In:
Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors,
Advances in Neural Information Processing Systems 22, pages 9971005, 2009.
[18] Francis R. Bach, Gert R. G. Lanckriet, and Michael I. Jordan, Multiple kernel lear-
ning, conic duality, and the SMO algorithm. In: Proceedings of the twenty-first inter-
national conference on Machine learning, ICML 04, pages 6, ACM, New York, NY,
USA, 2004.
[20] F. Mordelet and J. P. Vert, ProDiGe: Prioritization Of Disease Genes with multitask
machine learning from positive and unlabeled examples. BMC Bioinformatics, 12:389,
2011.
A Bayes-i enciklopdia
17.1. Bevezet
Az emberisg tudsanyagnak megosztsban az informcitechnolgiai fejlds alapve-
t vltozsokat idzett el: jelentsen leegyszersdtt s felgyorsult a tuds kzzttele.
Ennek kvetkezmnyeknt vente kb. egymilli tudomnyos kzlemny jelenik meg csak
orvosbiolgiai tmakrkben, de ez egy szkebb terleten is ezres nagysgrendet jelent.
Ekkora szmossg cikk kvetse meghaladja az emberi kognci hatrait, pedig a hetero-
gn ismeretek integrlsa, jelentsgnek felismerse a tudomnyos halads egyik zloga.
A hatkony informcielrst lehetv tev szemantikus technolgik mr korbban meg-
jelentek, azonban felhasznlsuk szmos megoldatlan problma miatt csak korltozottan
jellemz. A szemantikus web s szemantikus technolgik az internet gyors elterjedsvel
Modellek s szmtsok
Adatelemzsi
tudsdarabkk
Adat
Szimullt adat
Adatelemzsi
Lehorgonyzs profilok
Utfeldolgozott
adatok
Nyers adatok
Adatok
Egy adat, tuds, szmtsi modellek egysgn alapul tudsbzis mg egy szk szakte-
rleten, mint pldul a genetikai asszocicis terleten bell akr csak egyetlen (tvonal)
betegsghez kapcsold farmakogenomikai szakterleten bell is nagy kihvs a klinikai
felhasznls miatt. Ekkor a diagnosztikai mrsek, a lelet ellltsa, a lelet rtelmezse
s a terpis dntsek is mind kapcsoldnak egy ilyen tudsbzishoz. Fontos megjegyezni,
hogy ezen komplex, egysges tudsbzisok clja nem a betegek kzvetlen tjkoztatsa
leegyszerst vagy szakorvoshoz orientl mdon. Hasonlan, a legtfogbb tudsbzis
ltrehozsa sem ptolja a felhasznlsra vonatkoz szakrt tudst, s ezen tudsbzisok
nem a kreativits s emberi, klinikai relevancia felismersnek kivltst, hanem ppen
annak kiegsztst szolglhatjk.
4. GRIPS: Strengthening the reporting of genetic risk prediction studies: the GRIPS
statement [25].
Sztr alkotsa
Trgyterleti modellezs
Ontolgia alkotsa
Ksrlettervezs
Cikkgyjtemny integrlsa
A priorii modellek ltrehozsa
Logikai
Fggsi/Oksgi
Vltoz s mintamret vlaszts
Parametrikus
Httrtuds alap
Mrs s adatgyjts Minsgbiztosts
Parallel/interim/szekvencilis
Mrsi utfeldolgozs
Egyvltozs transzformcik
Normalizls, diszkretizls
Transzformci Dimenzicskkents
Adatmrnksg
Jegykivlaszts
Konvergencia
Futtats
Konfidencia
1. annotls
2. kivonatols
3. logikai tudsreprezentci
[1] A. Szalay, G. Bell, and T. Hey, Beyond the data deluge. Science, 323(5919):12971298,
2009.
[2] T. Berners-Lee and J. Hendler, Publishing on the semantic web. Nature, 410:1023
1024, 2001.
[3] T. Berners-Lee, J. Hendler, and O. Lassila, The semantic web. Scientific American,
May:2937, 2001.
[4] P. Bourne, Will a biological database be different from a biological journal? Plos
Computational Biology, 1(3):179181, 2005.
[5] S. Brohee, R. Barriot, and Y. Moreau, Biological knowledge bases using wikis:
combining the flexibility of wikis with the structure of databases. Bioinformatics,
26(17):22102211, 2010.
[6] Y. Cai, M. L. Wilson, and J. Peccoud, Genocad for igem: a grammatical approach
to the design of standard-compliant constructs. Nucleic Acids Res., 38(8):263744,
2010.
[7] V. G. Cheung and R. S. Spielman, Genetics of human gene expression: mapping dna
variants that influence gene expression. Nat. Rev. Genet., 10(9):595604, 2009.
[8] The Gene Ontology Consortium, Gene ontology: tool for the unification of biology.
Nature Genetics, pages 2529, 2000.
[9] A. Darvasi, Genomics: Gene expression meets genetics. Nature, 20(422(6929)):269
70, 2003.
[10] S. Decker, P. Mitra, and Sergey Melnik, Framework for the semantic web: an rdf
tutorial. IEEE Internet Computing, 410:6873, Nov.-Dec. 2000.
[11] E. T. Dermitzakis, From gene expression to disease risk. Nat. Genet., 40(5):4923,
2008.
[12] Ron Edgar, Michael Domrachev, and Alex E. Lash, Gene expression omnibus: Nc-
bi gene expression and hybridization array data repository. Nucleic Acid Research,
30(1):207210, 2002.
[15] P. Fu, A perspective of synthetic biology: assembling building blocks for novel func-
tions. Biotechnol J., 1(6):6909, 2006.
[17] E. Garfield, Essays of an Information Scientist, chapter Towards the World Brain.
ISI Press, Cambridge, MA, 1977.
[18] Eugene Garfield, From the world brain to the informatorium. Information Services &
Use, 19:99105, 1999.
[19] M. Gerstein, E-publishing on the web: Promises, pitfalls, and payoffs for bioinforma-
tics. Bioinformatics, 15(6):429431, 1999.
[20] M. Gerstein and J. Junker, Blurring the boundaries between scientific papers and
biological databases, 2001. Nature (web debate, on-line 7 May 2001).
[21] M. Gerstein, M. Seringhaus, and S. Fields, Structured digital abstract makes text
mining easy. Nature, 447(7141):142142, 2007.
[22] David Heckerman, The Fourth Paradigm in Practice. Creative Commons, 2012.
[23] Tony Hey, The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Re-
search, 2009.
[24] J. Huang et al., Minimum information about a genotyping experiment (migen). Stan-
dards in Genomic Sciences, 5(2):224229, 2011.
[25] A. Janssens et al., Strengthening the reporting of genetic risk prediction studies: The
grips statement. Genetics in Medicine, 13(5):453456, 2011.
[26] R. Joober, The 1000 genomes project: deep genomic sequencing waiting for deep
psychiatric phenotyping. J Psychiatry Neurosci, 36(3):1479, 2011.
[27] L. Z. Karvalics, Information Society Policies, Chapter Science at the crossroads, pages
6473. A. Rab UNESCO IFAP, 2011.
[28] Douglas Lenat and R. V. Guha, Building Large Knowledge-Based Systems: Repres-
entation and Inference in the Cyc Project. Addison-Wesley, 1990.
[29] J. Little et al., Strengthening the reporting of genetic association studies (strega): an
extension of the strobe statement. Human Genetics, 125(9):131151, 20091.
[30] B. Maher, Personal genomes: The case of the missing heritability. Nature,
456(7218):1821, 2008.
[31] O. Nachtomy, A. Shavit, and Z. Yakhini, Gene expression and the concept of the
phenotype. Stud. Hist. Phil. Biol. & Biomed. Sci., 38:238254, 2007.
[32] S. J. Nelson, T. Powell, and B. L. Humphreys, The unified medical language system
(umls) project, 2001. http://www.nlm.nih.gov.
[33] H. Pearson, The future of the electronic scientific literature. Nature, 413:13, 2001.
[34] P. N. Robinson and S. Mundlos, The human phenotype ontology. Clin Genet, 77:525
534, 2010.
[35] G. Rokke, E. Korvald, J. Pahr, O. Oyas, and R Lale, Biobrick assembly standards
and techniques and associated software tools. Methods Mol Biol., 1116:124, 2014.
[36] H. Rzepa and P. Murray-Rust, A new publishing paradigm: Stm articles as part of
the semantic web. Learned Publishing, 14(3):177182, 2001.
[39] M. Seringhaus and M. Gerstein, Manually structured digital abstracts: A scaffold for
automatic text mining. Febs Letters, 582(8):11701170, 2008.
[40] N. Shadbolt, What does the science in e-science, IEEE Intelligent Systems,
17(May/June):23, 2002.
[41] D. Shotton, Semantic publishing: the coming revolution in scientific journal publish-
ing. Learned Publishing, 22(2):8594, 2009.
[43] T. Slater, Recent advances in modeling languages for pathway maps and computable
biological networks. Drug Discov Today, 19(2):193198, 2014.
[44] Vanessa Speding, Xml to take science by storm. Scientific Computing World, Supp-
lement (Autumn):1518, 2001.
Bioinformatikai
munkafolyamat-rendszerek
esettanulmny
Analzis llapotnak lekrse. Mivel a teljes analzis lefutsa akr tbb napig is tart-
hat, illetve a vals szmtsok megkezdst ms fut analzisek is ksleltethetik,
fontos, hogy a felhasznl az elrehaladottsg llapott igny szerint monitorozni
tudja.
Az egyes jobok kztt lehetsg van egy elsbbsgi sorrend (precedencia) meghat-
rozsra, amely segtsgvel biztosthat, hogy a ms jobok kimenett felhasznl
feladatok (pl. az eredmnyek aggreglst vgz program) csak akkor fussanak le,
amikor mr az sszes ltaluk ignyelt bemeneti llomny ltrejtt.
(1) A legtbb magasabb szint teszt s eljrs az adat s/vagy a modell valamilyen
talaktst is ignyli ; ha van elrva ilyen, akkor megtrtnik a segd adat- s mo-
dellfjlok ellltsa.
Az sszes fenti futtats egy HTCondor dagman lerban lesz sszefogva, amelynek
segtsgvel a teljes halmaz futtatsa egyetlen job feltltsvel elindthat.
A fenti lpsek sorn egy fontos krds mg, hogy mely MCMC-paramterezsek te-
kinthetk ekvivalensnek. Alaprtelmezs szerint csak azok, amelyek minden paramtere
pontosan egyezik, adott esetben azonban lehetsg van bizonyos paramterek kiaggreg-
lsra. Egy (vagy tbb) paramter kiaggreglsa egyszeren annyit jelent, hogy azokat
az MCMC-futsokat, amelyek paramterezse csak a vonatkoz paramter(ek)ben trnek
el egymstl, ekvivalenseknek tekintjk, s a szmtand statisztikkat ezek halmaza felett
rtkeljk ki.
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 251
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 252
PPh2 PPh2
PPh2 PPh2
a legkisebb szmmal jelzett szubsztituens a papr skja alatt helyezkedjen el. Ekkor a
msik hrom szubsztituens vagy az ra jrsnak megfelel, vagy azzal ellenttes mdon
szmozdik. A pontos szably megtallhat brmely szerves kmia tanknyvben vagy az
IUPAC vonatkoz ajnlsban [1, 2].
Vannak a kiralitsnak specilisabb esetei, gymint az axilis kiralits (lsd a 19.1. s
19.2. brt). Vegyletek egy csoportja, a helicnek, melyek sszekapcsolt aroms gy-
rkbl llnak, hromdimenzis spirlt alkotnak. A helicnekben nem tallhat kiralits-
centrum, mgis kt formjuk ltezik: egy az ramutat jrsnak megfelel s egy azzal
ellenttes csavarmenettel.
Biolgiai rendszerekben az eltr sztereoizomereknek jelentsen eltr hatsuk lehet,
mivel a molekulris clpont s a hatanyag geometriai illeszkedse elengedhetetlen. Egy
kiroszelektv rendszerben az illeszkedsi pontok minimlis szma hrom. Tovbbi felttel,
hogy ezen interakcik hozzjrulsa a ktsi energihoz kzel azonos legyen, ellenkez eset-
ben kevesebb, mint hrom interakci dominlja a ktdst, s az izomerek affinitsban
csak csekly klnbsg lp fel. Pldul a talidomid nev szedatv szer (S ) sztereoizomere
teratogn. Ezt a szert eredetileg terhes anyk reggeli rosszullteinek kezelsre fejlesztet-
tk s Contergan mrkanven volt forgalomban. A talidomid j plda egy msik jelensgre
is, melyet racemizcinak neveznk: vannak vegyletek, melyek izomerjei talakulhatnak
egymsba biolgiai rendszerekben jelen lv enzimek segtsgvel. Ebbl kvetkezen a
tiszta (R)-talidomid szintn teratogn tulajdonsgokat mutat. Ahogy mg a fejezet ksb-
bi rszben ltni fogjuk, mg ez a veszlyes vegylet is hasznlhat szmos j indikciban,
ahol a terhessg kizrhat.
Egy molekula adott clpontra mutatott affinitsa egy disszocicis llandval definil-
hat, melyet ltalban Kd jell. Adott az albbi reakci:
T + L T L,
ahol T a ligandum mentes clpontot, L a szabad ligandumot s TL a komplexet jelli. Kd
dimenzija molris koncentrci, s defincija
[T ][L]
Kd = ,
[T L]
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 253
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 254
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 255
LLE = G logP ;
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 256
G = H T S,
19.4. Mdszerek
Ha a molekulris clpont ismert, az aktv modultorok keresst a szerkezetre vonatko-
z informcik segtsgvel vgezhetjk, esetlegesen ismerve az ismert modultorokkal
mind endogn, mind exogn trtn klcsnhatsokat. Azokat a mdszereket, melyek
felttelezik, hogy a clpont szerkezete ismert, szerkezet alap mdszereknek nevezzk. A
mdszerek msik csoportja az n. ligandum alap mdszerek csak az ismert aktv
vegyletek struktrjra pt s olyan modellek ptst clozza, melyekkel azonosthatk
a kzs strukturlis jegyek vagy a szerkezethats sszefggsek.
A clpontligandum klcsnhats legegyszerbb modellje a kulcs-zr modell. Ebben
felttelezzk, hogy a clpont rendelkezik egy specifikus, relatve merev felszn rgival
a kthellyel s a ligandum valamely konformcija tkletesen beleillik ebbe a zseb-
be. A geometria mellett ms tulajdonsgok egyezsre is szksg van, amit a tltsek, a
hidrognktsek s hidrofb helyek hatroznak meg (lsd a 19.3. brt). A klcsnhats
egy sszetettebb modellje az induklt illeszkeds modellje. Ebben nem csak a ligandumot
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 257
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 258
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 259
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 260
kis klcsnhatsok detektlsa, amik felhasznlhatk egy nagy affinits jellt fragmen-
sekbl trtn felptsre. Ez a nagy rzkenysget kvetel meg, mely arra kszteti a
vegyszeket, hogy nagy informci tartalm ksrleti mdszereket, pldul NMR spekt-
roszkpit alkalmazzanak in silico mdszerek helyett. Ez a mdszer ksrletektl val
fggsghez vezet, habr jabban egyre tbben tesznek ksrletet fragmensek azonost-
sra szmtsos mdszerekkel is. Egy erre alkalmas mdszer lehet a dokkols [11]. Az
affinits meghatrozsra hasznlt mdszer legyen br ksrleti vagy in silico struk-
turlis informcikkal szolglhat a gyenge klcsnhatsokrl, lehetv tve, hogy olyan
egymssal nem tfed fragmensekbl, melyek kzeli kthelyeken ktdnek, ligandumot
ptsnk fel. Egy megfelel in silico eljrs lehet erre a dokkols. Ha a nem tfed frag-
menseket azonostottuk, megfelel linkerek tervezhetk kzjk. tfed fragmensek esetn
sszeolvasztsos stratgia hasznlhat. Ez a fajta oszd meg s uralkodj stratgia nagy
kmiai tr bejrst teszi lehetv exponencilis mrtk erforrs-megtakarts mellett.
Egy minden lehetsges gygyszerszer vegyletet reprezentl halmazzal trtn szrs
lehetetlen a kmiai tr mretei miatt, de a kis mret fragmensek terben ez egy realiszti-
kus cl lehet. A molekulris clpont karakterizlhat egy fragmens-szrs segtsgvel, gy
a clpont gygyszerelhetsge megbecslhet. A fragmens alap megkzelts segteni
tudja a vezrmolekula-optimalizls fzist is, mivel a fragmenseket valamely ligandum-
hatkonysg alap kritrium segtsgvel vlaszthatjuk ki, teht a molekulatmeg s a
lipofilicits kontrolllhat.
19.6. Gygyszer-jrapozicionls
A gygyszer-jrapozicionls (drug repositioning) egy kifejezs, arra a gyakorlatra utal
mikor egy mr elfogadott hatanyagot jrahasznlunk egy j terpis indikciban. Ez
a koncepci npszersgt annak ksznheti, hogy kltsghatkony: a biztonsgossgi s
toxicitsvizsglatok mr egyszer lezajlottak, s az eredmnyeik vagy azok egy rsze
jra felhasznlhat. Az jrapozicionls kontextusban sokkal gazdagabb informcifor-
rsok llnak rendelkezsre, gymint mr ismert mellkhatsok, indikcik, mr ismert
molekulris clpontok s hasonlk. A gygyszerkutats trtnetben szmos vletlenszer
jrapozicionls trtnt. Egy jl ismert plda a sildenafil esete, melyet eredetileg kardiol-
giai indikcikra fejlesztettek ki (angina pectoris, magas vrnyoms) majd ksbb Viagra
mrkanven kerlt forgalomba mint erektilis diszfunkci kezelsre szolgl gygyszer. A
kt indikci kzs tulajdonsgt a gygyszer rtgt hatsa clozza meg, melyet annak
egy foszfodiszterz altpuson a PDE5-n mutatott gtl hatsa kzvett.
A gygyszer-jrapozicionls hatkony eszkze a ritka betegsgek elleni gygyszerfej-
lesztsnek is. A ritka betegsg s a hozz trsul orphan drug szmos orszgban jogi
kategria, intuitven gy definilhat, mint egy olyan betegsg (s a kezelsre szolgl
gygyszer), mely olyan ritka, hogy a gygyszerfejleszts klasszikus megkzeltsei nehezen
kivitelezhetk s nagyon gazdasgtalanok. Pldul a korbban emltett teratogn gygy-
szer, a talidomid jrapozicionlhat nhny lepra-tpus s daganatos megbetegeds ellen,
tovbb immunszupresszns tulajdonsgokkal is rendelkezik. Nincs les hatr az orphan
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 261
drug koncepci s a valdi szemlyre szabott medicina kztt, mivel szmos ritka be-
tegsget ritka genetikai mutcik okoznak, s extrm esetben a betegsg kezelse ersen
betegspecifikus kell, hogy legyen.
A gygyszer-jrapozicionls kontextusban az adatfzis technikk (melyeket a He-
terogn biolgiai adatok fzis elemzse cm fejezetben trgyalunk) klnsen haszno-
sak lehetnek [12]. Szmos klnbz tpus informciforrssal rendelkeznk, gymint a
kmiai szerkezet, a mellkhatsok, genetikai faktorok, a molekulris clpontok, rintett
biokmiai tvonalak stb. A hasonlsg alap megkzelts kiterjeszthet ezekre az adat-
forrsokra is. Igen gazdag adatbzis pldul szmos fenotpusos informci nyerhet
korbbi vizsglatokbl s a posztmarketing informcikbl. A fenotpus a fogalom tradi-
cionlis rtelmezsben statikus tulajdonsg, az organizmus egy megfigyelhet jellegze-
tessge. Gygyszerhatanyagok esetn a kmiailag gerjesztett biolgiai rendszer nhny
tulajdonsgt vizsgljuk, mint a biokmiai vltozsokat, hatsokat, mellkhatsokat. A
mellkhats alap hasonlsgi mrtket pldul Campillos s munkatrsai javasoltk 2008-
ban [13]. A hipotzis az albbi volt: ha kt gygyszernek szmos mellkhatsa kzs, felte-
heten van kzs molekulris clpontjuk, vagy legalbb vannak olyan clpontjaik, melyek
egyazon biokmiai tvonalon helyezkednek el.
A gygyszer-jrapozicionls terletn elrhet informcik gazdagsga idelis hatr-
terlett teheti azt a gygyszerkmia, biolgia s a big data kutatsok szmra.
Arany dm www.interkonyv.hu
Irodalomjegyzk
[2] International Union of Pure and Applied Chemistry. Commission on the Nomenc-
lature of Organic Chemistry, R. Panico, W. H. Powell, and J. C. Richer, A Guide
to IUPAC Nomenclature of Organic Compounds: Recommendations 1993. IUPAC
chemical data series. Blackwell Scientific Publications, 1993.
[3] Kenneth A. Krohn and Jeanne M. Link, Interpreting enzyme and receptor kinetics:
keeping it simple, but not too simple. Nuclear Medicine and Biology, 30(8):819826,
2003. Workshop on Receptor-Binding Radiotracers 2003.
[4] Christopher A. Lipinski, Franco Lombardo, Beryl W. Dominy, and Paul J. Feeney,
Experimental and computational approaches to estimate solubility and permeability
in drug discovery and development settings. Advanced Drug Delivery Reviews, 23(1
3):325, 1997.
[5] Miles Congreve, Robin Carr, Chris Murray, and Harren Jhoti, A Rule of Three for
fragment-based lead discovery? Drug Discovery Today, 8(19):876877, 2003.
[6] Guruprasad P. Aithal, Christopher P. Day, Patrick J. L. Kesteven, and Ann K. Daly,
Association of polymorphisms in the cytochrome P450 CYP2C9 with warfarin dose
requirement and risk of bleeding complications. The Lancet, 353(9154):717719, 1999.
[8] Gyrgy G. Ferenczy and Gyrgy M. Keser, Thermodynamics guided lead discovery
and optimization. Drug Discovery Today, 15(2122):919932, 2010.
[9] Adam J. Ruben, Yoshiaki Kiso, and Ernesto Freire, Overcoming roadblocks in le-
ad optimization: A thermodynamic perspective. Chemical Biology & Drug Design,
67(1):24, 2006.
Arany dm www.interkonyv.hu
19. A gygyszeripari kutats informatikai aspektusai 263
[11] Huameng Li and Chenglong Li, Multiple ligand simultaneous docking: Orchestrated
dancing of ligands in binding sites of protein. Journal of Computational Chemistry,
31(10):20142011, 2010.
[12] A. Arany, B. Bolgar, B. Balogh, P. Antal, and P. Matyus, Multi-aspect candidates for
repositioning: Data fusion methods using heterogeneous information sources. Current
Medicinal Chemistry, 20(1):95107, 2013-01-01T00:00:00.
[13] Monica Campillos, Michael Kuhn, Anne-Claude Gavin, Lars Juhl Jensen, and Peer
Bork, Drug target identification using side-effect similarity. Science, 321(5886):263
266, 2008.
Arany dm www.interkonyv.hu
20. fejezet
Metagenomika
20.1. Bevezets
A mikrobk mindentt ott vannak. Az 5 1030 -ra becslt bakterilis s archaea sejt (az-
az a prokaritk) az alapvet tpanyagok (szn, nitrogn, foszfor) legnagyobb raktrai
a Fldn, s egyes becslsek szerint a biomassza legnagyobb rszt is ezek alkotjk [1].
Bolygnkon rengeteg olyan extrm krnyezet tallhat, ahol csak a prokaritk kpesek
a tllsre, legyen az rendkvl meleg, hideg, savas vagy ss hely. Lteznek mikrobk,
amelyek kpesek a termszetben elfordul toxinok vagy az emberi tevkenysgek mel-
lktermkeknt keletkez mestersges toxinok (pl. olajfoltok) lebontsra. Br tbbnyire
szabad szemmel nem lthatk, a mikrobk valjban ltfontossgak a Fldn l min-
den letforma, kztk az ember szmra is [2]. A mikrobk alaktjk vissza az lettelen
anyagot abba a formba, amelyet mr minden ms llny kzvetlenl fel tud hasznlni.
Majdnem minden tbbsejt eukarita llny szoros szimbizisban l olyan mikrobilis
kzssgekkel, amelyek ltfontossg tpanyagokat s vitaminokat lltanak el a gazda-
szervezet szmra. Az emsztrendszernkben s sznkban l mikroorganizmusok teszik
lehetv, hogy kinyerjk az energit azokbl az telekbl, amelyek egybknt emszthetet-
lenek lennnek. A bennnk s rajtunk l komplex mikrobilis kzssgek aktvan rszt
vesznek a betegsget okoz gensek elleni vdelemben. Valjban az emberi test egyfaj-
ta szuperorganizmusnak is tekinthet, hiszen a sajt kb. 1013 darab sejtnknl mintegy
10-szer tbb, 1014 baktrium l a szervezetnkben [1, 2].
Az 1995-ben vgzett els bakterilis teljes genom projekt ta [3] a mai napig ezernl
is tbb baktrium genomi szekvencija vlt ismertt. Ezek a vizsglatok s az ltaluk
szerzett nagy mennyisg adat s tuds nagyban elsegtettk a komparatv genomika s
a rendszerbiolgia tudomnynak fejldst. Mindazonltal az gy szerzett hatalmas
mennyisg adat s tuds ellenre az egyetlen organizmuson vgzett kutatsoknak szk-
sgszer korltai vannak: Elszr is, annak rdekben, hogy egy mikroba teljes genomjt
meg lehessen szekvenlni, a jelenlegi technolgiai elvrsok szerint az adott organizmust
elszr ki kell tenyszteni. Ez pedig nagyon ritkn sikerl, ugyanis a termszetben l
mikrbknak csak nagyon kis szzalkt lehet laboratriumi krlmnyek kztt felszapo-
rtani. Msodszor, a mikrbk rendszerint bonyolult kzssgekben lnek, amelyekben az
egyes fajok klcsnhatsban llnak egymssal s a krnyezetkkel. Emiatt a kitenysztett
organizmusok vizsglata nem kpes vals kpet nyjtani az egyes llnyek klcsnhat-
sairl, a funkcionlis kpessgeirl vagy a populciban megfigyelhet genomi vltozatos-
sgrl.
Az j genercis szekvenlsi technolgik megjelense nagyban megknnytette a
mikrbk vizsglatt a fent emltett korltozsok kikszblsvel. A krnyezeti minta-
vtelezs lehetv teszi, hogy kzvetlenl a mikrobilis kzssgek termszetes lhelyrl
szerezzk be a genomi informcit. Nhny faj egyedenknti vizsglata helyett az j tech-
nolgia kpess tesz minket arra, hogy a kzssget mint egszt vizsgljuk. Ezek nyomn
j tudomnyg szletett: a metagenomika a kzvetlenl a krnyezetbl szrmaz genomi
szekvencik (azaz a metagenom) vizsglata.
Mindazonltal a krnyezeti szekvenlsnak is megvannak a maga korltai. Egy egyedi
organizmust vizsgl genom projekt sorn majdnem teljes kpet kaphatunk a mikroba ge-
nomjrl: a rvid genomi szekvencik sszeilleszthetk, annotlhatk, a gnek s operonok
helye kikvetkeztethet. Ezzel szemben a krnyezeti mintavtelezs nem ilyen egyszer.
Minden egyes szekvenciatredk klnbz fajhoz tartoz llnyekbl is szrmazhat, s
sok klnbz faj is elfordulhat a mintban. Emiatt a teljes genomok sszeillesztse csak
specilis krnyezetek esetn lehetsges, amelyben pldul egyetlen faj dominlja a mintt,
s mg ebben az esetben is csak a dominns faj genomja hatrozhat meg. A term-
szetben elfordul krnyezetek legnagyobb rszben rengeteg klnbz faj tallhat, gy
a genomok sszeillesztse nem lehetsges. Ezekben az esetekben a rvid szekvencikbl
sszeillesztett kontigok mrete ltalban nem haladja meg az 5000 bzisprt. Kvetkezs-
kppen a szekvencik annotcija csak rszben lehetsges, gy mindssze vzlatos kpet
kaphatunk a mikrobilis kzssg felptsrl.
Ebben a fejezetben ttekintjk a metagenomok elemzsnek f megkzeltseit, majd
vgigkvetjk egy tipikus metagenomikai projekt munkafolyamatt.
hiba csszhat a nyitott leolvassi keretek tredkes volta miatt vagy a motvumkeres
algoritmusok s a tudsunk hinyossgai miatt [1].
A kzssg funkcionlis kpessgeinek meghatrozsa mellett a vletlen shotgun-szek-
venls akr tbb informcit is tud nyjtani a kzssg diverzitsval, taxonmiai ssze-
ttelvel kapcsolatban, mint a marker gneken alapul mdszerek, ugyanis ezt nem kor-
ltozzk a primer szekvencik hasznlatval sszefgg problmk. Ebbl ereden ezen
mdszerrel kpesek vagyunk bakteriofgok s egyb vrusok azonostsra is a prokari-
tk s eukaritk mellett. St, j fajok detektlsra is, amelyeket a nem tlsgosan
univerzlis primerek hasznlatval nem talltunk volna meg.
20.3.1. Mintavtelezs
Mintamret-megfontolsok a fajok diverzitsnak tkrben
Egy metagenomikai projekt a krnyezetbl val mintavtelezssel kezddik. A f krds
ezzel kapcsolatban az, hogy honnan tudjuk, hogy elegend mintt gyjtttnk, ha nem
ltjuk azokat az organizmusokat, amelyeket ssze szeretnnk gyjteni?
Emellett vajon hny szekvencia lesz elg? Ez egyrszt a bakterilis kzssg struktr-
jn (biodiverzitsn), msrszt pedig a vizsglatunk cljtl fgg. A tovbbiakban ezeket
a szempontokat fogjuk rszletezni.
A kzssg struktrjnak komplexitsa az azt alkot klnbz fajok szmtl (rich-
ness, gazdagsg) s azok relatv gyakorisgtl (evenness, egyenletessg) fgg. A legtbb,
termszetben elfordul krnyezetben a fajok relatv gyakorisga nem egyenletes. A leg-
egyszerbb mdszer ennek az egyenetlensgnek az brzolsra az n. rang-gyakorisg
grbe, amelyben minden egyes taxonmiai egysget egy a gyakorisgval arnyos nagy-
sg oszlop reprezentl a leggyakoribb fajtl a legritkbbig (lsd az 20.1. brt). Egy
kiegyenslyozott populciban a rang-gyakorisg grbe egyenletes lenne.
Hogyan kapcsoldik mindez a szekvenlshoz? Ha egy szekvenlsi platform kpes
lenne egyetlen sejt teljes genomjnak a pontos szekvenlsra, akkor sejtenknt egyetlen
szekvencia elegend lenne ahhoz, hogy meglehetsen j kpet kapjunk egy egyetlen fajhoz
tartoz egyetlen egyedrl. Ugyanakkor a jelenlegi technikai felttelek mindssze 50700
bzispr hosszsg leolvassokat engednek meg, s a rvid fragmenseket a leolvassokban
szerepl tfed rszek alapjn kell sszerakni. Az egy nukleotidra jut tlagos leolvassok
szmt lefedettsgnek nevezzk. Ttelezzk fel, hogy a krnyezetben tallhat dominns
faj genomjnak mrete 3 Mbp (pl. a S. pneumoniae genomjnak mrete kb. 2.2 Mbp),
a relatv gyakorisga a populciban legyen 10%. Tegyk fel, hogy a szekvenls sorn
700 Mbp-nyi szekvencit olvastunk le (egy futs sorn a Roche GS FLX Titanium XL+
rendszernek tipikus teljestmnye). Ebben az esetben a dominns fajt krlbell 70 Mbp
Egyedek szma
1000
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Eloszls rangja
Metaadatok
A krnyezeti mintavtelezs mellett a metaadatok pontos rgztse elengedhetetlen: hol,
mikor s milyen krlmnyek kztt vettk a mintkat. A metaadatok kre krnyeze-
tenknt vltoz: egy talajbl vagy termszetes vzbl szrmaz minta esetn szksges
rgzteni biokmiai adatokat (pl. pH-rtk, oxigntartalom stb.), fldrajzi adatokat (pl.
GPS-koordintk), a mintk kezelsre vonatkoz adatokat (dtum s idpont, DNS-
kivonatolsi eljrs stb.). Emberi mikrobilis mrsek esetn fontos rgzteni az orvo-
si, kezelsre vonatkoz adatokat (patolgia, krtrtnet stb.); a mintakezelsre vonatkoz
adatokat (mintavtelezsi dtum s idpont, a pontos hely s szvet, ahonnan a minta
szrmazik stb.) [9, 1, 2].
20.3.2. Szekvenls
Az j genercis szekvenlsi platformok (next generation sequencing, NGS) megjelense
nagyban lecskkentette a krnyezeti mintkbl szrmaz DNS szekvenlsnak kltsgeit
s idejt a korbbi technolgikhoz kpest. Mindazonltal a Sanger-szekvenls a hossz
leolvassi hossz (>700 bp) s az alacsony szekvenlsi hibaarny miatt tovbbra is alter-
natvt jelenhet [10].
Kt NGS technolgit hasznltak eddig jellemzen metagenomikai kutatsokban: a
454/Roche s az Illumina/Solexa platformokat, amelyek kzl most rviden bemutatjuk
a Roche technolgijt. A GS FLX+ rendszer egy futsa sorn a munkafolyamat hrom
f lpsbl ll: a DNS-knyvtr elksztse, emulzis PCR s a szekvenls. A DNS-
knyvtr elksztse sorn rvid, univerzlis adaptereket adnak hozz a vletlenszeren
feldarabolt DNS fragmensek mindkt vghez. Ezeket az adaptorokat a tovbbi amplifik-
cis s szekvenlsi lpsek sorn hasznljk. A DNS darabkkat ezutn mikroszkopikus
gyngykhz kapcsoljk, s belentik egy vz-az-olajban emulzis keverkbe (egy fragmens
egy gyngyn, egy vzcseppben). Az emulzis PCR sorn a gyngyn tallhat egyetlen
templt DNS molekult felsokszorozzk, mg vgl nhny milli msolata fog a gyngyhz
kapcsoldni. A gyngyket egy specilis plate (PicoTiterPlateTM , PTP) apr regeibe tl-
tik a piroszekvenlsi reakcihoz szksges enzimekkel egytt. A szekvenlsi lps sorn
nukleotidokat ramoltatnak keresztl a PTP-en egymst kvet turnusokban, s a templt
szlakkal komplementer nukleotidok beplnek DNS polimerz kzremkdsvel, ami a
beplt nukleotidok szmval arnyos erssg fnykibocstssal jr. A kibocstott foto-
nokat egy CCD kamera rgzti s konvertlja bzissorrendd [11]. Ez a folyamat masszvan
prhuzamosan trtnik, amely 1 milli leolvasst (rvid szekvencit) eredmnyez fut-
sonknt. Kevesebb mint egy nap alatt sszesen 700 Mbp hosszsg szekvencia keletkezik;
a leolvassok hossznak medinja krlbell 700 bzispr [12]. Multiplexels hasznlatval
pedig egyetlen futs sorn akr 132 minta szekvenlsra is lehetsg van.
20.3.3. Genomsszeraks
A genomsszeraks folyamata sorn a leolvassokat sszeillesztjk az tfed rszszekvenci-
k alapjn nagyobb, sszefgg DNS szakaszokk, n. kontigokk. A kontig konszenzusos
szekvencijt ezutn ltalban az adott pozciban leggyakoribb nukleotid alapjn lltjuk
el.
Egyetlen organizmus teljes genomjnak sszeraksa is problms lehet a genomjban
szerepl repetitv rgik miatt. Ugyanakkor a metagenom sszeraksa ltalban mg bo-
nyolultabb. A szekvencik klnbz organizmusokbl szrmaznak, s ezen szekvencik
sszeillesztse tves eredmnyre, n. kimrk keletkezshez vezet. Ez a jelensg mg
gyakrabban fordul el kzeli rokonsgban ll organizmusok esetn. A szekvenlsi er-
fesztseinktl fggen az alacsony gyakorisg fajokrl esetleg csak nhny szekvencit
sikerl leolvasni, ami elmletileg is lehetetlenn teszi a genomjuk sszerakst.
Ezekbl kvetkezen egy tipikus metagenomikai vizsglatban az sszeillesztett kontigok
mrete ltalban nem haladja meg a nhny ezer bzisprt. Ennek slyos kvetkezm-
nyei vannak a tovbbi elemzsi lpsek szempontjbl, ugyanis ez a mrettartomny csak
20.3.4. Besorols
A megagenom sszeraksa sorn egybefgg kontigokat s egyedli (singleton) leolvas-
sokat kapunk eredmnyl. Azt a folyamatot, amikor ezeket sszerendeljk azokkal az
organizmusokkal (vagy magasabb taxonmiai egysgekkel), amelyekbl szrmaznak, beso-
rolsnak (binning) nevezzk. Ebben az alfejezetben kt besorolsi eljrst mutatunk be:
a szekvencia alap s a tartalom alap besorolst.
[1] John C. Wooley, Adam Godzik, and Iddo Friedberg, A primer on metagenomics. PLoS
Computational Biology, 6(2), February 2010. PMID: 20195499 PMCID: PMC2829047.
[2] George M. Weinstock, Genomic approaches to studying the human microbiota. Na-
ture, 489(7415):250256, September 2012. PMID: 22972298.
[4] Peter J. Turnbaugh, Micah Hamady, Tanya Yatsunenko, Brandi L. Cantarel, Alexis
Duncan, Ruth E. Ley, Mitchell L. Sogin, William J. Jones, Bruce A. Roe, Jason
P. Affourtit, Michael Egholm, Bernard Henrissat, Andrew C. Heath, Rob Knight,
and Jeffrey I. Gordon, A core gut microbiome in obese and lean twins. Nature,
457(7228):480484, January 2009.
[8] Rebecca J. Case, Yan Boucher, Ingela Dahllf, Carola Holmstrm, W. Ford Doolittle,
and Staffan Kjelleberg, Use of 16S rRNA and rpoB genes as molecular markers for
microbial ecology studies. Applied and environmental microbiology, 73(1):278288,
January 2007. PMID: 17071787.
[9] Victor Kunin, Alex Copeland, Alla Lapidus, Konstantinos Mavromatis, and Philip
Hugenholtz, A bioinformaticians guide to metagenomics. Microbiology and molecular
biology reviews: MMBR, 72(4):557578, December 2008. PMID: 19052320.
[10] Torsten Thomas, Jack Gilbert, and Folker Meyer, Metagenomics a guide from
sampling to data analysis. Microbial informatics and experimentation, 2(1):3, 2012.
[11] Michal Janitz, editor, Next-Generation Genome Sequencing: Towards Personalized
Medicine. Wiley-Blackwell, 1. ed., October 2008.
[12] Products GS FLX+ System: 454 Life Sciences, a Roche Company. http://454.
com/products/gs-flx-system/
[13] Mark J. Chaisson and Pavel A. Pevzner, Short read fragment assembly of bacterial
genomes. Genome research, 18(2):324330, February 2008. PMID: 18083777.
[14] Daniel R. Zerbino and Ewan Birney, Velvet: algorithms for de novo short read as-
sembly using de Bruijn graphs. Genome research, 18(5):821829, May 2008. PMID:
18349386.
[15] Toshiaki Namiki, Tsuyoshi Hachiya, Hideaki Tanaka, and Yasubumi Sakakibara,
MetaVelvet: an extension of Velvet assembler to de novo metagenome assemb-
ly from short sequence reads. Nucleic acids research, 40(20):e155, November 2012.
PMID:22821567.
[16] S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, Basic local
alignment search tool. Journal of molecular biology, 215(3):403410, October 1990.
PMID: 2231712.
[17] S. Karlin, J. Mrzek, and A. M. Campbell, Compositional biases of bacterial genomes
and evolutionary implications. Journal of bacteriology, 179(12):38993913, June 1997.
PMID 9190805.
[18] Hanno Teeling, Jost Waldmann, Thierry Lombardot, Margarete Bauer, and Frank
Oliver Glckner, TETRA: a web-service and a stand-alone program for the analysis
and comparison of tetranucleotide usage patterns in DNA sequences BMC bioinfor-
matics, 5:163, October 2004. PMID: 15507136.
[19] Hideki Noguchi, Jungho Park, and Toshihisa Takagi, MetaGene: prokaryotic ge-
ne finding from environmental genome shotgun sequences. Nucleic acids research,
34(19):56235630, 2006. PMID: 17028096.
[20] Minoru Kanehisa, Michihiro Araki, Susumu Goto, Masahiro Hattori, Mika Hiraka-
wa, Masumi Itoh, Toshiaki Katayama, Shuichi Kawashima, Shujiro Okuda, Toshiaki
Tokimatsu, and Yoshihiro Yamanishi, KEGG for linking genomes to life and the envi-
ronment. Nucleic acids research, 36(Database issue):D480484, January 2008. PMID:
18077471.