Professional Documents
Culture Documents
Coordonator tiinic:
Prof. univ. dr. Nicolae Tomai
Doctorand:
Gabriela Andreea Morar
Cuprins
Cuprins
1 Introducere
1.1 Motivatia cercetrii
1.2 Obiectivele cercetrii
1.3 Structura tezei
,
CUPRINS
2.6.3 Legea lui Amdahl
2.6.4 Evaluarea scalabilittii unui program
2.6.5 Msurarea timpilor
2.7 Concluzii
,
ii
CUPRINS
3.2.4.6.2 Platform-as-a-Service
3.2.4.6.3 Software-as-a-Service
3.2.5 Comparatia cluster, grid si cloud computing
3.3 Concluzii
,
iii
CUPRINS
5.2 Implementarea MapReduce de ctre Hadoop
5.2.1 Ce este Hadoop?
5.2.2 Componentele Hadoop
5.2.2.1 MapReduce
5.3 Topologia infrastructurii Hadoop
5.4 Avantajele si dezavantajele Hadoop
5.5 Platforma Eucalyptus pentru cloud privat
5.5.1 Componentele Eucalyptus
5.5.1.1 Node Controller
5.5.1.2 Cluster Controller
5.5.1.3 Storage Service (Walrus)
5.5.1.4 Cloud Controller
5.5.1.5 Modurile retea ale Eucalyptus
5.5.2 De ce s folosim Eucalyptus?
5.5.3 Cum s accesam sistemul
5.6 Concluzii
,
iv
CUPRINS
6.1.2.3
6.1.2.4
6.1.2.5
6.1.2.6
6.1.2.7
6.2 Concluzii
CUPRINS
8.3.3.2
8.3.3.3
9 Concluzii
9.1
9.2
9.3
9.4
Contributii
Stagiu de mobilitate
Diseminarea rezultatelor
Direc?ii ulterioare de cercetare
,
List de guri
List de tabele
Bibliograe
vi
Cuprins
Cuprins
Motivat, ia cercetrii . . . . . . . . . . . . . . . . . . . . . . . . . .
Obiectivele cercetrii
. . . . . . . . . . . . . . . . . . . . . . . . .
Structura tezei
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contribut, ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
Stagiu de mobilitate
24
Diseminarea rezultatelor
. . . . . . . . . . . . . . . . . . . . . . .
25
27
. . . . . . . . . . . . . . . . . . . . . . . . .
List de guri
29
Bibliograe
30
Abstract
n ultimele decenii numrul oamenilor de s, tiint, s, i al companiilor ce
se bazeaz pe sisteme de calcul distribuite pentru a rmne competitivi pe piat, a crescut semnicativ. Deoarece costurile operrii unor
super-computere proprii este crescut, nu toate companiile sau grupurile de cercetare s, i permit costurile generate de achizit, ia infrastructurii necesare rulrii propriilor aplicat, ii sau experimente. Astefel aces, tia
trebuie s apeleze la resurse provenite din surse externe. La nceput
clusterele si grid-urile au fost cele care au atras atent, ia mediului academic s, i al celui economic, ns acestea aveau anumite limitri. Noul
aprut cloud computing le promite acestora toate resursele necesare,
n orice moment pe baza unui model de tipul pltes, te doar att ct
consumi. Astfel dorindu-se accesarea acestuia ca s, i o simpla utilitate
precum: apa, electricitate, etc. ns, a avea infrastructura necesar
la ndemn nu este un lucru sucient n cazul tuturor, deaorece unii
ditre ei nu det, in mijloacele sau cunos, tiint, ele necesare pentru a prota
de avantajele noilor tehnologii.
n aceast lucrare ne propunem s artm modul n care sitemele distribuite pot folosite n mod ecient att de mediul economic ct
s, i de ctre cel academic cu scopul de a cres, te performant, a propriilor aplicat, ii s, i de as, i reduce costurile de execut, ie. n acest sens vom
prezenta dou paradigme ce i pot ajuta pe utilizatorii ce nu dispun de cunos, tiint, e avansate de programare paralel s s, i paralelizeze
aplicat, iile: uxuri de lucru(workows)s, i MapReduce [9].
De asemenea vom prezenta s, i dou studii de caz constnd n creare a
dou uxuri de lucru bazate pe aplicat, ii reale s, i testarea performant, ei
acestora n cazul rulrii lor pe resurse de tip cloud. Avnd n vedere
faptul c uxurile de lucru nu reprezint solut, ia ideal n cazul tuturor utilizatorilor, am realizat s, i un studiu privind ecient, a folosirii
paradigmei MapReduce.
Cuvinte cheie:
Documentul de fat, cont, ine un scurt rezumat al tezei de doctorat avnd titlul:
"Utilizarea resurselor de calcul distribuite pentru o execut, ie ecient a aplicat, iilor
de business complexe". Acest rezumat este menit s ofere o viziune de ansamblu
asupra principalelor realizri obt, inute pe perioada studiilor doctorale.
1 Motivatia cercetrii
,
m zilele noastre a rmne competitive pe piat, este una din principalele probleme
cu care au de a face companiile. n anumite situat, ii acest lucru poate nsemna
reducerea costurilor s, i cheltuielilor generate de procesare unor cantitt, i mari de
date.
Nu doar mediul de product, ie ci s, i oamenii de s, tiint, se confrunt cu probleme
similare. Aces, tia trebuie sa optimizeze timpul de execut, ie s, i costurile generate
de experimentele s, i simulrile lor, deoarece au de a face, mai mereu, cu bugete
limitate s, i termene limit.
n decursul ultimelor decenii, progresul nregistrat de ctre tehnologia de calcul a contribuit semnicativ la accelerarea progresului s, tiint, ic prin reducerea
timpului de execut, ie al aplicat, iilor s, tiint, ice s, i de afaceri [17]. Anumite domenii
de cercetare necesit o putere de calcul ridicat pentru a rula anumite experimente s, i pentru a valida anumite ipoteze de cercetare. Astfel, oamenii de s, tiint,
trebuie s poat refolosi anumite programe software s, i s poat varia cu us, urint,
parametrii de start sau ipotezele pe care se bazeaz experimentele lor.
n cazul rulrii experimentelor s, tiint, ice putem identica dou probleme principale ce ar putea genera un es, ec:
1. Rezumatul Tezei
Acest lucru este s, i mai dicil n momentul n care trebuie s t, inem cont de resurse limitate, precum timpul s, i costurile nanciare.
n ultimii ani s, i-au fcut aparit, ia cteva tehnologi menite s le dea oemenilor
de s, tiint, o mn de ajutor n ceea ce prives, te maximizarea folosirii resurselor de
calcul pe care le det, in. n primul rnd t, inem s ment, ionm paradigma uxurilor
de lucru s, i multitudinea de Sisteme de Management a Fluxurilor de Lucru ce au
fost implementate cu scopul de a us, ura maparea execut, iei aplicat, iilor s, tiint, ice
complexe pe resurse distribuite.
aplicat, iilor ce necesit o putere de calcul ridicat pentru as, i ncheia execut, ia ntro limit de timp rezonabil.
folosit pentru mbuntt, irea timpilor de execut, i pentru aplicat, iile ce proceseaz
cantitt, i mari de date.
piat, ne-am ndreptat atent, ia asupra variantei oferite de ctre proiectul Hadoop.
Des, i sistemele ditribuite apar ca s, i o solut, ie evident atunci cnd vine vorba
de imbuntt, irea timpilor de execut, ie a aplicat, iilor, acestea nu sunt us, or de gestionat s, i implementarea unor aplicat, ii care s ruleze pe ele este o provocare.
Complexitatea s, i eterogenitatea acestor sisteme poate duce la aparit, ia unei serii
de probleme. n cadrul acestor sisteme es, ecuri pot aprea n orice moment, n
special atunci cnd acestea sunt compuse dintr-un numr mare de resurse eterogene legate ntre ele.
[14].
Pe baza acestor
1. Rezumatul Tezei
tehnologi a luat nas, tere un nou tip de sistem distribuit: cloud computing.
Cloud computing a aprut ca o alternativ la tipurile de sisteme distribuite
deja existente s, i ncerc s solus, ioneze problemele de cost prin folosirea uni model de taxare de tipul pay-as-you-go (pltes, te atta ct consumi) s, i prin punerea
la dispozit, ia utilizatorilor a unor resurse elastice ce pot accesate de oriunde,
prin intermediul Internetului, fr a necesita rezervri anterioare. n ultima decad, o multitudine de companii au ales s s, i ofere resulsele proprii, hardware
sau software, folosind paradigma de tipul everything-as-a-service (totul ca s, i un
serviciu).
Costurile generate de crearea unor supercomputere proprii sunt considerabile,
iar accesarea unor infrastructuri deja existente, precum grid-urile, necesit mult
timp, cunos, tiint, e de specilaitate, permisiunea de acces din partea det, intorilor
acestor resurse, planicarea s, i rezervarea lor in avans, etc. Datorita exibilitt, ii
cloud computing s-a bucurat de un interes crescut din parte mediului academic s, i a
celui de afaceri, n timp ce grid-urile sunt folosite n special n mediul academic ca
s, i medii de mari dimensiuni pentru stocarea informat, iilor sau procesarea acestora.
Numrul furnizorilor de resurse de tip cloud existent, i pe piat, este intr-o
continu cres, tere, astfel apare necesitatea folosirii unor sisteme de management
automatic a resurselor de tip cloud. Scopul acestra este de a npune regulile legate
de cererea s, i oferta resurselor de tip cloud [33]. Livrarea serviciilor de tip cloud
computing necesit ca anumit, i parametri legat, i de caliatetea serviciilor (QoS) s
respectat, i astfel nct utilizatorii s t, i poate atinge obiectivele s, i s s, i execute
opert, iunile n cele mai bune condit, ii. n acest context, un sitem de management
al resurselor bazat pe SLA-uri (Service Level Agreement) este necesar pentru a
negocia interact, iunea dintre participant, ii la tranzact, ii pe piat, a resurselor de tip
cloud computing.
Cercetarea de fat, a s, i propune s investigheze problema aprovisionrii cu resurse de tip cloud n contextul unor medii de tip federated cloud s, i t, innd cont
de anumit, i QoS. Ne propunem s cercetm modul n care poate solut, ionat
problema negocieri resurselor n cadrul unei piet, e concurent, iale prin folosirea
agent, ilor inteligent, i.
1. Rezumatul Tezei
2 Obiectivele cercetrii
n cadrul acestei lucrri ne propunem s studiem modul n care resursele de calcul,
oferite de ctre sistemele de calcul distribuite, pot s mbuntt, easc performant,
n execut, ie a diverselor tipuri de aplicat, ii, totodat reducnd s, i costurile. Avnd n
minte acest t, el am studiat tipurile de sisteme distribuite existente, am comparat
potrivirea acestora pentru rularea aplicat, iilor complexe s, i am estimat costurile
generate de ctre utilizarea lor.
cteva ntrebri:
Care este cel mai potrivit tip de resurs de caltul distribuit pentru o rularea
unei anumite aplicat, ii?
Care este cel mai bun mod n care un utilizator obis, nuit poate prota la
maxim de aceste resurse?
Cum inent, eaz caracteristicile tehnice a acestor resurese (numrul de coruri, memorie, hard disk, etc.) performant, a aplicat, iilor rulate pe ele?
Cum s alegi cea mai bun opt, iune pentru a rula o aplicat, ie atunci cnd
mai mult, i furnizori de resurse de calcul sunt diponibili s, i totodat tinnd
cont de limitrile de buget existente?
3 Structura tezei
Structura tezei reiese din gura 1:
1. Rezumatul Tezei
Capitolul 1: Introducere
Capitolul 9: Concluzii
1. Rezumatul Tezei
Partea I - Notiuni teoretice legate de programarea paralel si sistemele distribuite este compus din Capitolul 2 si Capirolul 3 si are rolul
,
de a oferi o viziune de ansamblu asupra calculului paralel s, i a sistemelor distribuite, precum s, i de a motiva necesitatea utilizrii acestora atunci cnd trebuie
mbuntt, it perfomant, a aplicat, iilor.
Avansarea cercetrilor n
domenii precum: modelarea climateric, descoperirea de noi medicamente, cercetri energetice, nevoia unor cutri web ct mai rapide s, i redarea imaginilor la
o calitate ct mai nalt a dus la necesitatea cres, terii performant, ei aplicat, iilor.
Acest lucru putea realizat doar prin folosirea sistemelor paralele s, i a calculului
paralel.
Cres, terea performant, elor unui singur procesor a constat n cres, terea numrului tranzistorilor de pe circuitele integrate. Pentru a putea obt, ine performant, e mai
ridicate n cadrul aceleas, i componente dimensiunea tranzistorilor a fost sczut
iar viteza lor de procesare a crescut. ns acest lucru a dus la cres, terea cldurii
generate de aceste componente.
circuitele rcite pe baz de aer s-au apropiat simtitor de limita lor superioar n
ceea ce prives, te capacitatea de disipare a cldurii.
Conform [4] un alt motiv ce a dus la aparit, ia sistemelor paralele este faptul
c exist un nivel minim al voltajului necesar pentru a rula un microprocesor
la frecvent, a dorit. Acest voltaj este proport, ional cu frecvent, a. Astfel cres, terea
vitezei de procesare cu o anuimt cantitate duce la cres, terea energiei consumate
la o valoare egal cu viteza respectiv la puterea a treia.
Software-urile s, i hardware-ulrile paralele au evoluat pe baza software-urilor
1. Rezumatul Tezei
s, i hardware-urilor seriale.
Tserial
Tparalel
S=
Tserial
,
Tparallel
(1)
scalabil
10
1. Rezumatul Tezei
distribuite (cluster, grid, cloud), prezint avantajele s, i dezavantajele acestora s, i
insist asupra tehnologiei cloud computing. Sunt prezentate modelel de business
ale cloud computing, avantajele s, i dezavantajele acestuia, precum s, i o comparat, ie
ntre principalel tipuri de sisteme distribuite.
n cartea lor despre sitemele distribuite [35] Tanenbaum s, i Steen denesc un
astfel de sistem dup cum urmeaz:
Un cluster este un tip de sistem paralel si distribuit ce consist dintro colectie de calculatoate de sine sttatoate, iterconectate ce lucreaz
mpreun ca si o singur resurs computational integrat. dup [6]
,
s, i [29]
Un grid este un tip de sistem paralel si distribuit ce face posibil partajarea, selectionarea si agregarea, n mometul executiei, a unor resurse de calcul autonome distribuite din punct de vedere geograc, n
functie de disponibilitatea acestora, de capacittile pe care le detin, de
perfomant, de costuri si de cererile de calitate a serviciilor fcute de
ctre utilizatori. dup [6] si [29]
,
11
1. Rezumatul Tezei
Majoritatea lucrrilor n domeniu [22], [37], [1], [25], [8] vorbesc despre principale
tipuri de modele business ale cloud-ului:
Platform-as-a-Service
Aceasta este o
Partea II - Mijloace existente pentru paralelizarea aplicatiilor, tehnologiile si arhitecturile folosite acest parte este compus din Capitolul 4 si
,
12
1. Rezumatul Tezei
Conform [19] numrul articolelor s, tiint, ice legate de mutiprocesoare a crescut
n mod constant din 2001 ncoace.
[2]
Un Sistem de Management a Fluxurilor de Lucru este denit ca -
n anii 90, cnd uxurile de lucru s, tiint, ice au aprut pentru prima oar, acestea erau folosite n principal pentru solut, ionarea problemelor de virtualizare. ns
de atunci a existat o evolut, ie semnicativ n ceea ce prives, te acest tip de tehnologie [36]. Cteva dintre aceste evolut, ii sunt de interes sporit pentru Sistemele de
Management a Fluxurilor de Lucru: platformele orientate pe componente, gridurile de date s, i cele computat, ionale, arhitecturile orientate pe servicii s, i serviciile
13
1. Rezumatul Tezei
web, organizat, iile virtuale, ret, elel de tip peer-to-peer, virtualizarea s, i aparit, ia
cloud computing.
Astfel uxurile de lucru s, tiint, ice au evoluat pentru a putea satisface diverse
nevoi ale lumii s, tiint, ice ducnd la schimbarea complet a metodelor s, tiint, ice
folosite. Cu timpul acestea au devenit o prctic uzual avnd un impact semnicativ asupra studiilor s, tiint, ice.
O alta tehnologie folosit pentru paralelizarea aplicat, iilor MapReduce [9], care
a fost implementat pentru a simplica procesarea unor seturi de date de mari
dimensiuni pe sisteme de calcul distribuite.
Aceast paradigma este compus din dou part, i: map s, i reduce. ntregul set
de date de intrare este divizat in mai multe buct, i ce vor procesate n mod
individual n etapa de map. Funct, ia de tip map primes, te ca s, i intare o singur
instant, a de tip cheie/valoare. Outputul acestei etape este o colect, ie de date sub
forma cheie/valaore ce au fost grupate dup valoarea cheii, colect, ie ce va folosit
ca s, i intare pentru etapa reduce. Pe baza perechilor de tip cheie/valoare s, i a unei
liste de valori oferite de etapa map, etapa reduce realizeaz anumite calcule asupra
castor perechi s, i returneaz tot o colect, ie de date de tip cheie/valoare.
Pentru procesarea
unor cantits, i mari de date a fost aleas platforma Hadoop. Principalel resurse
de calcul ce au fost folosite n cadrul experimentelor rulate sunt cele de tip cloud
privat s, i au fost create folosind platforma Eucalyptus.
Askalon [11] este o platform bazat pe grid ce permite implementarea s, i
rularea de aplicat, ii de tip grid/cloud. Acest platform a fost extins pentru a
putea rula aplicat, ii s, i pe resurse de tip cloud. n Askalon utilizatorul compune
un ux de lucru pe baza unei aplicat, ii folosind un nivel nalt de abstractizare
folosindbazat un limbaj de tip XML, (AGWL). Astfel este ascuns fat, de utilizator
nivelul de resurse de tip grid/cloud.
utilizator se face, n mare parte, n mod vizual pe baza unei interfet, e grace.
Repezentarea AGWL a uxului de lucru este folosit de ctre serviciile de tip
middleware pentru planicarea execut, iei aplicat, iei pe resurse distribuite.
14
1. Rezumatul Tezei
n 2004 Doug Cutting [27], un bine cunoscut dezvoltator de software-uri de
tip open source, s-a decis s implementeze algoritmul MapReduce creat anterior
de ctre Google.
elefant de plus, pe care l avea ul su. Principalul scop al acestui software era
s proceseze (s copieze, s indexeze, etc.) cantitt, i mari de date. Hadoop are
dou componente principale: HDFS (sitemul distribuit de s, iere al Hadoop) s, i o
implementare a algoritmului MapReduce.
HDFS furnizeaz un mediu de stocare a datelor scalabil, cu tolerant, ridicat
la erori la un cost redus. Pe lng stocarea s, ierelor, HDFS este capabil s detecteze s, i s compenseze eventualele erori de hardware aprute. HDFS stocheaz
s, ierele n cadrul unei colect, ii de servele dintr-un cluster.
n [26] este prezentat Eucalyptus, o platforma de tip open-source pentru crearea de sisteme de tip clod pe baza infrastructurii de calcul s, i de stocare a datelor
ce se a la ndemna grupurilor de cercetare din domeniul academic. Eucalyptus
este format din mai multe componente ce interact, ioneaz ntre ele prin interfet, e
bine denite.
Arhitectura acestui sitem este simpl, exibil s, i modular avnd un design
ierarhic ce reect resursele computat, ionale prezente n majoritatea nstitut, iilor
academice. n esent, , sistemul le permite utlizatorilor s pornesc, s controleze,
s acceseze s, i s termine execut, ia unor mas, ini virtuale. Toate acestea se realizeaz prin intermediul unor interfet, e ce emuleaz interfet, ele oferite de Amazon
EC2.
Fiecare component de baz din sistem este implementat sub forma unui
serviciu web de sine stttor. Acest lucru ofer urmtoarele avantaje: n primul
rnd ecare serviciu expune o API prin intermediul unui sier WSDL, interfat,
ce este agnostic din punct de vedere al limbajului s, i care cont, ine ambele operat, ii
pe care serviciul le poate executa asupra datelor de intrare/ies, ire; n al doilea rnd
sunt facilitate fucnt, ionalitt, iile legate de securitatea serviciilor web, trstur ce
asigur o comunicare sigur ntre componente.
Partea III - Aplicatii practice si studii de caz este compus din Capito,
lul 6, Capitolul 7 s, i Capitolul 8. Acest parte cont, ine aplicat, iile practice relizate
pentru a evalua ecient, a privind timpi de execut, ie s, i costurile generate de diverse aplicat, ii, precum s, i ecient, a oferit de diverse tipuri de siteme distribuite
15
1. Rezumatul Tezei
s, i metode de paralelizare a aplicat, iilor.
n tip ce prima
aplicat, ie necesit multe scieri s, i citiri din s, iere, cea de-a doua are nevoie de
resurse de calcul substant, iale.
identicarea sect, iunilor aplicat, iilei ce au cele mai pus, ine dependet, e ntre
ele. Aceste vor deveni activitt, i individuale n cadrul uxului de lucru.
stabilirea sect, iunilor de cod ce ar putea rulate n paralel. Acestea vor face
parte din sect, iunea paralel a uxului de lucru.
dac unele din activitt, ile denite n pas, i anteriori are prea multe dependent, e
fat, de o alt activitate, atunci acestea ar trebui reunite n cadrul unei singure activitt, i.
Figura 2 reprezint uxul de lucru realizat pe baza aplicat, iei de extragere a datelor
de pe eBay:
1 O parte din rezultatele legate de fuxul de lucru eBay a fost publicat n Gabriela Andreea
Morar, Cristina Ioana Muntean, Gheorghe Cosmin Silaghi, Implementing and Running a
Workow Application on Cloud Resources, Economy Informatics, vol. 15, no. 3/2011, pages
15-27
2 O parte din rezultatele legate de fuxul de lucru RainCloud a fost publicat n Gabriela
Morar, Felix Schueller, Simon Ostermann, Radu Prodan, and Georg Mayr, Meteorological
16
1. Rezumatul Tezei
ce poate executat n mod paralel. n cadrul acestei sect, iuni sunt extrase datele
referitoare la preferint, ele utilizatorilor. Ultima activitate,
17
1. Rezumatul Tezei
topo - Topography.tar.gz
datain - DataIN.tar.gz
NGroup
decisonPostprocessFinal
PostpreocessFinalPPS
decisionNotPostprocessFinal
<<Activity>>
topo
datain
PLM_g_out.tar.gz
templateIterations from
Template_iterations.txt
PLM_g_out.tar.gz
templateIterations from
Template_iterations.txt
ForLoop goes from 1 to
templateIterations
<<ParallelFor>> ParallelFor_1
<<Activity>>
LM_g_out.tar.gz
LinearModel
else
then
<<Activity>>
PostprocessSingle
PPS_g_out.tar.gz
PPS_g_out.tar.gz
LM_g_out.tar.gz
then
else
else
LM_g_out.tar.gz
Template_iterations.txt
PLM_g_out.tar.gz
PrepareLM
then
<<Activity>>
PostprocessFinalLM
<<Activity>>
PPS_g_out.tar.gz
PostprocessFinalPPS
FINAL.tar.gz
FINAL.tar.gz
mai multe variante de execut, ie ale acestuia, variante intitulate arome ale uxului
de lucru:
e topograi, e date atmosferice idealizate; este folosit pentru interpretarea msurtorilor meteorologice.
18
1. Rezumatul Tezei
la un pres, de (0.68$/or). Astfel o execut, ie zilnic timp de un an a apalicat, iei ar
avea un cost de aproximativ 992.8$.
n urma experimentelor efectuate am constatat c performat, ele obt, inute pe
instante te tip cloud privat sunt similare cu cele obt, inute prin folosirea unui cloud
public. Acest fapt ne-a permis s folosim resurse private n partea de testare s, i
optimizare a paralelizrii aplicat, iei s, i doar la nal s trecem pe resurse publice,
astfel costurile de dezvoltare reducndu-se semnicativ.
Fluxurile de lucru s, tiint, ice sunt folosite la scar larg n momentul de fat, .
Aceste i ajut pe oemenii de s, tiint, , s, i nu numai, s prote de resursele de calcul
ditribuite pe care le au la ndemn. Prin folosirea acestora timpi de execut, ie ai
aplicat, iilor sunt redus, i semnicativ, iar odat cu aces, tia scad s, i costurile.
Capitolul 7: Folosirea Hadoop pentru optimizarea timpilor de executie a procesrii datelor provenite de la Twitter acest capitol prezint
modul n care Hadoop poate folosit pentru a procesa mari cantitt, i de date ntrun timp mai scurt prin prizma folosirii resurselor distribuite. Pentru partea legat
de procesarea datelor a fost folosit librria Mahout [24] care pune la dispozit, ia
utilizatorilor un numr mare de algoritmi de tip machine learning. Acest librrie
ruleaz pe clustere de tip Hadoop. Am rulat o serie de experimente menite s
testeze inuent, a pe care diversele tipuri de stocare a datelor folosite o au asupra
performant, ei Hadoop. Am ncercat de asemenea s variem s, i valorile anumitor
parametri de congurare a Hadoop pentru a vedea cum aces, tia inuent, eaz la
rndul lor preformant, a obt, inut. Pe baza acestor congurat, ii am rulat algoritmul
k-means
Twitter.
Hadoop are peste 165 de parametri ce pot congurat, i de ctre utilizatori.
Gsirea congurat, iei optime nu este activitate trivial.
modul n care un utilizator trebuie s is, i congureze clusterul Hadoop sunt prezentate n [30],[39] s, i [21].
Pentru a testa scenariile descrise anterior am creat dou clustere Hadoop ce au
aceleas, i caracteristici cu except, ia mediului folosit pentru stocarea datelor (SSD
1 O parte din rezultatele prezentate n acest capitol a fost publicat n Cristina Ioana Muntean, Gabriela Andreea Morar, and Darie Moldovan, "`Exploring the meaning behind Twitter hashtags through clustering"', n Lecture Notes in Business Information Systems, vol. 127,
pag. 231 - 242. Springer-Verlag Berlin, 2012
19
1. Rezumatul Tezei
sau hard disk). Clusterele au fost implementate folosind mas, ini virtuale de tip
Oracle VirtualBox 4.1.18 [38]. Ambele clustere au un nod principal (master node)
s, i trei noduri secundare (slave nodes), iar stuctura lor poate vzut n gura 4.
Hadoop Master
NameNode
DataNode
Machine 1
Hadoop Slave
DataNode
Hadoop Slave
DataNode
Hadoop Slave
DataNode
Machine 2
Machine 3
Machine 4
test.jar).
nesupravegheat. Pe baza unui set de date initial algoritmul mparte aceste date
ntr-un numr de clustere stabilit anterior.
Experimentele rulate ne-au artat ca performant, a obt, inut de clusterele Hadoop este puternic inent, at de tipul de sistem folosit pentru stocarea datelor n
cadrul cluster-ului ct s, i de ctre valorile parametrilor de congurare setat, i de
ctre utilizatori.
20
1. Rezumatul Tezei
Deoarece Hadoop a fost creat astfel nct s poat rula si pe resurse de tip
cloud, putem spune c acesta reprezint o solut, ie viabil pentru urilizatorii doresc
s proceseze cantits, i mari de date n mod ocazional s, i cu costuri reduse.
ce a
fost implementat pentru a facilita negocierea resurselor de tip cloud prin intermediul folosiri agent, ilor inteligent, i. Acest domeniu a fost implementat pe baza
caracteristicilor instans, elor de cloud de tip IaaS s, i reprezint un prim pas n ceea
ce ne dorim a la un momentdat negocierea resurselor de tip cloud la runtime
n funct, ie de necesitt, iile utilizatorilor s, i n contextul existent, ei mai multor furnizori de astfel de resurse.
4 Contributii
,
Acest sect, iune cuprinde contribut, iile ce au fost aduse n cadrul ecrui capitol:
21
1. Rezumatul Tezei
acestui capitol s-a realizat un amplu studiu al literaturii de specialitate legat de
calculul paralel: modul n care acesta a aprut, motivele ce au dus la aparit, ia
acestuia s, i sunt descrise cteva dintre principalele metode folosite n evaluarea
performant, ei programelor paralele: speedup, ecient, a, msurarea corect a timpilor de execut, ie, etc.
Capitolul 3: Privire de ansamblu asupra sistemelor distribuite - cuprinde un amplu studiu al literaturii din domeniul sistemelor distribuite. Sunt
evaluate pe rnd principalele tipuri de astfel de sisteme: clustere, grid-uri, cloud
computing s, i este prezentat o comparat, ie ntre acestea realizat pe baza principalelor lucrri existente n domeniu. De asemenea cont, ine si un studiu detaliat
al cloud computing: modul n care a luat nas, tere, modelele de business folosite
de acesta, avantajele s, i dezavantajele lui, etc.
aplicat, iilor ce necesit putere de calcul crescut, n timp ce MapReduce se adreseaz aplicat, iilor ce sunt menite s proceseze cantitt, i mari de date. Am studiat
modul de funct, ionare a acestor tehnologii pentru a putea ulterior s le aplicm
pentru a reduce timpi de execut, ie a anumitor aplicat, ii.
22
1. Rezumatul Tezei
ridicat. Am implementat ambele uxuri de lucru folosind platforma Askalon s, i
am modicat aplicat, iile astfel nct s le mbuntt, esc performant, a s, i s le scad
costurile necesare rulrii.
Capitolul 7: Folosirea Hadoop pentru optimizarea timpilor de executie a procesrii datelor provenite de la Twitter - acest capitol prezint un
studiu referitor la modul n care Hadoop poate folosit pentru rularea aplicat, iilor
ce trebuie s proceseze cantitt, i nsemnate de date.
care se pot crea s, i congura clustere pe care Hadoop s ruleze pentru a cres, te
performant, a aplicat, iilor. Faptul c datele sunt procesate n paralel pe mai multe
resurse de calcul duce att la scderea timpului de execut, ie ct s, i la scdera costurilor (Hadoop poate rula s, i pe resurse de tip cloud). Am realizat cteva teste de
performant, folosind diverse tipuri de clustere Hadoop s, i avnd divers, i parametri
de congurare. Rezultatele obt, inute au artat c att tipul de mediu de stocare
folosit (SSD sau hard disk) ct s, i modicarea divers, ilor parametri de congurare
pot duce ca cres, terea semnicativ a performant, ei. Datele folosite pentru testele
de performant, au fost extrase de pe Twitter.
Capitolul 8: Negocierea resurselor de tip cloud folosind agent, i inteligent, i - n acest capitol este prezentat un domeniu de negociere (CloudDomain)
pe care l-am creat pentru a putea folosit de ctre agent, i pentru a negocia resurse
de tip cloud n contextul n care exist mai mult, i furnizori de astfel de resurse
pe piat, . CloudDomain a fost astfel construit nct s cont, in pricipalel atribute
pe care un utilizator si-ar dori s le negocieze cu un furnizor de resurse cloud de
tip Iaas: numr de core-uri, memorie, numrul de instant, e disponibile dintr-un
anumit tip, pret, s, i dimensiunea hard disk-ului). Acest prol a fost impelmentat
astfel nct s poat folosit de ctre platforma Genius [12]. Am creat un mecanism ce genereaz n mod semi-automat aceste prole pe baza datelor obt, inute de
la cloud controller-ele cloud-urilor private. Aceste prole vor au fost folosite ca s, i
23
1. Rezumatul Tezei
domenii de preferint, e pentru agent, i ce dispuneau de diverse tipuri de inteligent,
(bayesian sau Q-learning) pentru a negocia resurse de tip cloud pe baza unui
protocol de negociere de tipul unul-la-mai-mult, i.
5 Stagiu de mobilitate
Pe durata studiilor doctorale am avut oportunitatea de a merge ntr-un stagiu
de mobilitate nafara t, rii.
Prima parte
Ca s, i membr temporar a Grupului de Sisteme Distribuite s, i Paralele a trebuit sa implementez uxul de lucru pe baza aplicat, iei meteorologice dezvoltate
de ctre ceilalt, i parteneri din cadrul proicetului. ndatoririle mele au constat n:
24
1. Rezumatul Tezei
s colaborez cu persoana ce a realizat aplicat, ia meteorologic s, i s identic diversele sect, iuni ale aplicat, iei ce puteu mapate ulterior n activitt, i
secvent, iale sau paralele n cadrul uxului de lucru.
s identic toate dependent, ele existente ntre activitt, iile gsite n pasul
anterior pentru a le putea deni n cadrul uxului de lucru.
Gabriela
Morar, Felix Schueller, Simon Ostermann, Radu Prodan, and Georg Mayr, Meteorological Simulations in the Cloud with the ASKALON Environment, CoreGRID/ERCIM Workshop on Grids, Clouds and P2P Computing, Rhodes Island,
August, 2012, acceptat.
Stagiul de mobilitate mi-a permis sa deprind o experient, vast n ceea ce
prives, te sistemele distribuite, n mod special grid s, i cloud.
De asemenea am
nvat, at modul n care funct, ioneaz uxurile de lucru, cum s implemetez un ux
de lucru, cum s modic o aplicat, ie astfel nct s i cresc performant, a la execut, ie,
etc. ntreaga experient, teoretic s, i practic acumulat de-a lungul ecestui stagiu
de mobilitate a avut un impact semnicativ asupra cercetrii mele.
6 Diseminarea rezultatelor
Rezultatele obt, inute pe perioada studiilor mele doctorale au fost publica n cadrul unor articole prezentate la conferint, te s, i workshopuri din tar ct s, i din
strintate.
25
1. Rezumatul Tezei
Silaghi, Implementing and Running a Workow Application on Cloud Resources, Economy Informatics, vol. 15, no. 3/2011, pages 15-27
Alexandru Butoi,
Phased Protocol for Providing Data Condentiality in Cloud Storage Environments, n Lecture Notes in Business Information Systems, vol. 127,
pag. 220 - 230. Springer-Verlag Berlin, 2012.
Napoca, Romania
Gabriela Morar,
Alexandru Butoi,
tual Design for Business SOA using Object-Oriented Paradigm, n Proceedings of The Eleventh International Conference on Informatics in Economy
IE 2012, Bucures, ti, Romania, pag. 41-45
26
1. Rezumatul Tezei
based on Learning Objects, The Second Romanian Workshop on Mobile
Business, Cluj-Napoca, Romnia, publicat n Economy Informatics, vol. 10,
no. 1/2010, pag. 63-73
Aceste prole
vor utilizate de catre nis, te agent, i de tip broker ce vor avea rolul de a
negocia resurse cu utilizatorii nali. Acest, i agent, i vor act, iona att din partea furnizorilor de resurse cloud ct s, i din partea cumparatorilor acestor
resurse.
27
1. Rezumatul Tezei
implementare unui modul ce va instala n mod automat Hadoop pe nodurile nou adugate la un cluster s, i le va congura pe acestea n conformitate
cu nodul principal (master node). Implementarea unui modul care s fac
corespondent, a dintre parametri de congurare selectat, i de ctre utilizator
si clusterul pe care este instalat Hadoop. Acest modul va avea rolul de a
le sugera utilizatorilor congurat, ia cea mai potrivit pentru clusterul lor.
Acesta este o problema de optimizare a mai multor obiective simultan, deoarece Hadoop dispune de un numr mare de parametrii ce pot congurat, i
de ctre utiliatori, iar alegera valorilor potrivite pentru aces, tia nu este deloc
intuitiv pentru noii utilizatori s, i nici chiar pentru cei experimentat, i.
28
List de guri
1
Structura tezei.
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
18
20
29
Bibliograe
[1] Technical report. 12
[2] I. Altintas, O. Barney, Z. Cheng, T. Critchlow, B. Ludaescher, S. Parker,
A. Shoshani, and M. Vouk. Accelerating the scientic exploration process
with scientic workows.
In
vo-
doi: 10.1145/1465482.1465560.
//doi.acm.org/10.1145/1465482.1465560.
URL
http:
10
[4] Nikhil Bansal. Dynamic speed scaling to manage energy and temperature.
In
2004. 9
[5] Idar Barstad and Felix Schller.
Journal of
ISSN 0022-
of Orographic Precipitation:
doi: 10.1175/JAS-D-10-05016.1.
URL
org/doi/abs/10.1175/JAS-D-10-05016.1.
[6] Rajkumar Buyya.
Systems.
http://journals.ametsoc.
17
0130137847. 11
30
ISBN
BIBLIOGRAFIE
[7] Rajkumar Buyya, Chee Shin Yeo, Srikumar Venugopal, James Broberg, and
Ivona Brandic. Cloud computing and emerging it platforms: Vision, hype,
and reality for delivering computing as the 5th utility.
Future Generation
11
James Broberg,
Cloud
ISBN
9780470887998. 12
[9] J. Dean and S. Ghemawat. Mapreduce: Simplied data processing on large
clusters.
1, 14
Concurrency
14
[12] Cristian Figueroa, Nicolas Figueroa, Alejandro Jofre, Akhil Sahai, Yuan
Chen, and Subu Iyer. A Game Theoretic Framework for SLA Negotiation.
Technical report, Enterprise Systems Storage Laboratory, HP Laboratories,
2008. http://www.hpl.hp.com/techreports/2008/HPL-2008-5.pdf, consulted
on 5 August 2011. 23
[13] Michael J. Flynn and Kevin W. Rudd. Parallel architectures.
Surv.,
234345. URL
ISSN 0360-0300.
doi:
ACM Comput.
10.1145/234313.
http://doi.acm.org/10.1145/234313.234345.
10
[14] Ian Foster, Carl Kesselman, and Steven Tuecke. The anatomy of the grid:
Enabling scalable virtual organizations.
Appl.,
15(3):200222, 2001.
ISSN 1094-3420.
doi:
http://dx.doi.org/10.
1177/109434200101500302. 5
[15] Hadoop. Hadoop website.
http://hadoop.apache.org,
2012. 2
31
BIBLIOGRAFIE
[17] A. J. G. Hey, S. Tansley, and K. M. Tolle.
In
13
Computer,
[19] M.D. Hill and M.R. Marty. Amdahl's law in the multicore era.
41(7):3338, 2008. 13
Proceedings of the third joint WOSP/SIPEW international conference on Performance Engineering, pages 241242. ACM, 2012. 19
tices. In
[22] Tobias Kurze, Markus Klems, David Bermbach, Alexander Lenk, Stefan Tai,
Proceedings of the 2nd International Conference on Cloud Computing, GRIDs, and Virtualization (CLOUD
COMPUTING 2011). IARIA, September 2011. 12
and Marcel Kunze. Cloud Federation. In
http://mahout.apache.org,
Cloud computing:
2012. 19
http://www.cs.ucf.edu/~dcm/LectureNotes.pdf.
URL
12
15
32
IQT Quar-
BIBLIOGRAFIE
[28] Peter Pacheco.
Morgan Kau-
fmann Publishers Inc., San Francisco, CA, USA, 1st edition, 2011.
ISBN
9780123742605. 9, 10
[29] Gregory F. Pster.
Global Journal
19
A qualitative ascen-
Complex Automated
Negotiations: Theories, Models, and Software Competitions, pages 143159,
ding protocol for multi-issue one-to-many negotiations.
2013. 21
[32] Liviu Dan Serban, Cristina Maria Stefanache, Gheorghe Cosmin Silaghi, and
Cristian Marius Litan. A qualitative ascending protocol for multi-issue one-
Proc. of the 2011 Workshop on Agent-based Complex Automated Negotiations, Studies in Computational Intelligence. Sprin-
to-many negotiations. In
volume 6104 of
LNCS,
In
pages
13
33
Springer-
BIBLIOGRAFIE
[37] Luis M. Vaquero, Luis Rodero-merino, Juan Caceres, and Maik Lindner. A
break in the clouds: Towards a cloud denition.
Communication Review,
1145/1496091.1496100.
http://dx.doi.org/10.
12
https://www.virtualbox.org/,
34
2012. 20