Professional Documents
Culture Documents
Web crawler raunalni program koji pretrauje WWW na metodolki automatiziran nain
(mrav, automatski indekser, web spider, web robot, web skuter)
Kreiraju kopije posjeenih stranica za kasnije indeksiranje pomou search engine-a koji e
indeksirati skinute stranice za kasnija pretraivanja. Koriste se takoer za prikupljanje
specifinih tipova informacija kao to su e-mail adrese (na koje mogu poslati razliiti spam)
To je jedna vrsta softverskog agenta; naelno zapoinje s listom URL-a (sjemenje). Kada je
crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl
frontier) koje se rekurzivno posjeuju prema skupu postavljenih politika.
Politike
Crawling je zahtjevan zadatak zbog:
Broja URLa i velikog obujma crawleri mogu skidati samo dio (frakciju) web stranice u
danom vremenu i moraju definirati prioritete
Brzine kojom se sadraji mijenjaju crawler uzima stranicu u momentu kad je ona
raspoloiva i vrlo je vjerojatno da e se u njoj neto ubzo mijenjati
Dinamike prirode promjena na web stranicama server side scripting utie na dinamike
promjene sadraja stranice to predstavlja dodatnu potekou u definiranju broja
parametara koji e se koristiti za pretraivanje (nain sortiranja, vrsta prikaza, format
datoteke, korisniki parametri....)
Dodatni problem: irina pristupnog pojasa (odreuje brzinu veze) odreuje takoer stopu
osvjeenja i efikasan nain pretraivanja u ogranienom vremenskom periodu
vanot stranice je funkcija njoj svojstvene kvalitete popularnosti i broja posjeta ili
domene; problem ne moe se znati unaprijed. Pretraivanje prvo u irinu pa u
dubinu (Ako je pretraivaje prvo u dubinu vertikalne trailice)
Restrikcije na linkove koji e se slijediti (pr. Samo na .html, .asp, .php...)
Put k traenom pojmu
Fokusirani crawling
Duboki crawling pretraivanje pojmova ne samo u naslovu i zaglavljima ve bilo
gdjeu tekstu (
(BYTESEARCH (http://www.bytesearch.com)
DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima jednostavno i sloeno pretraivanje, Boole
INFERENCE FIND (http://www.inference.com/ifind)
INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraivanja, omoguava odreivanje
kategorije unutar koje se pretrauje (poduzetnitvo, raunala, obrazovanje, sport)
MAMMA (http://www.mamma.com)
METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora
PROFUSION (http://www.profusion.com)
SAVVYSEARCH (http://www.savvysearch.com)
regionalni (Regional Search Engines) - pretraivai za razne drave i regije. Glavne su kategorije
pretraivaa svrstane po kontinentima pa zatim po dravama;
- pretraivai novosti (News Search Engines) - slube tih pretraivaa daju iznimno dobre rezultate
pretraivanja kurentnih dogoaja, jer pretrauju relevantna Web mjesta dnevno;
- djeji (Kids Search Engines) - slube djejih pretraivaa dizajnirane su prvenstveno za potrebe djece
bilo u fokusiranju bilo u filtriranju mjesta koja bi bila nepodobna za djecu;
BYTESEARCH (http://www.bytesearch.com)
DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima
jednostavno i sloeno pretraivanje, Boole
INFERENCE FIND (http://www.inference.com/ifind)
INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana
pretraivanja, omoguava odreivanje kategorije unutar koje se
pretrauje (poduzetnitvo, raunala, obrazovanje, sport)
MAMMA (http://www.mamma.com)
METACRAWLER (http://www.go2net.com/search.html) - izvrstan za
dobivanje brzog odgovora
PROFUSION (http://www.profusion.com)
SAVVYSEARCH (http://www.savvysearch.com)
http://www.googleguide.com/web_address.html
http://www.googleguide.com/web_address.h
tml
http://prelog.chem.pmf.hr/~tezak/preinin/pr
einin/vje21I.html