You are on page 1of 12

to su trailice

Kako funkcioniraju trailice


Optimizacija pretraivanja

www se ne moe pretraivati direktno vee se


pretrauje pomou specijaliziranih alata koji
skupljaju podatke o web stranicama i formiraju
ih u posebne baze podataka, omoguavajui
korisnicima da putem hipertekstnih poveznica
(linkova) pristupaju pronaenim stranicama.
Kategorije
Pretraivai i metapretraivai,
Tematski katalozi (imenici)
Tematski vodii
Specijalizirane baze podataka

Web pretraivai (roboti, indeksi) koriste specijalne automatizirane


programe za "uljanje", "gmizanje" po Webu ("to crawl the web") koji se
nazivaju Web crawlers (gmizavac, unjalo) ili spiders (pauci) [4]. Oni
skau s Web mjesta na Web mjesto preko poveznika, prikupljajui
naslove svih mjesta, URL, i najmanje neke od njihovih tekstovnih
sadraja. Kada nau mjesto, oni pretrauju (snimaju) (scan) Web
stranice toga mjesta i zapisuju (record) sve informacije u indeks.

Program kojemu je funkcija indeksiranje ekstrahira informacije iz


dokumenata i sprema ih u svoju kataloku bazu podataka. Cilj je
spidera posjetiti milijune Web mjesta i ostati s njima u vezi koliko god
je mogue. U svojemu hodu po mrei spideri raznih pretraivaa
meusobno dijele vie baza podataka koje dotiu.

Web search engine skup programskih alata koji pretrauju informacije


na WWW-u. Rezultati se prikazuju u popisu i nazivaju se pogotci.
Informacija moe sadravati web stranicu, sliku, tekst i/ili ostale tipove
datoteka. Neke trailice imaju alate za rudarenje (u newsbook-u, bazi ili
otvorenim direktorijima (katalog kategoriziranih linkova)

to imaju i kako rade alati (strojevi) za pretraivanje:


Web crawling (pretraivanje plaenje po web i
skidanje podataka o posjeenom URL-u)
Indeksiranje oznaavanje skinutog materijala
prema definiranim kriterijima (naslovima,
poglavljima, zaglavljima, posebnim poljima
metatagovima) i formiranje baze podataka
Traenje upotrebom jezika upita (SQL-a) postavlja
se zahtjev za traenje indeksne baze prema
kriterijima za pretraivanje (kljunim rijeima
najee ili uz kombinaciju raspoloivih operatora
logikih ili posebnih koje podrava SQL)
Problem: kako rangirati dobivene rezultate
pretraivanja ovisno o znaaju kojeg imaju za
korisnika

Web crawler raunalni program koji pretrauje WWW na metodolki automatiziran nain
(mrav, automatski indekser, web spider, web robot, web skuter)

Kreiraju kopije posjeenih stranica za kasnije indeksiranje pomou search engine-a koji e
indeksirati skinute stranice za kasnija pretraivanja. Koriste se takoer za prikupljanje
specifinih tipova informacija kao to su e-mail adrese (na koje mogu poslati razliiti spam)

To je jedna vrsta softverskog agenta; naelno zapoinje s listom URL-a (sjemenje). Kada je
crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl
frontier) koje se rekurzivno posjeuju prema skupu postavljenih politika.
Politike
Crawling je zahtjevan zadatak zbog:

Broja URLa i velikog obujma crawleri mogu skidati samo dio (frakciju) web stranice u
danom vremenu i moraju definirati prioritete

Brzine kojom se sadraji mijenjaju crawler uzima stranicu u momentu kad je ona
raspoloiva i vrlo je vjerojatno da e se u njoj neto ubzo mijenjati

Dinamike prirode promjena na web stranicama server side scripting utie na dinamike
promjene sadraja stranice to predstavlja dodatnu potekou u definiranju broja
parametara koji e se koristiti za pretraivanje (nain sortiranja, vrsta prikaza, format
datoteke, korisniki parametri....)

Dodatni problem: irina pristupnog pojasa (odreuje brzinu veze) odreuje takoer stopu
osvjeenja i efikasan nain pretraivanja u ogranienom vremenskom periodu

Yahoo Crawler (Slurp)


Google Crawler
WebCrawler

Politika izbora koju stranicu skinuti;

vanot stranice je funkcija njoj svojstvene kvalitete popularnosti i broja posjeta ili
domene; problem ne moe se znati unaprijed. Pretraivanje prvo u irinu pa u
dubinu (Ako je pretraivaje prvo u dubinu vertikalne trailice)
Restrikcije na linkove koji e se slijediti (pr. Samo na .html, .asp, .php...)
Put k traenom pojmu
Fokusirani crawling
Duboki crawling pretraivanje pojmova ne samo u naslovu i zaglavljima ve bilo
gdjeu tekstu (

Politika ponovnog pregleda kada provjeriti promjene na skinutim


stanicama starost i stopa osvjeenja definira se algoritam
Politika uljudnosti kojom se utvruje kako izbjei pretrpavanje web
stranica; djelomino rjeenje za problem pretrpavanja servera
razliitim robot exclusion protocol administratori odreuju koji dio
servera se nee dozvoliti za pregledavanje od strane crawlera.
Politika paralelizacije kako koordinirati distribuirane web crawlere
biljeenjem URL-a kojeg je jedan crawler pronaao
Optimizacija search engina cilj pozicionirati se na prva mjesta u
upotrebi pretraivaa

Opi (Major Search Engines) - najpopularniji su i najvaniji i pokrivaju cijeli svijet;


(Google <http://www.google.com, - Yahoo <http://www.yahoo.com>,
specijalizirani (Specialty Search Engines) - vode pretraivanje kroz baze podataka, grupe za novosti
(Newsgroups), nalaze online programe itd.
Po vrstama sadraja (npr. Multimedijalni)
Po temama
Opi pretraivai sa specijalnim namjenama (<http://websearch.about.com)
metapretraivai (Metacrawlers) - za razliku od pretraivaa, ne pretrauju Web sami da bi izgradili
indekse. Metapretraivai pretrauju nekoliko pretraivaa istodobno i rezultate prikazuju na zajednikoj
stranici;

(BYTESEARCH (http://www.bytesearch.com)
DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima jednostavno i sloeno pretraivanje, Boole
INFERENCE FIND (http://www.inference.com/ifind)
INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraivanja, omoguava odreivanje
kategorije unutar koje se pretrauje (poduzetnitvo, raunala, obrazovanje, sport)
MAMMA (http://www.mamma.com)
METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora
PROFUSION (http://www.profusion.com)
SAVVYSEARCH (http://www.savvysearch.com)

regionalni (Regional Search Engines) - pretraivai za razne drave i regije. Glavne su kategorije
pretraivaa svrstane po kontinentima pa zatim po dravama;

- pretraivai novosti (News Search Engines) - slube tih pretraivaa daju iznimno dobre rezultate
pretraivanja kurentnih dogoaja, jer pretrauju relevantna Web mjesta dnevno;

- djeji (Kids Search Engines) - slube djejih pretraivaa dizajnirane su prvenstveno za potrebe djece
bilo u fokusiranju bilo u filtriranju mjesta koja bi bila nepodobna za djecu;

paralelni ili viestruki pretraivai


simultano pretrauju vie pretraivaa
na kraju se korisniku daju integrirani rezultati liste razliitih
pretraivaa s prozorom za svaki od njih
ne spadaju u prave metapretraivae
postoje i viestruki pretraivai koji provode simultano
pretraivanje, ali ne kombiniraju rezultate
Primjeri:

BYTESEARCH (http://www.bytesearch.com)
DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima
jednostavno i sloeno pretraivanje, Boole
INFERENCE FIND (http://www.inference.com/ifind)
INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana
pretraivanja, omoguava odreivanje kategorije unutar koje se
pretrauje (poduzetnitvo, raunala, obrazovanje, sport)
MAMMA (http://www.mamma.com)
METACRAWLER (http://www.go2net.com/search.html) - izvrstan za
dobivanje brzog odgovora
PROFUSION (http://www.profusion.com)
SAVVYSEARCH (http://www.savvysearch.com)

identificirati vlastiti koncept: traimo li


informacijski izvor ili konkretan podatak
odabrati kljune rijei (samo jedna kljuna
rije moda e nam dati previe pogodaka)
odrediti sinonime
odabrati Booleove operatore ili simbole
postaviti ogranienja, filtre (jezik, domena,
tip dokumenta, datum, naslovi, URL,
poveznici, i drugo).

http://www.googleguide.com/web_address.html

Web direktorij odrava ga uredniki tim


daje popis web mjesta po kategorijama i
subkategorijama
Unos sadraja odreen je politikom
urednitva: sadri RSS feeds (sadraje koji
su vezani uz neko podruje moguih
interesa)
Primjer: http://directory.google.com/

Imeniki servisi omoguuju objavljivanje i


pretraivanje elektronikih adresa i ostalih
podataka o korisnicima mree (White
pages) kao i o uslugama i resursima te
davateljima usluga na mrei (Yellow
pages).
U Hrvatskoj pr. http://ds.carnet.hr

http://www.googleguide.com/web_address.h
tml
http://prelog.chem.pmf.hr/~tezak/preinin/pr
einin/vje21I.html

You might also like