Professional Documents
Culture Documents
Motor de cutare
Un motor de cutare este un apelabil program cuttor, care acceseaz Internetul n mod automat
i frecvent i care stocheaz titlul, cuvinte cheie i, parial, chiar coninutul paginilor webntr-o baz
de date. n momentul n care un utilizator apeleaz la un motor de cutare pentru a gsi o
informaie, o anumit fraz sau un cuvnt, motorul de cutare se va uita n aceast baz de date i,
n funcie de anumite criterii de prioritate, va crea i afia o list de rezultate (englez: hit list ).
Problema nu este de loc trivial, deoarece:
exist deja peste 100 milioane de situri web, sumnd n total miliarde de pagini web, distribuite
pe tot globul
coninutul acestori pagini nu este static, ci chiar extrem de dinamic (se schimb frecvent)
rspunsul la o comand de cutare trebuie s vin repede, n general n mai puin de o jumtate
de secund, chiar atunci cnd lista de rezultate conine, s zicem, zeci de mii de pagini web
potrivite la criteriile de cutare folosite.
82,7%
Yahoo!
6,5%
Baidu
4,7%
Bing
3,7%
Ask
0,5%
Aol
0,4%
Excite
0,0%
Pentru crearea acestor motoare de cutare este necesar un spider (bot, spider, crawler)
care este realizat ntr-un limbaj care poate fi Perl, Ruby, Java, Php. Acesta extrage linkurile
utile. Apoi aceste linkuri se gsesc ntr-o form prelucrat i filtrat prin metode specifice
ntr-o baz de date.
1.Motoarele care au propia lor baza de date (de ex. Google si AllTheWeb FAST)
2.Motoarele care folosesc bazele de date ale unor alte motoare (de ex.
MSN foloseste serviciile LookSmart si Inktomi)
3.Motoarele care folosesc atit propria baza de date cit si pe cele ale altor
motoare (de ex. Yahoo care foloseste baza de date proprie dar si pe cea a
motorelor Google, Inktomi (pe care l-a cumparat) si Overture (pe care l-a
cumparat).
AltaVista
MSN
Ask
Neuralcoder
Baidu
Panguso
Bing
Qwant
Blekko
Sogou
DuckDuckGo
Entireweb
Spezify
Exalead
Trovi
Excit
V9
Gigablast
Voila
Volunia
GrayMatter
Yahoo!
Info.com
Yandex
LeMoteur
Yauba
Lycos
Soso
ALPIR
GazoPa
Google Images
TinEye
YaCy
Domeniul google.com a fost nregistrat pe 14 Septembrie 1997 de Larry Page i Sergey Brin, doi
studeni, atenie tot la Universitatea Stanford,California. Acetia au avut ideea n 1996 n cadrul unui
proiect, s indexeze paginile de INTERNET nu dup numrul de apariii al termenului de cutare n
coninutul lor, ci dup numrul de legturi spre acea pagin provenite de pe alte pagini WWW. Acest
lucru, st de fapt la baza algoritmului PageRank algoritmul de cutare al Google. Pe baza acestui
algoritm, fiecare pagin web poate avea un anumit rang cuprins ntre 0 (minim) i 10 (maxim). Cu
ct rangul este mai mare, cu att aceasta apare mai repede la o cutare pe WWW. Google
Corporation a fost fondat n 1998 i n decurs de 13 ani a ajuns cel mai cunoscut motor de cutare
de pe WWW.
Excite
A fost creat n 1993 de cinci studeni (Graham Spencer, Joe Kraus, Ben Lutch, Mark Van Haren,
Ryan McIntyre i Martin Reinfried) la Universitatea Stanford,California n cadrul unui proiect de curs
denumit Architext Software. Devenit Excite, acesta a falimentat n 2001. n prezent 3 dintre fondatori
sunt angajai Google, 2 sunt ntreprinztori particulari iar ultimul este specializat n jocuri pe
calculator. http://www.excite.com/
Yahoo
A fost creat n 1994 (din nou) n campusul Universitii Stanford, California de doi studeni (David
Filo and Jerry Yang), iniial pentru a putea ine evidena link-urilor WWW cu informaii folosite pentru
elaborarea lucrrii de doctorat. A fost lansat la nceput sub denumirea de Jerry and Davids Guide
to the World Wide Web ns a fost redenumit ulterior YAHOO acronim pentru (Yet Another
Hierarchical Officious Oracle). Vestea s-a rspndit pe www, astfel nct, n toamna lui 1994 site-ul a
fost accesat ntr-o singur zi de 100.000 de vizitatori. n 1995 s-a fondat Yahoo! Inc. care a ajuns
astzi s fie accesat lunar de peste 350 milioane de utilizatori, fiind al doilea motor de cutare dup
Google. https://www.yahoo.com/
Altavista
La ptrunderea internetului pe scar larg n Romnia, undeva n anul 1996, cel mai utilizat motor
de cutare era Altavista. Lansat pe 15 Decembrie 1995, de ctre cercettorii de la Digital Equipment
Corporations Western Research Laboratory din Palo Alto, California, a furnizat din prima clip o
baz de date indexabil ce coninea peste 16 milioane de documente. La sfritul zilei de 15
Decembrie 1995, peste 300.000 de utilizatori vizitaser pagina Altavista. Dup primul an de
funcionare Altavista servea peste 19 milioane de cereri de cutare zilnic. Pe parcursul timpului
Altavista a patentat foarte multe idei cu privire la cutarea pe INTERNET. n 2003 Altavista a fost
achiziionat de Ouverture pentru 140 de milioane de dolari. La sfritul lui 2003, Yahoo a cumprat
Ouverture, astfel nct Altavista a sfrit prin a avea motorizare Yahoo.
http://search.yahoo.com/?fr=altavista
Hotbot
Lansat n Mai 1996 de ctre Wired Magazine, HotBot a devenit n scurt timp un motor de cutare
apreciat care avea n spate bazele de date Inktomi, LookSmart i din 1999 Open Directory. Lycos a
achiziionat HotBoot n 1998 i pentru patru ani a aplicat tehnici greite de marketing i de
promovare care au dus compania aproape de faliment. Din 2002 a fost relansat iar n prezent ofer
informaii pe baza bazelor de date deinute de Google i Ask Jeeves (Teoma) motorizare
Google. http://www.hotbot.com/
Bing
Proprietate a gigantului Microsoft, Bing a fost lansat de ctre CEO Microsoft, Steve Ballmer pe 28
Mai 2009. Bing a fost mai nti Live Search dup care a fost redenumit MSN Search pentru ca apoi
sa devin Windows Live Search. MSN Search a fost lansat n 1998 i a depins pn n 1999 de
baza de date Inktomi. Din 1999 a avut motorizare Altavista. ncepnd din 2006, MSN Search a
devenit Windows Live Search cu motorizare Microsoft. n 2009 Yahoo i Bing au ncheiat un acord
pe 10 ani prin care Yahoo urmeaz s i schimbe motorizarea astfel nct aceasta s devin
Microsoft. n schimbul acestui acord, Yahoo obine 88 % din toat publicitatea pentru primii 5 ani.
La momentul actual, dupa cum am prezentat mai sus, toate cutrile pe WWW sunt motorizate de
Google, Yahoo si Microsoft, primele doua tehnologii fiind aprute la Standford University
California. http://www.bing.com/
Sogou Inc este o filial a Sohu.com, Inc. fondat la 9 august 2010. Este
proprietarul i dezvoltator de Sogou (chinez: ; pinyin: Sugu, literalmente:
"Cutai cine") motor de cutare, Sogou de intrare i browser-ul Sogou. Motoare
de cutare i web aplicatii *edita+
Sogou motor de cutare (Sogou.com) a fost lansat la data de 3 august 2004.
Produsele aplicatii web Sogou sunt concepute pentru a clasifica informaii on-line,
cum ar fi muzica, imagine, un clip video, tiri, hart i informaii vertical.\
Volunia a fost un motor de cutare web (sau motor de cautare social) [1] [2] [3]
creat de Massimo Marchiori. [4] [5] A fost lansat n versiune beta doar pentru
utilizatorii nregistrai putere la 06 februarie 2012 *6+ i a mers direct la 14 iunie
2012. Volunia, numit ca "motorul de cutare al viitorului", *7+ a fost speculat s se
bazeze pe tehnologia Hyper cutarea. *8+ *9+ la 08 iunie 2012 Marchiori a anunat
cu o scrisoare deschis *10+ c el a fost exclus din proiectul su: *11+ sase zile mai
tarziu, pe 14 iunie 2012, site-ul a mers live, dar a ncetat s funcioneze n luna
februarie 2014.
Numele Volunia provine din cuvintele "Volo" (de zbor) i "Luna" (luna), pentru c aa cum spune Marchiori -. A vrut s evoce Saltului Cuantic motor de cutare su
social a fost ncercarea de a oferi [1] Proiectul Volunia are a fost dezvoltat n
ntregime n Italia: sediul central se afl n Padova, serverele sunt situate n
Sardinia i gzduit de Tiscali, *1+, iar ntreaga echip, format din 14 persoane,
este italian *necesit citare+.
Volunia difer de la motoarele de cutare normale n care, n timp ce trte pe
site-urile web i indexurile construiete clasamentul folosind comentariile i
opiniile altor utilizatori. Serviciul Volunia permite oamenilor s interacioneze unii
Judy.ro
http://www.judy.ro/
AltaVista
Link-ul Alta Vista:
http://search.aol.ru/aol/search?&query=a
lta+vista&invocationType=tb50winampa
b
Pagina principala:
Alta Vista al firmei Digital este un puternic motor de cautare atat pentru Web,cat si
pentru Usenet.
Interogarile sale sunt precise, iar cele avansate ofera posibilitatea trierii exacte a
informatiei cautate. La prima interogare, Alta Vista informeaza despre numarul
documentelor gasite pentru fiecare cuvant specificat.
Apoi, afiseaza rezultatele, oferind titlul si URL-ul, primele cateva cuvinte din text,
dimensiunea fisierului, precum si data in care Alta Vista a inregistrat intrarea respectiva
in baza de date. Rezultatele primesc punctaje, fiind afisate in ordinea scorului obtinut.
De regula, Alta Vista cauta doar pe Web, dar ofera si optiunea de cautare in grupurile
de stiri Usenet.
Rafinarea cautarii se face usor, cu ajutorul operatorilor logici AND, OR si NOT,
completati de directiva NEAR, care specifica un cuvant din imediata apropiere.
Cautarea avansata permite limitarea rezultatelor in functie de data, limba etc.,
acordarea punctajului facandu-se dupa criterii specificate. Toate acestea fac din Alta
Vista un sit excelent pentru a incepe o cautare.
MSN Search
http://www.msn.com/
Critic
Un URL introdus greit n Internet Explorer duce automat la MSN Search.
Acest lucru este vzut de majoritatea criticilor ca o modalitate de cretere a
traficului prin acest motor de cutare .Dei exist un meniu de configurare
care permite schimbarea motorului de cutare implicit n Internet
Explorer,Google , principalul competitor al MSN, nu se afl n list.
Limbi
MSN Search este disponibil n mai multe versiuni de limb. Printre acestea
se afl chinez simplificat, chinez tradiional, ceh, danez, englez,
eston, finlandez, francez, german, greac, maghiar, italian,
japonez, corean, leton, lituanian, norvegian, olandez, polonez,
portughez, romn, rus, slovac, sloven, spaniol, suedez i turc.
Hoinareala pe Web poate fi o joaca, dar a gasi exact ceea ce cauti nu este
un joc de noroc si trebuie sa folosesti un motor de cautare potrivit.
Numite si paianjeni (spiders) sau taratoate (crawlers), da- torita modului In
care umbla prin paginile web pentru a gasi ceva anume, motoarele de
cautare (search engines) sunt locurile preferabile pen- tru a Incepe un
voiaj prin aceasta lume. Ele navigheaza prin Internet, indexeaza ceea ce au
gasit, va dau posibilitatea de a verifica listele gasite si va ofera rezultatele
sub forma de link-uri.
Am selectat pentru prezentare sapte motoare mai importante, cu scop
gene-ral. Pe langa acestea, diverse site-uri ofera si alte moduri de cautare.
Directoarele Web (Web directories), cum ar fi Yahoo, folosesc si motoare
de cautare si datele organizate de editori umani pentru a raspunde
interogarilor noastre si pentru a cerne" informatiile gasite. Iar site-urile de
meta-cautare (meta-search sites) ofera un acces comod la mai multe
motoare de cautare, marind sansele de a gasi ceea ce cautati. Toate aceste
unelte au un punct comun: fiecare se proclama ca cea mai buna In a gasi
exact ceea ce cautati pe Internet.
Pentru a rezolva dilema, am supus cele sapte motoare de cautare la o
varietate de teste, apreciind totodata si interfetele, posibilitatile de cautare
avansata si facilitatile suplimentare. Apoi am trecut In revista un numar de
meta-cautatoare si directoare, pentru a va forma o imagine mai
cuprinzatoare a ofertei existente pe Web.
Modul de testare
Este imposibila testarea exhaustiva a motoarelor de cautare: bazele lor de
date sunt prea mari, numarul interogarilor potentiale prea vast si, In fine,
exista factorul subiectiv: cum sa judecam, de exemplu, relevanta
rezultatelor unei cautari? Ceea ce putem face totusi este sa testam cat de
bine evita fiecare motor de cautare cele mai comune greseli: prezentarea
unor link-uri irelevante sau a unor pagini web care nu mai exista,
duplicarea link-urilor etc.
Am trimis aceleasi 30 de interogari fiecarui motor de cautare. Apoi am
evaluat primele 10 link-uri returnate, pe baza a trei criterii: numarul linkurilor relevante, numarul de duplicate si numarul link-urilor expirate (care
nu mai duc nicaieri). Pentru ca aprecierea relevantei unui link este
inevitabil subiectiva, aceasta este facuta de comun acord de doua
persoane.
Interogarile au fost introduse fara a folosi semne sau operatori speciali
(cum ar fi operatorii booleeni OR, +, -). Acestea au cuprins cuvinte simple
sau multiple, nume proprii, termeni continand numere si au acoperit o
anumita gama de domenii.
Rezultatele au fost ponderate astfel: acuratetea 37,5%, usurinta de
utilizare 25%, cautari avansate 25% si facili- tatile suplimentare 12,5%. In
fine, acestea sunt sintetizate In tabelul alaturat.
veti pierde mult timp alegand ceea ce va intereseaza, mai mult decat cu
oricare alt motor de cautare, cu exceptia lui Open Text Index si a lui
Northern
Light.
Mai mult, cautarea cu Excite necesita ceva pregatire preliminara. Acesta nu
returneaza doar paginile bazate pe cuvintele pe care le-ati introdus, ci si pe
conceptele pe care engine-ul le considera apropiate. De exemplu,
introducand elderly people" (oameni batrani, In varsta), Excite va returna
si pagini despre structura populatiei In Thailanda. Aceasta abordare
(numita Intelligent Concept Extraction) produce o gama mai larga de
raspunsuri In comparatie cu alte motoare de cautare, astfel Incat trebuie sa
va alegeti cu grija cuvintele. Pe de alta parte, Excite va ofera o lista de
cuvinte suplimentare care sa va ajute In rafinarea interogarii.
Oricum, optiunea Power Search (cu facilitatile booleene echivalente doar
cu MUST si NOT) greu se poate compara cu sofisticatele mecanisme de
cautare
din
Alta
Vista
sau
HotBot.
Desi ofera un numar substantial de facilitati nelegate direct de cautare,
acestea nu compenseaza incapacitatea engine-ului Excite de a va aduce
pe
ecran
ceea
ce
cautati.
HotBot
Avand cea mai buna interfata grafica, HotBot (http://www.hotbot.com) este
castigatorul testului pentru toate felurile de cautari. Este de remarcat aici
numele firmei Inktomi, a carei tehnologie de cautare sta la baza motorului
HotBot si care a fost licentiata de Microsoft pentru propriul sau motor de
cautare
In
curs
de
realizare.
Desi ofera mai multe pagini irelevan-te decat Infoseek, HotBot este totusi
pe locul 2 In ce priveste acuratetea, rareori oferind link-uri la pagini care nu
mai exista, ceea ce este un indiciu clar ca indexurile engine-ului sunt la zi.
Portretul
unui
campion
_
HotBot
Uneltele extrem de flexibile fac foarte usoara constructia interogarilor complexe
direct
din
homepage.
De asemenea, puteti da clic pe unul din link-urile din bara de navigatie
pentru
a
accesa
respectiva
categorie.
Daca doriti sa cautati In pagini web, puteti stabili tipul cautarii: dupa titlu,
fraze exacte, URL (Universal Resource Locator _ adresa Internet) sau doar
Intr-un anumit domeniu (prin optiunea SuperSearch) si puteti stabili
perioada de timp si zona geografica. Puteti vizualiza Intre 10 si 100 de linkuri pe o pagina, cu descrieri sumare sau extinse sau doar URL-ul. Link-urile
pot fi des chise Intr-o fereastra separata, astfel Incat lista de unde ati pornit
va
ramane
vizibila
In
fereastra
originala.
SuperSearch, unealta de cautare avansata adauga noi facilitati: selectia
mediului (Java, VBScript si ActiveX), un domeniu de date calendaristice
mai detaliat si posibilitatea de a limita cautarile la anumite pagini sau siteuri.
Desi nu poate concura cu Excite sau Infoseek ca destinatie Web _ Ii
lipsesc serviciile suplimentare, ca e-mail gratuit, pagini de pornire
Simple Search. Aici puteti introduce pana la 5 cuvinte sau fraze si sa-i
spuneti motorului unde sa le caute: In titlu, subtitlu, URL sau sumar. Sunt
disponibili
si
5
operatori
booleeni
Intr-o
lista
pull-down.
Bazandu-se doar pe cateva facilitati de baza, Open Text nu ofera mai nimic
In plus, asa cum fac cele mai multe motoare. Singurul cadou este o scurta
lista
de
site-uri,
ascunse
sub
meniul
Discover.
Treceti
si
pe
aici
daca
nu
aveti
altceva
de
facut!
Ce
va
trebuie
Motoarele de cautare va ofera ceea ce cautati, dar fiecare In felul sau.
Pentru a determina care motor este cel mai potrivit pentru ceea ce vreti sa
obtineti,
orientati-va
dupa
urmatoarele
criterii.
Acuratetea este probabil cea mai importanta calitate. Un motor de cautare
care furnizaza sistematic informatii incorecte este mai rau decat lipsa lui.
Invers, cu cat paginile returnate sunt mai la subiect, cu atat mai usor veti
gasi ceea ce cautati. Infoseek este primul la acest capitol. De asemenea,
trebuie sa aveti In vedere numarul de duplicate (cu cat mai putine, cu atat
cautarea va fi mai rapida) si link-urile nefunctionale (aceasta arata cat de
des si cat de bine Isi actualizeaza motoarele indexurile). Infoseek a dat
cele mai putine duplicate, In timp ce HotBot cel mai mic numar de link-uri
expirate.
Merita
trecut
pe
acolo!
Usurinta In utilizare este un alt criteriu foarte important. Pentru multi
utilizatori poate cel mai important. Toate motoarele utilizeaza In esenta
acelasi mecanism pentru cautari simple _ un camp pentru introducerea
cuvintelor-cheie si un buton de pornire a cautarii _, dar poate doriti si
altceva: cautari In alte zone ale Internet-ului decat Web-ul, schimbarea
lungimii descrierilor de pagina, combinarea duplicatelor etc. HotBot este
campionul usurintei de utilizare, dar nici Excite, Infoseek si Lycos nu sunt
departe.
Uneltele de cautare avansata sunt cele care va permit sa plonjati In
abisurile Internet-ului. Cu exceptia Infoseek si Northern Light, toate
celelalte au asa ceva. Cele mai bune dispun de interfete grafice (meniuri
pull-down si check box-uri), operatori booleeni si posibilitati de
restrictionare a cautarilor _ dupa data calendaristica, localizare sau tip de
date (imagini, audio, applet-uri Java etc). La acest punct Alta Vista este cel
mai capabil, dar greu de utilizat. HotBot este o alegere mai buna pentru
multi
scafandri"
ai
Internet-ului.
Facilitatile suplimentare sunt frisca de pe tort, care au ca scop atragerea
utilizatorului la respectivul site (cu cat traficul la acel site este mai important
cu atat va fi mai atragator pentru cei care-si fac reclama pe Internet). Cele
mai importante facilitati sunt directoarele web si asa numitele content
channels care va conduc direct la paginile de interes (stiri, sport, distractie,
vreme).
La
final
Desi nu este cea mai buna solutie pentru toate felurile de cautari, HotBot