You are on page 1of 11

A internet e o mito da visibilidade universal

Joaquim Paulo Serra

ndice
1 Introduo 1 2 A importncia da visibilidade 1 3 Os modos grego e moderno da visibilidade 2 4 A Internet e os critrios de relevncia 4 dos motores de busca 4.1 Os critrios de relevncia dos 5 motores de busca . . . . . . . . 4.2 Questionamento dos critrios de relevncia dos motores de busca 8 5 Concluso 10

Introduo

O grande paradoxo do artista ter de tornar invisvel a visibilidade do artifcio com que torna visvel esse invisvel. Verglio Ferreira, Pensar

virtual - como, alis, no espao real que o antecedeu e com ele coexiste - a regra tem sido a particularidade e a desigualdade em termos daquela visibilidade; uma situao que, ainda que a propsito da ordem do discurso, foi oportunamente tematizada por Foucault. A Internet, e em particular a world wide web, foi antevista, pelos seus fundadores, como um espao que, dada a sua innidade virtual, derivada da sua virtualidade innita, permitiria, nalmente, assegurar a universalidade e a igualdade em termos de visibilidade. Pretendemos, na nossa comunicao, demonstrar que o funcionamento dos sistemas automticos de busca de informao, mais concretamente dos motores de busca, assenta em critrios de relevncia que impedem, desde logo, a efectivao de tal universalidade e tal igualdade; que, no fundo, a Internet no representa, neste aspecto, seno a velha poltica por novos meios.

A existncia dos homens como seres vivos polticos (zoon politikon) pressupe, antes de mais, a visibilidade de uns perante os outros no quadro de um espao comum. Nas sociedades modernas, com as suas cidades, os seus estados nacionais e as suas organizaes supranacionais, esse espao tornou-se, cada vez mais, um espao virtual, assegurado nos e pelos media. Neste espao

A importncia da visibilidade

Universidade da Beira Interior

H uma tradio losca que, inspirandose numa certa leitura de Parmnides e da sua distino entre a via da verdade (aletheia) e a via da opinio (doxa), se obstinou em opor a realidade aparncia e desvalorizar totalmente a segunda em relao pri-

2 meira1 . No entanto, como observa Hannah Arendt, e pelo menos no que realidade humana se refere, a aparncia constitutiva da prpria realidade2 . Mas, para ser efectiva, esta aparncia ou visibilidade exige o espao pblico: um espao que, mais do que um espao em si, fsico, literal, que os homens se limitariam a ocupar e a tornar comum, antes um espao virtual, simblico, criado mediante a aco (praxis) e o discurso (legein)3 de cada um perante todos os outros4 . Qui nenhum episdio ilustre to bem - seja pelo tom trgico, seja pelo contraste que envolve - esta importncia da visibilidade de uns perante os outros na denio da condio humana quanto o episdio em que, conhecida a terrvel verdade acerca do assassnio do seu pai Laio e do
Cf. Jean Brun, Os Pr-Socrticos, Lisboa, edies 70, s/d, pp. 61-67 2 Para ns, a aparncia - alguma coisa que est a ser vista e ouvida tanto pelos outros como por ns constitui a realidade. Hannah Arendt, The Human Condition, The University of Chicago Press, 1989, p. 50. Como uma das melhores ilustraes deste papel decisivo da mera aparncia, de nos distinguirmos e sermos conspcuos no domnio dos negcios humanos, H. Arendt d o exemplo dos trabalhadores que, quando zeram a sua entrada na cena da histria, sentiram a necessidade de adoptar um vesturio prprio, o sans-cullote, do qual, no decorrer da Revoluo francesa, derivou mesmo o seu nome. Ibidem, p. 218. Note-se que Hannah Arendt utiliza o termo appearence que pode, neste contexto, traduzir-se quer por aparncia quer por aparecer; no que se segue utilizamos intencionalmente o primeiro termo, jogando com a ambiguidade semntica que ele comporta. 3 A linguagem desempenha um papel to essencial neste processo que, como sabido, ao denir o homem como ser vivo poltico (zoon politikon) Aristteles dene-o, tambm, como ser vivo capaz de discurso (zoon logon ekhon). Cf. Aristteles, Poltica, Livro I, 1253a5-15, Lisboa, Vega, 1998, p. 55. 4 Hannah Arendt, op. cit., pp. 198-199.
1

Joaquim Paulo Serra

casamento com sua me Jocasta, dipo, optando por uma expiao que contraria a determinao dos deuses, que previa o exlio ou a morte, decide vazar os olhos5 . Pese embora todo o peso da interpretao freudiana, que v o acto de dipo como smbolo da castrao, preferimos ater-nos aqui s palavras do prprio heri e das quais ressalta, como sua motivao fundamental, a impossibilidade de encarar - olhos nos olhos, como se diz - no Hades, os seus pais, e, na Cidade, os seus lhos e os seus concidados em geral. A cegueira que dipo ininge a si prprio representa, assim, mais do que a bvia recusa de ver, a recusa de se ver a ser visto: o exlio voluntrio, em si prprio, na Cidade que outrora o aclamou como heri e viso da qual ele no quer, de forma alguma, eximir-se atravs da morte.6

Os modos grego e moderno da visibilidade

Reconhecer a importncia da visibilidade no equivale, no entanto, a armar a identidade das suas modalidades. possvel, nomeadamente, distinguir entre uma modalidade prpria do espao pblico dos gregos, centrado na ideia de polis, e uma modalidade prpria do espao pblico burgus, centrado na categoria de publicidade.7 A primeira pode ser caracterizada, de forma
Cf. Sfocles, Rei dipo, verso 1330, Lisboa, Edies 70, 1999, p. 142. 6 Cf. ibidem, versos 1441-1443, p. 145. 7 Seguimos aqui a distino de Jean-Marc Ferry, Las transformaciones de la publicidad politica, in Jean-Marc Ferry, Dominique Wolton y Otros (org.), El Nuevo Espacio Publico, Barcelona, Gedisa, 1995, pp. 13 ss.
5

www.bocc.ubi.pt

A internet e o mito da visibilidade universal

sumria, como presencial - assenta na presena fsica de cada cidado perante todos os outros no quadro de um espao comum, de que a agora o smbolo por excelncia -, igualitria - no sentido de uma igualdade agonstica, constituindo os cidados uma comunidade de iguais (homoioi) de que cada um procura, pela sua aco e pelo seu discurso, atingir uma excelncia (aret) que lhe permita distinguir-se de todos os outros8 - e exclusiva - ela est reservada aos cidados e aco e ao discurso destes no espao pblico, excluindo todos aqueles - mulheres, crianas e escravos - e todas as actividades biolgicas, afectivas, produtivas - que s tm lugar no espao privado. Entendida desta forma - grega - a visibilidade confunde-se com a prpria cidadania, denida por Aristteles como a capacidade de participar na administrao da justia e no governo.9 A visibilidade de cada um perante todos os outros que caracteriza a polis grega pressupe obviamente, como condies fundamentais, um territrio e um nmero de cidados limitados.10 Numa sociedade como a moderna, em que o territrio, o nmero de cidados e a complexidade da vida social aumentaram indenidamente, conduzindo progressivamente de um homem xado ao solo, localizado e enraizado a um homem mvel, nmada e animado pelo ideal de ubiquidade11 , a visibilidade torna-se uma
Cf. Hannah Arendt, op. cit., pp. 41, 48-49 Aristteles, Poltica, Lisboa, Vega, 1998, Livro III, 1275a20-25, p. 187. Como adiante esclarece Aristteles, esta denio de cidado sobretudo a do cidado num regime democrtico (ibidem, 1275b5, p. 189). 10 Cf. ibidem, Livro VII, 1326b10-20, p. 499; Hannah Arendt, op. cit., p. 43. 11 Paul Valry, Notre destin et les lettres, in Nuvres II, Paris, Gallimard, 1993, p. 1063.
9 8

visibilidade in absentia, que se efectiva num espao - o espao pblico burgus - cuja origem e existncia indissocivel dos media, mais especicamente da imprensa. Enquanto tipo ideal, iluminista, este espao aparece como um espao em que todos os indivduos, em condies de paridade, fazem uso pblico da razo, com a publicitao das suas ideias e a defesa argumentativa das suas posies12 ; em que, portanto, cada um tem direito visibilidade perante todos os outros. Ora, cabe-nos hoje constatar que, desde o tempo em que foi construdo, os factos no se tm cansado de contrariar tal tipo ideal. Com efeito, e como o mostra a reconstruo que Luhmann faz do conceito de opinio pblica13 , o funcionamento dos media, mais especicamente da imprensa e do audiovisual, assenta em certas formas e distines14 que determinam o que visto e o que no visto, o que dito e o que no pode ser dito15 , de um modo tal que a evidncia do que visto e dito - os temas da opinio pblica, as notcias e os comentrios na imprensa e no audiovisual - tem por funo esconder e encobrir o que no visto nem dito, que apenas o realmente importante.16 O que esta reconstruo tambm
Joo Pissarra Esteves, A tica da Comunicao e os Media Modernos, Lisboa, FCG-JNICT, 1998, p. 203. 13 Cf. Niklas Luhmann, Complexidade societal e opinio pblica, in A Improbabilidade da Comunicao, Lisboa, Vega, 1993. 14 J que, como diz Luhmann, as formas assentam sempre em distines (ibidem, p. 77). Luhmann refere-se, nomeadamente, s distines de tempo - antes/depois (a novidade) -, de quantidade -mais/menos - e de posies de conito - a favor/contra. 15 Ibidem, p. 83. 16 Ibidem, p. 85. Como observa Elisabeth NoelleNeuman, ainda que a propsito de um outro texto
12

www.bocc.ubi.pt

Joaquim Paulo Serra caso do homem que morde o co18 , mas que no visam, em princpio, a visibilidade meditica -, e os provocadores - os indivduos que desencadeiam aces que visam, em primeiro lugar, a obteno de uma visibilidade meditica forada ou violenta, congurando aquilo a que Adriano Duarte Rodrigues chama os meta-acontecimentos.19 Note-se que estas guras ou categorias no s no so mutuamente exclusivas - a mesma pessoa pode ser, simultaneamente, um notvel e um desviante, como no caso do prncipe ingls, menor, que se embriaga - como o facto de um mesmo indivduo gurar em mais do que uma gura ou categoria s o valoriza como centro de visibilidade; diramos, alis, que o mximo de visibilidade meditica - a notcia explosiva, como por vezes se diz - existe sempre que uma estrela se torna tambm cometa.

signica que o chamado espao pblico meditico, longe de ser um espao universal e igualitrio, um espao em que s podem tornar-se visveis, ser vistos e ouvidos - ser sujeitos e/ou objectos dos temas, das notcias e dos comentrios de que fala Luhmann -, os indivduos que se enquadram em guras ou categorias muito especcas. Utilizando uma linguagem mais ou menos metafrica, e apenas a ttulo indicativo, diremos que essas guras ou categorias giram volta da distino central entre estrelas - entendendo por tal os indivduos que so, como se diz, famosos, cuja visibilidade um processo mais ou menos contnuo e cumulativo - e cometas - entendendo por tal aqueles que so, como tambm se diz, ilustres desconhecidos, cuja visibilidade descontnua e pontual. No primeiro termo da distino incluem-se, nomeadamente, os mediadores - os prprios prossionais dos media que, tendo como funo garantir a visibilidade a determinados indivduos, a garantem em primeiro lugar a si prprios - e os notveis - os indivduos que se destacam em determinados campos da vida econmica, poltica, social, cultural, desportiva, etc.17 No segundo termo incluem-se, nomeadamente, os desviantes os cidados comuns que so sujeitos ou objectos de acontecimentos que escapam continuidade e normalidade das coisas, como no
de Luhmann, esta sua concepo de opinio pblica aproxima-se dos resultados a que chegaram os investigadores americanos da comunicao, nomeadamente os ligados agenda-setting function. Cf. Elisabeth Noelle-Neuman, La Espiral del Silencio, Barcelona, Paids, 1995, pp. 201-202. 17 a estes indivduos que se refere, fundamentalmente, o conceito de media events cunhado por Daniel Dayan e Elhiu Katz. Cf. A Histria em Directo. Os acontecimentos mediticos na televiso, Coimbra, Minerva, 1999.

A Internet e os critrios de relevncia dos motores de busca

A Internet est, desde os seus incios - rerome aos acadmicos e cientcos -, ligada utopia iluminista de uma visibilidade universal e igualitria, ou, como diz Antnio Fidalgo, de uma rede sem centros nem periCf. Adriano Duarte Rodrigues, O acontecimento, in Nelson Traquina (org.), Jornalismo: Questes, Teorias e "Estrias, Lisboa, Vega, 1993. Acrescente-se que muito daquilo a que hoje se chama a aco poltica, protagonizada quer pelo governo quer pelas oposies passa hoje, em grande medida, pela organizao destas provocaes - retomamos, propositadamente, esta designao da rea dos servios de informao e contra-informao - e pela visibilidade que elas conseguem nos media. 19 Cf. ibidem.
18

www.bocc.ubi.pt

A internet e o mito da visibilidade universal ferias.20 certo que a Internet se distingue da imprensa e do audiovisual pelo facto de o acesso ao seu espao no estar, em princpio, condicionado por quaisquer mecanismos prvios de ltragem da informao: qualquer um, em qualquer lugar, em qualquer tempo, pode publicar a o que quiser. Mas publicar no , obviamente, sinnimo de ser visto ou ouvido. O mesmo dizer que tambm aqui existem determinados mecanismos de ltragem, de seleco e de excluso - s que eles exercem-se a posteriori, sobre o oceano de informao que vai sendo acumulada. Recorrendo imagem da caixa negra, diremos que o que condicionado, agora, so no as entradas - tudo e todos podem entrar - mas as sadas; e condicionadas em funo de critrios muito especcos, como o demonstra o funcionamento dos motores de busca.

4.1

Os critrios de relevncia dos motores de busca

Basicamente podemos reduzir a trs as formas como pesquisamos a informao na Web, e que, no sendo incompatveis umas
Cf. Antnio Fidalgo, Metfora e realidade ou cooperao e concorrncia na rede, 2001, disponvel em www.bocc.ubi.pt. Atente-se, a propsito, na declarao do homem que, em 1989, inventou a www: Eu tive (e ainda tenho) um sonho de que a Web podia ser menos um canal de televiso e mais um mar interactivo de conhecimento partilhado. Imagino-o imergindo-nos como um meio ambiente quente e amigvel, feito de coisas que ns e os nossos amigos vimos, ouvimos, acreditmos ou imaginmos. Eu gostaria que ele tornasse os nossos amigos e colegas mais prximos, de forma a que, trabalhando neste conhecimento em conjunto, chegssemos a uma melhor compreenso. Tim BernersLee, Hypertext and Our Collective Destiny, 1995, http://www.w3.org/Talks/9510_Bush/Talk.html.
20

com as outras podem mesmo ser vistas como complementares: a consulta de um stio do qual conhecemos previamente o endereo, quer porque nos foi indicado por um outro signicativo, quer porque corresponde a uma instituio/organizao reconhecida, quer ainda porque o encontrmos no decurso de uma pesquisa anterior, etc; a navegao sem destino certo atravs do labirinto das ligaes hipertextuais, que nos vai levando de pgina para pgina, de documento para documento, muito ao estilo do neur de Baudelaire; a pesquisa atravs das directorias e dos motores de busca, orientada por uma palavra-chave ou uma expresso especcas.21 Em relao s duas primeiras formas, a terceira, que , segundo os dados disponveis, a forma mais vulgarizada de pesquisa de informao na Web22 , coloca um problema especial: o da seleco das pginas Web relevantes de entre as centenas, os milhares e mesmo os milhes que podem ser obtidas como resposta nossa pesquisa. certo que podemos sempre, seja atravs de palavras-chave ou expresses mais especializadas, seja atravs dos operadores booleanos, quando utilizveis, estreitar o mbito da nossa pesquisa e, assim, diminuir a quantidade de pginas Web obtidas; mas um tal estreitamento e uma tal diminuio comporta sempre o risco de eliminarmos pginas Web que at poderiam vir a revelar-se como mais relevantes do que as seleccionadas. Este proAs duas ltimas formas costumam ser distinguidas atravs dos termos browsing e searching, respectivamente. A pesquisa orientada por uma palavrachave, keyword, ou uma expresso, phrase, costuma ser designada keyword searching. 22 Cf. Danny Sullivan, GVU Survey Results (1998), Search Engine Watch, http://searchenginewatch. com/reports/gvu.html.
21

www.bocc.ubi.pt

Joaquim Paulo Serra

blema da seleco, crucial quer para aqueles que colocam a informao na Web e almejam, portanto, a ateno de e a visibilidade perante cada um dos cibernautas, quer para aqueles que, por uma ou outra razo, por exemplo de investigao, fazem pesquisa de informao na Web, tanto mais relevante quanto se sabe que, na sua maior parte, os pesquisadores da Web tendem a dar ateno apenas s dez ou vinte primeiras pginas Web seleccionadas pelos motores de busca. A questo que se coloca , portanto, a seguinte: quais so os critrios que determinam que umas pginas sejam consideradas, pelos motores de busca, como mais relevantes do que outras e sejam, consequentemente, apresentadas em primeiro lugar? Em relao a esta questo temos de fazer uma distino entre os motores de busca ditos da primeira gerao, de que o Lycos e o Altavista so dois dos exemplos mais antigos e conhecidos, e os ditos da segunda gerao, de que o Google e o Clever23 so dois dos exemplos mais importantes e a cujo funcionamento aqui dedicaremos uma especial ateno. Para a determinao da relevncia das pginas Web, e apesar da diferena na forma como os aplicam - ou, como tambm se pode dizer, da diferena dos seus algoritmos de ordenao24 -, os motores da primeira gerao baseiam-se em critrios como os seguintes: a frequncia absoluta ou relativa - tomando ou no em considerao o tamanho da pgina Web - da
Ainda que o Clever da IBM seja, ainda hoje, mais um projecto em experimentao do que um motor de busca em funcionamento efectivo, tem interesse analisar o conceito em que assenta - at por comparao com o do Google. 24 Traduzimos deste modo a expresso ranking algorithms.
23

palavra-chave ou da expresso nas pginas Web e, eventualmente, o seu destaque mediante um tipo especial de letra; a posio da palavra-chave ou da expresso nas pginas Web, nomeadamente a sua colocao em lugares estratgicos como o ttulo, o subttulo, a seco inicial, as meta-etiquetas, as meta-descries, etc.; o peso relativo de certos termos nas pginas Web que contm as palavras-chave ou as expresses, tendo em considerao factores como a presena de termos no habituais ou incomuns, o desprezo das chamadas stopwords25 , etc.; a proximidade das palavras-chave ou das expresses em relao a certos termos que, por isso mesmo, sero tambm considerados relevantes. No entanto, a utilizao destes critrios apresenta vrios problemas, de entre os quais se destacam a sua grande permeabilidade em relao s diversas tcnicas de spam26 , a sua diculdade ou mesmo impossibilidade em lidarem com fenmenos tpicos da linguagem
Stopwords so palavras - como preposies, conjunes, artigos, etc. - que, por norma, se repetem em qualquer texto e que, precisamente por isso, podem ser desprezadas quando se trata de vericar e avaliar o contedo especco de um certo texto. 26 No contexto dos motores de busca, spam designa o conjunto de processos, considerados eticamente reprovveis, mediante os quais o criador de uma determinada pgina Web intenta forar os motores de busca a seleccionarem essa pgina numa determinada pesquisa. Dois dos mais conhecidos e utilizados nos primeiros tempos dos motores de busca da primeira gerao so: a repetio de uma certa palavra - supostamente, a que constituir a palavra-chave de uma eventual busca - de forma a aumentar a sua frequncia na pgina; a insero de texto invisvel vista desarmada, recorrendo quer eliminao do contraste gura-fundo quer utilizao de caracteres minsculos. Actualmente a generalidade dos motores de busca utiliza processos que permitem contrariar, de forma mais ou menos efectiva, estes e outros processos de spam.
25

www.bocc.ubi.pt

A internet e o mito da visibilidade universal

natural como a sinonmia, a homonmia ou a exo das palavras27 , o carcter quase unilingue da Web - que por enquanto, mais do que uma World Wide Web, uma English Wide Web, e isto apesar de alguns motores de busca j comearem ter verses em vrias outras lnguas.28 Em consequncia destes problemas, o resultado de um pesquisa nos motores de busca da primeira gerao era, habitualmente, algumas pginas Web relevantes no meio de uma imensido de pginas irrelevantes ou mesmo despropositadas em relao busca. Na tentativa de ultrapassarem a cegueira quantitativa29 dos motores de busca da primeira gerao, os motores de busca da segunda gerao utilizam critrios de relevncia que permitem agrup-los em duas grandes categorias: os que, como o Excite, o Northern Light, o Inference Find, o Oingo e o SimpliFind, determinam a relevncia das pginas Web em funo de um conceito ou campo semntico , de tal forma que so consideradas como relevantes todas as pginas circunscritas a tal conceito ou campo semntico30 ; os que determinam a relevncia das pginas Web em funo do comportaAssim, por exemplo, lms pode no dar os resultados referentes a movies ou cinema, jaguar tanto pode referir-se ao animal como marca de automvel, car e cars podem dar resultados totalmente diferentes. 28 Estes problemas afectam tambm, e de forma decisiva, a indexao automtica da informao - nomeadamente pelo facto de implicarem uma capacidade de computao que atrasa inexorvel e crescentemente a indexao da Web em relao ao seu crescimento. 29 Retomamos a expresso de Laura Cohen, Second Generation Searching on the Web, Feb. 2001, http://library.albany.edu/internet/second.html. 30 A chamada concept-based searching.
27

mento dos utilizadores da mesma. Nesta segunda categoria h a considerar, por sua vez, duas subcategorias: os motores de busca que, como o Google e o Clever, tm em conta a estrutura de ligaes hipertextuais que os utilizadores vo construindo, o que permite determinar quais as pginas Web que constituem quer autoridades31 - pginas para que apontam ligaes de pginas em grande quantidade ou de pginas que so, elas prprias, autoridades32 - quer centros - pginas que apontam para pginas que so consideradas autoridades; os motores de busca que, como o DirectHit, ou motor da popularidade, tm em conta as pginas que os utilizadores visitaram em pesquisas anteriores similares, considerando como mais relevantes as pginas mais visitadas. O que de imediato ressalta, em ambos as categorias de motores de busca, e o que verdadeiramente marca a grande diferena dos motores da segunda gerao em relao aos da primeira, a importncia crescente que tem vindo a assumir o factor humano33 na determinao dos seus critrios de relevncia; uma tendncia que tambm se poderia caracterizar dizendo que, se nos motores de busca da primeira gerao os critrios
Ou pginas dotadas de source authority, no sentido em que uma pgina apontada pelo Yahoo - exemplo dos criadores do Google - ter mais autoridade do que se for apontada por uma pgina do sr. X. 32 A principal diferena entre o Google e o Clever que, enquanto o primeiro centra a determinao da relevncia na utilizao das autoridades, o segundo pretende utilizar, de forma conjugada, autoridades e centros ou hubs; para alm disso o Google utiliza, complementarmente, critrios como a proximidade, tpicos dos motores de busca da primeira gerao. 33 Aquilo a que, no texto atrs citado, Laura Cohen chama the human element.
31

www.bocc.ubi.pt

Joaquim Paulo Serra var o problema que procura resolver.34 Em relao aos problemas especcos, o problema principal da pesquisa baseada em conceitos, na utilizao dos conceitos ou campos semnticos como critrios de relevncia, reside na diculdade do estabelecimento preciso e objectivo, seja por meios estatsticos e mecnicos, seja por meios qualitativos e humanos35 , das relaes semnticas entre os termos; alm disso, alguns dos problemas de linguagem que afectam os motores da primeira gerao, nomeadamente a homonmia, no s no so resolvidos como acabam mesmo por se multiplicar neste tipo de pesquisa. Quanto aos critrios de relevncia que assentam na popularidade ou na autoridade, e apesar do sucesso que, sobretudo os segundos, tm vindo a ter36 , eles coloEste , tambm, um dos problemas que afectam os chamados motores de meta-busca (meta-search engines), a que adiante nos referiremos. 35 Na abordagem estatstica, o conceito construdo pelo motor de busca a partir dos termos que, de forma estatisticamente relevante, tendem a ocorrer simultaneamente com as palavras que orientam a busca; na abordagem qualitativa/humana, o conceito construdo a partir de uma base de conhecimento (knowledge base) ou thesaurus, dando conta das relaes semnticas - sinonmia, homonmia, hiponmia-superordenao, relao parte-todo, etc. - entre os diversos termos de uma lngua. O projecto WordNet, desenvolvido por George A. Miller e colegas na Universidade de Princeton, um dos mais conhecidos exemplos desta segunda abordagem. Cf. George A. Miller, Richard Beckwith, Christane Fellbaum, Derek Gross, Katherine Miller, Introduction to WordNet: An On-line Lexical Database (Revised August 1993), ftp://ftp.cogsci.princeton.edu/pub/wordnet/5papers.pdf. 36 Referimo-nos nomeadamente ao Google, considerado consecutivamente em 2000 e 2001 como o melhor motor de busca em aspectos essenciais como a quantidade de pginas web indexadas, a qualidade do servio de busca da informao - em termos de
34

de relevncia eram essencialmente sintcticos, j nos da segunda gerao eles so essencialmente semnticos e pragmticos - o que no exclui, em muitos casos, alguns dos critrios sintcticos, e problemas, dos motores de busca da primeira gerao -, levando em linha de conta a actividade humana de atribuio de sentido.

4.2

Questionamento dos critrios de relevncia dos motores de busca

O anterior no signica, no entanto, que os critrios de relevncia dos motores de busca da segunda gerao - referimo-nos, nomeadamente, relevncia por conceito ou campo semntico e relevncia por popularidade e por autoridade - no sejam problemticos e/ou no possam ser questionados. Podemos distinguir, a este respeito, entre problemas gerais, comuns a todos os tipos de critrios de relevncia e problemas especcos, que se referem a um ou a outro dos tipos de critrios de relevncia. Em relao aos problemas gerais, um problema que os motores de busca da segunda gerao herdaram dos da primeira gerao o carcter globalmente relativo dos critrios de relevncia, no sentido em que um mesmo documento d pode ser considerado como muito relevante pelo motor de busca X e pouco relevante pelo motor de busca Y; uma relatividade que parece apontar, partida, para a necessidade de qualquer pesquisa utilizar mais do que um motor de busca uma soluo que, no entanto, acaba por agra-

www.bocc.ubi.pt

A internet e o mito da visibilidade universal

cam alguns problemas de fundo. O primeiro desses problemas o seguinte: tais critrios no condenaro as novas pginas Web, que, como so novas, no podem ser nem populares nem citadas, a uma invisibilidade inultrapassvel, correndo-se assim o risco de excluir da Web informao que at poderia ser mais relevante do que a j existente e limitando, consequentemente, a prpria riqueza da Web? O segundo desses problemas o seguinte: o mais popular ou o mais citado ser necessariamente o mais relevante? Quanto ao mais popular, a resposta negativa parece bvia - podendo mesmo armarse que os motores de busca que assentam em tal critrio mais no fazem do que desempenhar, na Web, o papel que os chamados mass media desempenham, h muito, fora da Web. Quanto ao mais citado - ao dotado de maior autoridade, para utilizarmos um termo j referido -, o caso do Google exemplar a este respeito e merece uma anlise mais detalhada.37 A coluna vertebral do Google o PageRank, um mtodo para avaliar as pginas Web objectiva e mecanicamente, medindo efectivamente o interesse e a ateno humanos a ela devotados.38 Intuitivamente, o Parapidez e relevncia - e o carcter amigvel do design. Cf. Danny Sullivan, 2001 Search Engine Watch Awards, SearchEngineWatch.com, Feb. 6, 2002, http://searchenginewatch.com/awards/2001winners.html. 37 Para uma descrio da arquitectura e dos princpios do Google pelos seus criadores, cf. Sergey Brin, Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, 1998, http://www-db. stanford.edu/pub/papers/google.pdf 38 Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, The PageRank Citation Ranking: Bringing Order to the Web, 1998, http://citeseer.nj.nec.com/368196.html.

geRank pode ser descrito dizendo que, no contexto global da Web, uma pgina tem uma classicao alta se a soma das classicaes das ligaes que apontam para ela alta39 - o que signica que a classicao da pgina depende tanto da quantidade das ligaes que apontam para ela quanto da importncia dessas mesmas ligaes, sendo, portanto, completamente independente do contedo dessa mesma pgina.40 A classicao de cada pgina permite denir a sua autoridade relativa, de um modo que se inspira de forma directa no factor de impacto teorizado por Eugene Gareld, o fundador do Science Citation Index, e com aplicao no domnio da citao cientca41 - considerandoIbidem. No entanto, e como j referimos em nota anterior, o Google recorre tambm, a ttulo complementar, a critrios mais tradicionais como o tipo de letra, a posio dos termos na pgina, a proximidade da pgina com outras pginas, etc., tpicos dos motores de busca da primeira gerao. 41 O factor de impacto ou impact factor obtm-se dividindo o nmero de vezes que uma revista cientca foi citada pelo nmero de artigos que publicou durante um perodo de tempo especco. O factor de impacto da revista reectir, portanto, um valor mdio de citao por artigo publicado. Eugene Gareld, Citation Analysis as a Tool in Journal Evaluation, Essays on Information Scientist, Vol. 1, pp. 527544, 1962-73, reprinted from Science, (178): 471479, 1972, p. 537. A formulao de um tal factor resulta da constatao objectiva de que, para alm de factores como o mrito cientco, a reputao do autor, o carcter controverso do assunto, a circulao da revista, etc., cujo peso relativo difcil seno impossvel determinar, quanto maior for o nmero de artigos publicados por uma revista maior a possibilidade de tal revista ser citada - de tal modo que a frequncia de citao de uma revista cientca uma funo no apenas do carcter signicativo do material que ela publica (e de que a citao um reexo) como tambm da quantidade [de artigos] que ela publica. Ibidem. Para alm do ensaio citado, cf. os seguintes
40 39

www.bocc.ubi.pt

10

Joaquim Paulo Serra

se, para o efeito, que uma ligao da pgina p para a pgina q equivale citao de q por p e, mutatis mutandis, que a citao do trabalho cientco t pelo trabalho cientco s equivale a uma ligao de s para t. Contudo, e como reconhecem os prprios criadores do Google, h uma diferena abissal entre o que se passa no domnio da citao cientca e o que se passa no domnio das ligaes da Web: no caso do primeiro, os artigos citados so-no por membros de uma comunidade de interpretao que tem os seus mecanismos de seleco da informao bem denidos e os aplica de forma bastante rgida e formalizada42 - e que, em termos gerais, impede que a publicao cientca se transforme naquilo a que Georg Franck chama uma feira de vaidades43 ; j no caso do segundo a citao no obedece a quaisquer mecanismos de seleco, de tal modo que, em princpio, qualquer um pode criar as pginas que quiser, incluindo o tipo de informao que quiser e lig-las a quaisquer outras - e no necessariamente pelas melhores
ensaios de Gareld: Citation Indexes for Science: a New Dimension in Documentation through Association of Ideas, Science, Vol. 122, No 3159, pp. 108111, July 15, 1955; Citation Indexes - New Paths to Scientic Knowledge, The Chemical Bulletin, Chicago, 43(4): 11-12, April 1956; Citation Analysis as a Tool in Journal Evaluation, Essays on Information Scientist, Vol. 1, pp. 527-544, 1962-73 (reprinted from Science, 178: 471-479, 1972). 42 As obras epistemolgicas de Thomas Kuhn, Karl Popper e Paul Feyerabend podem ser tomadas, no seu conjunto, como bons exemplos da anlise - de que no est ausente um tom fortemente crtico - destas mesmas prticas. 43 Cf. Georg Franck, Scientic Communication - a Vanity Fair?, Science Magazine, Volume 286, Number 5437, Issue of 1 Oct. 1999, pp. 53-55, http://www.sciencemag.org/cgi/content/ full/286/5437/53.

razes. Deste modo, caberia aqui observar, com Tom Koch, que o que a evoluo do online no mudou a necessidade de pesar as fontes e avaliar declaraes luz de algum critrio externo.44 precisamente esse problema que, ao fazer a distino entre autoridades e centros, o projecto do Clever pretende ultrapassar, delineando os princpios de uma pesquisa focada em tpicos especcos e dando a perceber as comunidades hiperligadas a que tais tpicos correspondem.45

Concluso

Se verdade que, como refere Roland Barthes, e sendo o mito uma fala, tudo o que passvel de um discurso pode ser um mito46 , caracterizando-se este no pela
Tom Koch, The Message is the Medium, Westport, Connecticut, London, Praeger, 1996, p. 188. 45 Acerca do Clever, e mais especicamente acerca da relao intuitiva e algortmica entre autoridades e centros, cf.: J. Kleinberg. Authoritative sources in a hyperlinked environment, Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, 1998, Journal of the ACM, 46, 1999, http://www.cs. cornell.edu/home/kleinber/auth.pdf; S. Chakrabarti, B. Dom, D. Gibson, J. Kleinberg, S.R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, Hypersearching the Web, Scientic American, June 1999, http://www.sciam.com/1999/0699issue/0699 raghavan.html#link3; Kemal Efe, Vijay Raghavan, C. Henry Chu, Adrienne L. Broadwater, Levent Bolelli, Seyda Ertekin, The Shape of the Web and Its Implications for Searching the Web (2000), http://citeseer.nj.nec.com/efe00shape. html. Para uma comparao resumida entre o Google e o Clever, cf. Soumen Chakrabarti, H. Gurushyam, Filtering Focused Information, PC Quest, November 11, 2000, http://www.pcquest.com/ content/technology/100102901. asp. 46 Roland Barthes, Mitologias, Lisboa, Edies 70, 1988, p. 181.
44

www.bocc.ubi.pt

A internet e o mito da visibilidade universal

11

ocultao ou pela mentira mas pela deformao que produz47 , ento podemos dizer que a Internet se tornou no nosso mito mais recente: no mito de que, sendo uma Rede, ela no seno um conjunto de ns e ligaes equivalentes que permitem que cada um se torne visvel perante todos os outros. Ora, o que uma anlise sumria do funcionamento dos motores de busca e dos seus critrios de relevncia mostra que, se a universalidade e a igualdade existem partida, elas no existem j chegada; tambm a a particularidade e a desigualdade so a regra. Mas temos de ir mais longe e armar que a deformao reside, aqui, essencialmente no facto de que as segundas so a condio sine qua non das primeiras Com efeito, como poderiam constituir-se as categorias da autoridade ou da popularidade se no houvesse quem - idealmente toda a gente - acedesse ao sistema? Com a particularidade de os dotados de maior autoridade e popularidade no serem, na Internet, muito diferentes daqueles que o eram - o so - nos meios mais tradicionais como a imprensa e o audiovisual.

47

Ibidem, pp. 192.

www.bocc.ubi.pt

You might also like