You are on page 1of 37

Internet Assistente de Gesto Administrativa

Autor: Leonardo A Alves

INTERNET
Assistente de Gesto Administrativa - Informtica

INTERNET
ASSISTENTE DE GESTO ADMINISTRATIVA INFORMTICA

Organizador Leonardo A Alves

INTRODUO
A Internet tem revolucionado o mundo dos computadores e das comunicaes como nenhuma inveno foi capaz de fazer antes. A inveno do telgrafo, telefone, rdio e computador prepararam o terreno para esta nunca antes havida integrao de capacidades. A Internet , de uma vez e ao mesmo tempo, um mecanismo de disseminao da informao e divulgao mundial e um meio para colaborao e interao entre indivduos e seus computadores, independentemente de suas localizaes geogrficas. A Internet representa um dos mais bem sucedidos exemplos dos benefcios da manuteno do investimento e do compromisso com a pesquisa e o desenvolvimento de uma infraestrutura para a informao. Comeando com as primeiras pesquisas em trocas de pacotes, o governo, a indstria e o meio acadmico tem sido parceiros na evoluo e uso desta excitante nova tecnologia. Hoje, termos como nome@nomedeempresa.com.br (ou nome@nomedeempresa.com.br, no caso do Brasil) e http://www.nomedeempresa.com (ou http://www.nomedeempresa.com.br, no caso do Brasil) so usados diariamente por milhes de pessoas. Nesta anlise, muitos de ns envolvidos com o desenvolvimento e a evoluo da Internet do suas vises sobre as origens e a histria da Internet. A histria envolve quatro aspectos distintos:

a evoluo tecnolgica que comeou com as primeiras pesquisas sobre trocas de pacotes e a ARPANET e suas tecnologias, e onde pesquisa atual continua a expandir os horizontes da infra-estrutura em vrias dimenses como escala, desempenho e funcionalidade de mais alto nvel; os aspectos operacionais e gerenciais de uma infra-estrutura operacional complexa e global; o aspecto social que resultou numa larga comunidade de internautas trabalhando juntos para criar e evoluir com a tecnologia; e o aspecto de comercializao que resulta numa transio extremamente efetiva da pesquisa numa infra-estrutura de informao disponvel e utilizvel.

A Internet hoje uma larga infra-estrutura de informao, o prottipo inicial do que frequentemente chamado a Infra-Estrutura Global ou Galxica da Informao. A histria da Internet complexa e envolve muitos aspectos - tecnolgicos, organizacionais e comunitrios. E sua influncia atinge no somente os campos tcnicos das comunicaes via computadores mas toda a sociedade, na medida em que usamos cada vez mais ferramentas online para fazer comrcio eletrnico, adquirir informao e operar em comunidade.

A ORIGEM DA INTERNET

Os primeiros registros de interaes sociais que poderiam ser realizadas atravs de redes foi uma srie de memorandos escritos por J.C.R. Licklider, do MIT - Massachussets Institute of Technology, em agosto de 1962, discutindo o conceito da "Rede Galxica". Ele previa vrios computadores interconectados globalmente, pelo meio dos quais todos poderiam acessar dados e programas de qualquer local rapidamente. Em essncia, o conceito foi muito parecido com a Internet de hoje. Licklider foi o primeiro gerente do programa de pesquisa de computador do DARPA, comeando em outubro de 1962. Enquanto trabalhando neste projeto, ele convenceu seus sucessores Ivan Sutherland, Bob Taylor e Lawrence G. Roberts da importncia do conceito de redes computadorizadas. Leonard Kleinrock, do MIT, publicou o primeiro trabalho sobre a teoria de trocas de pacotes em julho de 1961 e o primeiro livro sobre o assunto em 1964. Kleinrock convenceu Roberts da possibilidade terica das comunicaes usando pacotes ao invs de circuitos, o que representou um grande passo para tornar possveis as redes de computadores. O outro grande passo foi fazer os computadores se conversarem. Em 1965, Roberts e Thomas Merrill conectaram um computador TX-2 em Massachussets com um Q-32 na California com uma linha discada de baixa velocidade, criando assim o primeiro computador de rede do mundo. O resultado deste experimento foi a comprovao de que computadores poderiam trabalhar bem juntos, rodando programas e recuperando dados quando necessrio em mquinas remotas, mas que o circuito do sistema telefnico era totalmente inadequado para o intento. Foi confirmada assim a convico de Kleinrock sobre a necessidade de trocas de pacotes. No final de 1966, Roberts comeou a trabalhar no DARPA para desenvolver o conceito das redes computadorizadas e elaborou o seu plano para a ARPANET, publicado em 1967. Na conferncia onde ele apresentou este trabalho, houve tambm uma apresentao sobre o conceito de redes de pacotes desenvolvida pelos ingleses Donald Davies e Roger Scantlebury, da NPL-Nuclear Physics Laboratory. Scantlebury conversou com Roberts sobre o trabalho da NPL e do trabalho de Paul Baran e outros em RAND. O grupo do projeto RAND tinha escrito um trabalho sobre o papel das redes de trocas de pacotes para voz segura quando serviam militarmente em 1964. O que se percebeu ento que os trabalhos desenvolvidos no MIT (1961-67), RAND (1962-65) e NPL (1964-67) estavam se desenrolando em paralelo sem que nenhum dos pesquisadores soubesse dos outros trabalhos. A palavra "pacote" foi adotada do trabalho desenvolvido no NPL e a velocidade de linha proposta para ser usada no projeto da ARPANET foi upgraded de 2,4 Kb para 50 Kb.

Em agosto de 1968, depois de Roberts e o grupo do DARPA terem refinado a estrutura e especificaes para a ARPANET, uma seleo foi feita para o desenvolvimento de um dos componentes-chave do projeto: o processador de interface das mensagens (IMP). Um grupo dirigido por Frank Heart (Bolt Beranek) e Newman (BBN) foi selecionado. Paralelamente ao trabalho do grupo da BBN nos IMPs com Bob Kahn assumindo um papel vital do desenho arquitetnico da ARPANET, a topologia e economia da rede foi desenvolvida e otimizada por Roberts em conjunto com Howard Frank e seu grupo da Network Analysis Corporation, e sistema de mensurao da rede foi preparado pelo pessoal de Kleinrock na UCLA -University of California at Los Angeles. Devido teoria de trocas de pacotes de Kleinrock e seu foco em anlise, desenho e mensurao, seu Centro de Mensurao de Rede da UCLA foi escolhido para ser o primeiro n (ponta) da ARPANET. Isso aconteceu em setembro de 1969, quando BBN instalou o primeiro IMP na UCLA e o primeiro servidor de computador foi conectado. O projeto chamado Aumento do Intelecto Humano, de Doug Engelbart, que inclua NLS (um precursor dos sistemas de hipertexto), no SRI-Stanford Research Institute, foi o segundo n ou ponta. SRI passou a manter as tabelas de "Host Name" para o mapeamento dos endereos e diretrio do RFC. Um ms depois, quando SRI foi conectado ARPANET, a primeira mensagem entre servidores foi enviada do laboratrio de Kleinrock para o SRI. Dois outros "nodes" foram acrescentados ento: a UC Santa Barbara e a Universidade de Utah. Este dois ns incorporavam projetos de aplicaes visuais, com Glen Culler e Burton Fried na UCSB investigando mtodos de uso de funes matemticas para restaurar visualizaes na rede e Robert Taylor e Ivan Sutherland em Utah investigando mtodos de representao em terceira dimenso na rede. Assim, no final de 1969, quatro servidores estavam conectados na ARPANET e, mesmo naquela poca, os trabalhos se concentravam tanto na rede em si como no estudo das possveis aplicaes da rede. Esta tradio continua at hoje. Computadores foram rapidamente adicionados ARPANET nos anos seguintes e os grupos de trabalho desenvolveram um protocolo servidor a servidor funcionalmente completo e outros softwares de rede. Em dezembro de 1971, o Network Working Group (NWG) gerenciado por S. Crocker, concluiu o primeiro protocolo servidor a servidor da ARPANET, chamado Network Control Protocol (NCP). De 1971 a 1972, os usurios da rede finalmente puderam comear a desenvolver as suas aplicaes. Em outubro de 1972, Kahn organizou uma grande e bem sucedida demonstrao sobre a ARPANET na Conferncia Internacional de Comunicao entre Computadores (ICCC). Esta foi a primeira demonstrao pblica da nova tecnologia de rede para o pblico. Foi tambm em 1972 que o correio eletrnico, considerado a primeira aplicao "hot", foi introduzido. Em maro de 1972, Ray Tomlinson, da BBN, escreveu o software bsico de e-mail com as

funes de "send/enviar" e "read/ler", motivado pela necessidade dos desenvolvedores da ARPANET de ter um fcil mecanismo de coordenao. Em julho, Roberts expandiu a utilidade do e-mail escrevendo o primeiro programa utilitrio de e-mail para listar, ler seletivamente, arquivar, encaminhar e responder a mensagens. Dali, o correio eletrnico se tornou a maior aplicao de rede por mais de uma dcada. Este foi o prenncio do tipo de atividade que vemos hoje na WWW hoje, ou seja, o enorme crescimento de todos os tipos de aplicaes e utilitrios agregados pessoa-a-pessoa. OS CONCEITOS INICIAIS DA INTERNET

A ARPANET original cresceu e se tornou a Internet. A Internet foi baseada na idia de que haveria mltiplas redes independentes de desenho arbitrrio, comeando com a ARPANET como rede pioneira de trocas de pacotes mas logo incluindo redes de satlites, de rdio, etc. A Internet como conhecemos hoje incorpora uma idia-chave: rede de arquitetura aberta. Nesta abordagem, a opo pela tecnologia de qualquer rede individual no ditada por nenhuma arquitetura de rede particular e sim escolhida livremente pelo provedor, que a torna capaz de entrar em rede com outras redes pela "Arquitetura de Internetworking". At aquele perodo, havia apenas um mtodo para agregar redes: a tradicional troca de circuitos onde redes se interconectavam no nvel do circuito, passando bits individuais em base sncrona por um circuito ponta a ponta entre duas localidades. Lembre que Kleinrock tinha mostrado em 1961 que troca de pacotes era um mtodo mais eficiente. Condies especficas de interconexo entre redes era outra possibilidade. Enquanto havia outras formas limitadas de interconectar redes, todas requeriam que uma fosse componente da outra, ao invs de agirem como companheiras no oferecimento do servio ponta a ponta. Numa rede de arquitetura aberta, as redes individuais podem ser separadamente desenhadas e desenvolvidas e cada uma pode ter sua interface prpria que pode ser oferecida a usurios e outros provedores. Cada rede pode ser desenhada de acordo com o ambiente e os requerimentos dos seus usurios. No h restries em relao aos tipos de redes que podem ser includas numa rea geogrfica, apesar de algumas consideraes pragmticas ditarem o que razovel oferecer. A idia de redes de arquitetura aberta foi primeiro introduzida por Kahn em 1972. Este trabalho foi parte de um programa de pacotes de rdio, mas depois se tornou um programa em separado. Naquele tempo, o programa foi chamado "Internetting". NCP no tinha a habilidade de enderear redes e mquinas alm da destinao IMP da ARPANET e portanto deveria ser mudado. NCP se amparava na ARPANET para prover confiabilidade de ponta a ponta. Se qualquer pacote fosse perdido, o protocolo e qualquer aplicao que ele suportasse iria simplesmente parar a transferncia de dados. Nesse modelo, NCP no

tinha controle de erro ponta a ponta, uma vez que pensava-se que a ARPANET seria a nica rede em existncia e ela seria to confivel que nenhum controle de erro seria necessrio por parte dos servidores. Ento Kahn decidiu desenvolver uma nova verso do protocolo que iria satisfazer as necessidades de um ambiente de redes de arquitetura aberta. Este protocolo iria eventualmente ser chamado Transmission Control Protocol/Internet Protocol (TCP/IP). Enquanto NCP agia como um driver de equipamento, o novo protocolo seria mais um protocolo de comunicaes. Quatro regras foram crticas para a idia de Kahn:

cada rede distinta deveria ser independente e mudanas internas no deveriam ser requisitadas para conect-las Internet; comunicaes seriam na base do melhor esforo. Se um pacote no chegasse sua destinao final, ele seria retransmitido da fonte; caixas pretas seriam usadas para conectar as redes. Mais tarde elas seriam chamadas gateways e roteadores. Os gateways no reteriam informaes sobre os fluxos de pacotes passantes. Isso assegurou que eles se mantivessem simples, evitando adaptaes complicadas e recuperaes de erros; no haveria controle global no nvel operacional.

Outros itens avaliados foram os seguintes:


algortmos para prevenir perda de pacote de comunicaes desabilitadas, capacitando-os a serem retransmitidos da fonte; provimento de "pipelining" de servidor a servidor, de forma que mltiplos pacotes poderiam ser roteados da fonte ao destino vontade dos servidores participantes, se redes intermedirias o permitissem; funes de gateway (porta de entrada) para encaminhar os pacotes apropriadamente. Isso incluiria cabealhos de IP para roteamento, interfaces dirigidas, quebra de pacotes em pedaos menores (caso necessrio), etc; a necessidade de checagens ponta a ponta, recuperao dos pacotes de fragmentos e deteco de duplicatas; a necessidade do endereamento global; tcnicas de controle de fluxo servidor a servidor; interfaces com vrios sistemas operacionais; eficincia da implementao, performance entre as redes, etc.

Kahn comeou a trabalhar na srie orientada s comunicaes dos princpios do sistema

operacional enquanto na BBN, e documentou alguns dos seus pensamentos num memorando interno chamado "Princpios de Comunicaes para Sistemas Operacionais". Neste ponto, ele percebeu que seria necessrio aprender os detalhes de implementao de cada sistema operacional para ter a chance de embutir neles novos protocolos de uma forma eficiente. Assim, na primavera de 1973, depois de comear o projeto "internetting", Kahn chamou Vint Cerf (ento trabalhando em Stanford) para trabalhar com ele no desenho detalhado do protocolo. Cerf tinha se envolvido intimamente com o desenho e desenvolvimento do NCP original e j tinha o conhecimento em interfacing com os sistemas operacionais existentes. A abordagem arquitetnica para a comunicao de Kahn e a experincia em NCP de Cerf possibilitaram a construo do que se tornou TCP/IP. O trabalho de Kahn e Cerf foi altamente produtivo e a primeira verso escrita da teoria resultante foi distribuda numa reunio especial do International Network Working Group (INWG), que tinha sido definido numa conferncia da Sussex University em setembro de 1973. Cerf tinha sido convidado para dirigir este grupo e usou a ocasio para realizar o encontro do INWG. Algumas teses bsicas surgiram da colaborao entre Kahn e Cerf:

comunicao entre dois processos deveria consistir logicamente de uma longa corrente de bytes (que eles chamaram de octets). A posio de qualquer octet na corrente seria usada para identific-lo; o controle do fluxo seria feito usando janelas e corredias e acks. O destino poderia selecionar quando seria efetuado o reconhecimento e cada ack retornado seria cumulativo para todos os pacotes recebidos; foi deixado em aberto como a fonte e o destino iriam concordar nos parmetros das janelas a serem usadas. Padres foram usados inicialmente; apesar de a Ethernet (sistema de redes que transporta sinais (bits) para todos os microcomputadores em rede) estar em desenvolvimento em Xerox PARC naquele tempo, a proliferao de LANs (redes locais) no era prevista, muito menos a proliferao de PCs (computadores pessoais) e estaes de trabalho. O modelo original foi redes nacionais como a ARPANET, que se pensava no iriam existir muitas como ela. Ento um IP de 32 bits foi usado, dos quais os primeiros 8 bits indicavam a rede e os restantes 24 bits designavam o servidor na rede. Esta hiptese de que 256 redes seriam suficientes para o futuro prximo passou necessariamente a ser reconsiderada quando LANs comearam a aparecer no final da dcada de 1970.

O trabalho original de Cerf e Kahn sobre a Internet descreveu um protocolo chamado TCP, que provia todo o transporte e servios de encaminhamento na Internet. Kahn queria que o protocolo suportasse uma srie de servios de transporte, desde a entrega sequenciada de dados totalmente confivel (modelo de circuito virtual) at o servio de datagram, onde a aplicao fazia uso direto do servio bsico de rede, o que poderia implicar em pacotes

ocasionalmente perdidos, corrompidos ou reordenados. Entretanto, o esforo inicial para implementar TCP resultou numa verso que somente permitiu circuitos virtuais. O modelo funcionou bem para transferncia de arquivos e aplicaes de logins remotos, mas alguns dos trabalhos em aplicaes avanadas como pacotes de voz mostraram que, em alguns casos, a perda de pacotes deveria ser corrigida pela aplicao e no pelo protocolo TCP. Isso levou a uma reorganizao do TCP original em dois protocolos: o simples IP que provia apenas o endereamento e o roteamento dos pacotes individuais e o TCP em separado, que se preocupava com o controle do fluxo e a recuperao de pacotes perdidos. Para as aplicaes que no queriam os servios de TCP, uma alternativa chamada User Datagram Protocol (UDP) foi adicionada para prover acesso direto ao servio bsico de IP. Uma grande motivao inicial para a ARPANET e para a Internet foi o compartilhamento de recursos. A conexo das duas redes foi muito mais econmica do que a duplicao de caros computadores. Entretanto, enquanto a transferncia de arquivos e o login remoto (Telnet) foram aplicaes muito importantes, o correio eletrnico teve o impacto mais significativo das inovaes daquela poca. O correio eletrnico ou e-mail criou um novo modelo no qual as pessoas poderiam se comunicar e mudou a natureza da colaborao, primeiro na construo da prpria Internet e mais tarde na sua utilizao por grande parte da sociedade. Outras aplicaes foram propostas nos dias iniciais da Internet, incluindo comunicao de voz (precursora da telefonia via Internet), vrios modelos de compartilhamento de arquivos e discos, e os primeiros programas que mostraram o conceito de agentes (e vrus..). Um conceito-chave da Internet que ela no desenhada para apenas uma aplicao, mas uma infra-estrutura genrica na qual novas aplicaes podem ser concebidas, como aconteceu com a World Wide Web. Foi e a natureza do servio provido pelos protocolos TCP e IP que tornam isso possvel. NOVAS IDIAS DARPA fez trs contratos para Stanford (Cerf), BBN (Ray Tomlinson) e UCL (Peter Kirstein) implementarem TCP/IP (que foi simplesmente chamado TCP no trabalho de Cerf/Kahn, mas que continha ambos os componentes). A equipe de Stanford, liderada por Cerf, produziu uma detalhada especificao e, em um ano, haviam trs implementaes independentes de TCP que poderiam operar em conjunto. Este foi o comeo de longa experimentao e desenvolvimento a fim de evoluir e amadurecer os conceitos e a tecnologia da Internet. Comeando com as trs primeiras redes (ARPANET, Packet Radio e Packet Satellite) e suas comunidades iniciais de pesquisa, o ambiente experimental cresceu para incorporar essencialmente qualquer forma de rede e grande comunidade de pesquisa e

desenvolvimento. E, com cada expanso, novos desafios surgiram. As primeiras implementaes de TCP foram feitas por sistemas como Tenex e TOPS 20. Quando os microcomputadores apareceram, alguns acharam que TCP foi grande e complexo demais para rodar neles. David Clark e seu grupo de pesquisa no MIT trabalharam para mostrar que poderia haver uma simples e compacta implementao de TCP. Eles produziram esta implementao, primeiro para o Xerox Alto (a primeira estao de trabalho pessoal desenvolvida em Xerox PARC) e depois para o IBM PC. Esta implementao foi completamente inter-opervel com outros TCPs, mas foi feita sob medida para microcomputadores, e mostrou que estaes de trabalho, tanto quanto sistemas de grande porte, poderiam tornar-se parte da Internet. Em 1976, Kleinrck publicou o primeiro livro sobre ARPANET, com nfase na complexidade dos protocolos e nas dificuldades que eles introduzem. Este livro foi importante na divulgao da crena nas redes com trocas de pacotes para uma grande comunidade. O desenvolvimento generalizado de LANs, PCs e estaes de trabalho na dcada de 80 permitiu a prosperidade da Internet que nascia. A tecnologia Ethernet, desenvolvida por Bob Metcalfe em 1973 na Xerox PARC agora provavelmente a tecnologia de rede dominante na Internet e os PCs e estaes de trabalho so os computadores dominantes. A mudana entre poucas redes com pequeno nmero de servidores (o modelo original ARPANET) e muitas redes resultou num nmero de novos conceitos e mudanas na tecnologia bsica. Primeiro, isso resultou na definio de trs classes de rede (A, B e C) para acomodar o alcance das redes. A classe A passou a representar redes de grande escala nacional (pequeno nmero de redes com grande nmero de servidores). A classe B passou a representar redes de escala regional. E a classe C passou a representar redes locais (grande nmero de redes com relativamente poucos servidores). Uma grande mudana ocorreu como resultado do aumento da escala da Internet e os assuntos gerenciais associados. Para facilitar o uso da rede, nomes foram atribudos a servidores para que no fosse necessrio lembrar endereos numricos. Originalmente, o nmero de servidores foi limitado e, portanto, foi possvel manter uma tabela nica de todos os servidores e seus nomes e endereos. A mudana para o grande nmero de redes independentemente gerenciadas (por exempo, LANs) significou o fim da tabela nica de servidores, e o Domain Name System (DNS) foi inventado por Paul Mockapetris, da USC/ISI. O DNS permitiu um mecanismo escalarmente distribudo para resolver nomes de servidores hierrquicos (por exemplo, www.acm.org) num endereo Internet. O crescimento da Internet tambm desafiou a capacidade dos roteamentos. Originalmente existiu um nico algortmo distribudo para roteamento que foi implementado

uniformemente por todos os roteadores na Internet. Quando explodiu o nmero de redes na Internet e o desenho inicial de roteamento no expandiu o suficiente, este foi substitudo por um modelo hierrquico de roteamento com um Interior Gateway Protocol (IGP) usado dentro de cada regio da Internet e um Exterior Gateway Project (EGP) usado para ligar as regies. Este desenho permitiu que diferentes regies usassem diferentes IGPs, de forma que diferentes requerimentos de custo, rpida configurao, robustez e escala pudessem ser acomodados. No apenas o algortmo de roteamento mas tambm o tamanho das tabelas de endereamento acentuaram a capacidade dos roteamentos. Novas abordagens para agregao de endereo, em particular roteamento entre domnios sem classe (CIDR) foram introduzidas para controlar o tamanho das tabelas de roteamento. Um dos maiores desafios foi como propagar as mudanas para o software, particularmente o software do servidor. DARPA dava suporte UC Berkeley para investigar modificaes para o sistema operacional Unix, inclusive incorporando o TCP/IP desenvolvido em BBN. Apesar de Berkeley ter mais tarde reescrito o cdigo para torn-lo mais adequado ao sistema Unix, a incorporao do TCP/IP no Unix BSD foi crtica para a disperso dos protocolos na comunidade de pesquisa. Muitos da comunidade de pesquisa da cincia da computao j haviam comeado a usar Unix BSD no seu dia-a-dia e a estratgia de incorporar protocolos Internet no sistema operacional da comunidade de pesquisa foi um dos elementos-chave do larga e bem-sucedida adoo da Internet. Um dos mais interessantes desafios foi a transio do protocolo de servidor da ARPANET de NCP para TCP/IP em 01/01/1983. Foi uma transio imediata, requisitando todos os servidores em converso simultnea (ou ento passariam a se comunicar via mecanismos especficos). A transio foi cuidadosamente planejada pela comunidade por anos antes e foi muito fcil no dia em que realmente aconteceu (mas teve como consequncia a distribuio de "buttons" dizendo "Eu sobrevivi transio para o TCP/IP"). O protocolo TCP/IP tinha sido adotado como padro de defesa trs anos antes, em 1980. Tal fato levou diretamente eventual diviso entre comunidades militar e no militar. Em 1983, ARPANET estava sendo usada por um nmero significante de organizaes de pesquisa e desenvolvimento e de operaes da defesa. A transio da ARPANET do protocolo NCP para o protocolo TCP/IP permitiu a diviso entre a MILNET, que passou a suportar os requisitos operacionais, e a ARPANET, que passou a suportar as necessidades de pesquisa. Portanto, em 1985, a Internet j estava bem estabelecida como uma larga comunidade de suporte de pesquisadores e desenvolvedores e comeava a ser usada por outras comunidades para comunicaes dirias pelo computador. O correio eletrnico j estava sendo usado por muitas comunidades, frequentemente com sistemas diferentes, mas a

interconexo entre os diferentes sistemas de de correio foi demonstrando a utilidade de comunicao eletrnica entre as pessoas. A TRANSIO PARA A INFRA-ESTRUTURA ABERTA

Ao mesmo tempo em que a tecnologia Internet estava sendo experimentalmente validada e largamente utilizada por um conjunto de pesquisadores da cincia da computao, outras redes e tecnologias de rede estavam sendo criadas. A utilidade das redes computadorizadas - especialmente o correio eletrnico - demonstrada por DARPA e pelo Departamento de Defesa dos Estados Unidos no foi perdida em outras comunidades e disciplinas, e, ainda na dcada de 1970, redes comearam a aparecer em qualquer lugar que dispusesse de fundos e recursos para isso. O Departamento de Energia dos Estados Unidos estabaleceu a MFENet para seus pesquisadores em energia de fuso magntica e a HEPNet para o grupo de fsica de alta energia. Os fsicos espaciais da NASA seguiram com a SPAN, e Rick Adrion, David Farber, and Larry Landweber estabeleceram a CSNET para a comunidade acadmica e industrial da Cincia da Computao com um subsdio inicial da NSFNational Science Foundation. A livre disseminao do sistema operacional Unix na AT&T resultou na USENET, baseada no protocolo de comunicao UUCP includo no Unix, e, em 1981, Ira Fuchs e Greydon Freeman projetaram a BITNET, que ligou os computadores acadmicos num paradigma do tipo "correio eletrnico como imagens de carto". Com a exceo da BITNET e da USENET, estas primeiras redes (incluindo ARPANET) tinham sido construdas para um objetivo especfico, isto , elas foram criadas para, e largamente restritas a, comunidades fechadas de acadmicos. Havia pouca presso para que as redes individuais fossem compatveis e, na verdade, elas no eram. Mais ainda, tecnologias alternativas estavam sendo procuradas pelo segmento comercial, incluindo XNS da Xerox, DECNet e SNA da IBM. Restou inglesa JANET (1984) e U.S. NSFNET (1985) programas para explicitamente anunciar seus intentos de servirem comunidade educacional, no importando a disciplina. Mais, a condio para universidades americanas receberem fundos do NSF era que "a conexo deveria estar disponvel para todos os usurios qualificados no campus". Em 1985, Dennis Jennings, da Irlanda, passou um ano na NSF liderando o programa da NSFNET. Ele trabalhou com a comunidade para ajudar a NSF a tomar uma deciso crtica: que TCP/IP iria ser mandatrio para o programa da NSFNET. Quando Steve Wolff chegou NSFNET em 1986, ele reconheceu a necessidade por uma infraestrutura de rede maior para suportar as comunidades acadmicas e de pesquisa, alm da necessidade de

desenvolver uma estratgia para estabelecer esta infra-estrutura independentemente dos recursos federais. Polticas e estratgias foram adotadas para atingir este fim. NSF tambm decidiu suportar a infra-estrutura organizacional da Internet da DARPA j existente, hierarquicamente arranjada pelo ento Internet Activities Board (IAB). A declarao pblica desta opo foi a autoria conjunta pelo grupo de Engenharia e Arquitetura da Internet da IAB e pelo grupo de Assessoria Tcnica de Rede da NSF do RFC 985 - Requirements for Internet Gateways, que formalmente assegurou a interoperabilidade entre DARPA e NSF. Em adio seleo do TCP/IP para o NSFNET, agncias federais norte-americanas fizeram e implementaram vrias outras decises polticas que definiram a Internet de hoje, como segue:

Agncias federais norte-americanas dividiram o custo da infra-estrutura, como os circuitos transocenicos. Elas tambm apoiaram os pontos de interconexo para o trfego entre agncias. Federal Internet Exchanges (FIX-E e FIX-W) construdas com este objetivo serviram como modelos para os pontos de acesso da rede e facilidades "*IX" que so caractersticas proeminentes da arquitetura Internet de hoje; Para coordenar esta participao, foi formado o Federal Networking Council (Conselho Federal de Redes). The FNC cooperou com organizaes internacionais como o RARE na Europa, atravs do Comit de Pesquisa Intercontinental, para coordenar o apoio da comunidade mundial de pesquisa Internet; Esta participao e cooperao entre agncias em assuntos relacionados Internet tem uma longa histria. Um acordo sem precedentes realizado em 1981 entre Farber, representando a CSNET e a NSF, e Kahn, representando a DARPA, permitiu CSNET compartilhar a infra-estrutura da ARPANET numa base estatstica; Similarmente, a NSF encorajou redes regionais (inicialmente acadmicas) da NSFNET a buscar clientes comerciais, expandir seus estabelecimentos para servlos e explorar as resultantes economias de escala para baixar os custos de subscrio para todos; No backbone da NSFNET, o segmento de escala nacional da NSFNET, NSF fez cumprir uma poltica (Acceptable Use Policy - AUP) que proibiu o uso do backbone para objetivos que no fosssem de suporte Pesquisa e Educao. O resultado predizvel e desejado do encorajamento de trfego comercial nos nveis local e regional, enquando proibindo seu acesso ao backbone nacional, foi estimular a emergncia e o crescimento de redes privadas e competitivas (como PSI, UUNET, ANS CO+RE e outras mais tarde). Este processo de aumento de redes privadas e auto-financiadas para usos comerciais foi iniciado em 1988 numa srie de

conferncias promovidas pela NSF em Harvard's Kennedy School of Government sob o ttulo "A Comercializao e Privatizao da Internet" e na lista "com-priv" da rede;

Em 1988, o comit do Conselho Nacional de Pesquisa norte-americano, dirigido por Kleinrock e com Kahn e Clark como membros, produziu um relatrio autorizado pela NSF entitulado "Em Direo a uma Rede Nacional de Pesquisa". Este relatrio influenciou o ento Senador Al Gore e anunciou as redes de alta velocidade que se tornariam a fundao para a superhighway da informao do futuro; Em 1994, o comit do Conselho Nacional de Pesquisa norte-americano, novamente dirigido por Kleinrock e novamente com Kahn e Clark como membros, produziu um novo relatrio autorizado pela NSF entitulado "Fazendo Idia do Futuro da Informao: a Internet e Alm". Neste documento, a superhighway da informao foi articulada e tpicos crticos como direitos da pripriedade intelectual, tica, preos, educao, arquitetura e regulamentao da Internet foram discutidos; A poltica de privatizao da NSF culminou em abril de 1995, com o fim do subsdio ao backbone da NSFNET. Os fundos recuperados foram competitivamente redistribudos para redes regionais para compra de conectividade nacional das agora numerosas redes privadas.

O backbone fez a transio entre a rede construda de roteadores da comunidade de pesquisa para equipamentos comerciais. Em seus oito anos e meio, o backbone cresceu de seis nodes com links de 56 Kb para 21 nodes com mltiplos links de 45 Mb. A Internet cresceu para mais de 50 mil redes em todos os sete continentes, com aproximadamente 29 mil redes apenas nos Estados Unidos. Tal foi o peso do ecumenismo e dos recursos da NSFNET (US$ 200 milhes entre 1986 e 1995) e a qualidade dos protocolos, que em 1990, quando a ARPANET foi desautorizada, TCP/IP tinha suplantado e marginalizado os demais protocolos de rede, e IP estava tambm se tornando o servio de sustentao da infra-estrutura da informao global. O PAPEL DA DOCUMENTAO

A chave para o rpido crescimento da Internet tem sido o livre e aberto acesso aos documentos bsicos, especialmente as especificaes dos protocolos. Os incios da ARPANET e da Internet na comunidade acadmica de pesquisa promoveu a tradio acadmica de publicao de idias e resultados. Entretanto, o ciclo normal da publicao acadmica tradicional era formal e devagar demais para a dinmica troca de idias na criao das redes. Em 1969, um passo importante foi tomado por S. Crocker, ento na UCLA, estabelecendo srie de notas relativas a "Request for Comments" (RFC,

ou, traduzindo, Solicitao de Comentrios). Estas notas ou memorandos seriam uma forma rpida de distribuio de observaes no compartilhamento de idias com outros pesquisadores. A princpio, os RFCs eram impressos e distribudos pelo correio tradicional. Quando o File Transfer Protocol (FTP, significando protocolo de transferncia de arqruivos) comeou a ser usado, os RFCs se tornaram arquivos online acessados via FTP. Agora, claro, os RFCs so facilmente acessados via web em dezenas de sites no mundo. O SRI- Stanford Research Institute, no papel de Centro de Informao de Redes, manteve os diretrios online. Jon Postel atua at hoje como editor dos RFCs, bem como gerente da administrao centralizada de nmero de protocolo. O efeito dos RFCs foi criar um crculo positivo de retornos, com idias e propostas apresentadas em um RFC gerando outro RFC com mais idias, e da por diante. Quando algum consenso (ou pelo menos uma srie consistente de idias) era atingido, um documento com as especificaes era ento preparado. Estas especificaes seriam ento usadas como base para implementaes pelas vrias equipes de pesquisa. Com o tempo, os RFCs se tornaram mais focados nos padres de protocolo ( as especificaes oficiais), apesar de ainda existir RFCs informativos que descrevem abordagens alterantivas ou provem informaes antecedentes sobre protocolos e engenharia. Os RFCs so agora vistos como documentos de registro nas comunidades de engenharia e padres da Internet. O acesso aberto aos RFCs (grtis, se voc tem qualquer tipo de conexo com a Internet) promove o crescimento da Internet porque permite que especificaes reais sejam usadas como exemplos em classes universitrias e por empreendedores desenvolvendo novos sistemas. O correio eletrnico tem sido essencial em todas as reas da Internet, e especialmente no desenvolvimento das especificaes dos protocolos, padres tcnicos e engenharia da Internet. OS RFCs mais antigos apresentaram um conjunto de idias desenvolvidas por pesquisadores de um determinado lugar para o resto da comunidade. Depois que o e-mail ou correio eletrnico comeou a ser utilizado, o padro de autoria mudou - os RFCs eram apresentados por co-autores com uma viso comum, independentemente de suas localizaes. O uso de listas de discusso especializados tem por muito tempo sido usado no desenvolvimento das especificaes de protocolo e continua a ser uma ferramente importante. O IETF tem agora mais de 75 grupos de trabalho, cada um trabalhando num aspecto diferente da engenharia da Internet. Cada um desses grupos tem uma lista de discusso para trocar idias sobre documentos em desenvolvimento. Quando o consenso atingido num rascunho, o documento ento distribudo como um RFC.

Como o rpido crescimento da Internet acelerado pelo entendimento da sua capacidade de promover o compartilhamento de informaes, ns deveramos entender que o primeiro papel da rede foi permitir o compartilhamento da informao sbre seu prprio desenho e operao atravs dos RFC. Este mtodo nico para a evoluo de novas capacidades da rede continuar a ser crtico na evoluo futura da Internet. A FORMAO DA COMUNIDADE

A Internet representa tanto uma coleo de comunidades como uma coleo de tecnologias, e seu sucesso largamente atribudo satisfao das necessidades bsicas da comunidade e utilizao efetiva da comunidade na expanso da sua infra-estrutura. O esprito da comunidade tem uma longa histria, comeando com a ARPANET. Os pesquisadores da antiga ARPANET trabalharam numa comunidade fechada para conseguirem fazer as demonstraes iniciais da tecnologia de transferncia de pacotes descrita anteriormente. Da mesma forma, vrios outros programas de pesquisa da cincia da computao promovidos pela DARPA (Packet Satellite, Packet Radio e outros) foram fruto de atividades cooperadas que usavam pesadamente qualquer mecanismo disponvel para coordenar seus esforos, comeando com o correio eletrnico e acrescentando compartilhamento de arquivos, acesso remoto e WWW. Cada um dos programas formou um grupo de trabalho, comeando com o Grupo de Trabalho de Rede da ARPANET. Por conta do papel da ARPANET na infraestrutura de suporte a vrios programas de pesquisa, e com a evoluo da Internet, o Grupo de Trabalho de Rede se tornou o Grupo de Trabalho da Internet. No final da dcada de 70, reconhecendo que o crescimento da Internet foi acompanhado pelo crescimento em tamanho da comunidade de pesquisa interessada na Internet e que, portanto, havia uma necessidade maior de mecanismos de coordenao, Vint Cerf, ento gerente do Programa Internet da DARPA, formou vrios grupos de coordenao:

um Conselho de Cooperao Internacional (ICB-Internet Cooperation Board), presidido por Peter Kirstein da UCL, para coordenar as atividades com alguns pases europeus envolvidos no programa Packet Satellite; um Grupo de Pesquisa Internet (Internet Research Group), para prover um ambiente para a troca geral de informaes sobre a Internet; e um Conselho de Controle de Configurao da Internet (ICCB-Internet Configuration Control Board), presidido por Clark. O ICCB iria assessorar Cerf na gerncia da florescente Internet.

Em 1983, quando Barry Leiner passou a gerenciar o programa de pesquisa da Internet na DARPA, ele e Clark reconheceram que o crescimento contnuo da comunidade Internet

demandava uma reestruturao dos mecanismos de coordenao. O ICCB foi ento substitudo por foras-tarefa, cada uma focalizando uma rea particular da tecnologia (roteamentos, protocolos ponta-a-ponta, etc.). O IAB, ento chamado Internet Activities Board ou Conselho de Atividades Internet, foi ento formado com os presidentes das foras-tarefa. Foi uma coincidncia que esses presidentes fossem os mesmos do antigo ICCB e Dave Clark continuou a presid-lo. Depois de algumas mudanas no IAB, Phill Gross se tornou o presidente da revitalizada IETF-The Internet Engineering Task Force (Fora-Tarefa da Engenharia da Internet), naquele tempo apenas uma das foras-tarefa do IAB. Em 1985 ento, houve um tremendo crescimento no lado prtico/da engenharia da Internet. Este crescimento resultou na exploso dos comparecimentos nas reunies do IETF, e Gross teve que criar uma sub-estrutura do IETF na forma de grupos de trabalho. Este crescimento foi complementado por uma grande expanso da comunidade. DARPA ento tinha deixado de ser o maior financiador da Internet. Alm da NSFNet e de vrias atividades financiadas pelos governos americano e internacionais, o segmento comercial comeou a se interessar pela Internet. Tambm em 1985 Kahn e Leiner deixaram a DARPA que no vinha conseguindo manter seu ritmo de atividades Internet. Como resultado, o IAB perdeu seu patrocinador e progressivamente assumiu o papel de lder na Internet. O crescimento da Internet continuou, resultando em nova sub-estruturao do IAB e do IETF. O IETF combinou Grupos de Trabalho em reas, e designou Diretores de reas. Um Grupo Diretivo de Engenharia da Internet ou a A maioria das pessoas concorda que a Internet apareceu na data em que foi criada a ARPANET, em 1969. Esta rede criou a primeira infra-estrutura global de comunicaes e os respectivos protocolos. A ARPANET tinha como objectivo principal servir a investigao e o desenvolvimento, sobretudo para o Departamento de Defesa dos Estados Unidos da Amrica. Qualquer contedo ou comunicao de ndole comercial era estrictamente probido naquela altura. Durante da dcada de 1980, a ARPANET foi sendo ligada a outras redes de universidades e de grandes empresas, como a HP, para dinamizar ainda mais a I&D. Nos finais da dcada a ARPANET deu por atingidos os seus objetivos e entregou NSF a responsabilidade de manter e aumentar o backbone. A NSF desenvolveu a rede sobretudo nos EUA. Os primeiros ISP - Internet Service Providers - comearam a aparecer na dcada de 1980 e comearam a dar acesso a empresas e particulares, sobretudo atravs de dial-up. No incio da dcada de 1990, a NSF comeou a perder o controle sobre o backbone, medida que operadores privados comearam a criar as suas prprias infra-estruturas. Foi

nessa altura que as restries comercializao da Internet foram totalmenta abolidas. Desde 1969, surgiram vrias aplicaes para a Internet, cada vez mais amigveis ao usurio. Alguns exemplos: Gopher, Veronica, WAIS, FTP. Outras formas de comunicao em rede tambm tiveram sucesso e fizeram os primrdios da Internet, como o caso das BBS ou de servios online como a Compuserve ou a AOL. Na dcada de 1990, o aparecimento da World Wide Web, o desenvolvimento dos browsers, a diminuio de custos de acesso, o aumento de contedos, entre outros factores, fizeram com que a Internet tivesse um crescimento exponencial.

De onde vem os endereos


Toda mquina na Internet precisa de um endereo IP. Eles so fornecidos normalmente pelos ISPs (provedores) a seus associados. Cada endereo vem com um bloco de nmeros IP que foi dado aos ISPs pelo registro local de endereos de IP. O registro local de endereos IPs gerenciado por organizaes internacionais, geralmente voluntrias e em universidades ou tambm por outras instituies pblicas. A ICANN (Internet Corporation for Assigned Names and Numbers) gerencia a locao de endereos IPs nos Estados Unidos enquanto que a RIPE manipula os endereos na Europa. A regio sia-Pacfico controlada pela APNIC. No Brasil voc pode ir ao endereo http://registro.br e encontrar informaes sobre os provedores nacionais. Voc pode usar os servios destas organizaes para determinar a quem pertence um determinado bloco de endereos, o que pode ser til para voc tentar punir retirando da rede um invasor ou algum que nos envie um spam. Os nmeros IPs so recursos valiosos. A verso atual de IP, v4, somente um sistema de 32-bits, cujos endereos so divididos em quatro octetos separados por pontos. Estes so representaes binrias, de grupos de 8-bits, que compem o endereo IP. Um endereo como 192.132.34.36 um nmero binrio de 32-bits. Isto significa que existem 4.294.967.296 possibilidades para endereos IPs, embora isto na realidade um pouco menor visto que alguns deles so reservados para mscara de rede e gateways. Esta quantidade no era to ruim nos primrdios da Rede, onde podamos resolver tudo com um ou dois conjuntos. As companhias e organizaes so agrupadas por tipo de endereos: classe A, que na forma 1.0.0.0, classe B, na forma 1.1.0.0 e classe C (1.1.1.0). Uma simples classe C pode conter 254 endereos IP para seus dispositivos e uma classe A pode conter 0,4% de todos os endereos da Internet. Isto pode no parecer muito, mas se considerarmos que 100 classes do tipo A so utilizadas por grandes companhias e universidades isto vem a corresponder perto de 40 por cento de todos os endereos e estes ficam reservados, mesmo se somente alguns milhares deles no estejam realmente em uso. Foi por isto que foi criado o CIDR (Classless Inter Domain Routing). O CIDR uma banda adicional que veio ajudar a reduzir a diviso daqueles endereos IPs que esto sendo mal utilizados.Ao invs de utilizarmos o mnimo de 254 endereos, o registro de endereos pode utiliz-los quatro vezes mais. Pelo encorajamento do uso de servios transacionados por estes endereos e por espaos de endereos privados sem rota, definidos pelo RFC 1918, a demanda por novos endereos caiu drasticamente.

IPv6
Uma nova verso do IP, v6, promete expandir bastante o nmero de IPs disponveis. Atualmente em teste, o IPv6 suportado pela maioria dos sistemas operacionais, incluindo o Windows 2000 e o Linux. Ele aumentou significantemente o nmero de IPs disponveis por ser um nmero de 64-bits. Isto, teoricamente, permite atingir acima de 1,8 x 1.019 endereos - o que mais do que suficiente para ns, isto at que venhamos a criar a verso de 128-bits de IP a qualquer momento em nosso futuro. O IPv6 tem a capacidade de suportar o nmero astronmico de dispositivos sem-fio, assim como as tecnologias de rede Jini e Bluetooth. Ento, como um pacote caminha de uma mquina para a outra? impraticvel lembrar do endereo IP de cada dispositivo na Internet. Muito cedo na histria da Internet foi encontrada uma soluo bem simples que ainda utilizada at hoje. O DNS (Domain Name Server) mapeia os endereos IPs das mquinas atravs dos nomes simples, armazendados em uma rvore hierrquica do sistema DNS. Um servidor DNS manipula todos os nomes de mquinas de sua rede assim como seus endereos IPs.

Imagine uma rvore


Quando uma aplicao solicita um endereo de uma mquina atravs de seu nome, ele enviado para um sistema DNS de sua rede de computadores. Se o endereo da mquina for encontrada 'localmente', ento o problema resolvido rapidamente. Seno, a solicitao passada rapidamente para a rvore de servidores DNS at encontrar o servidor que manipula a informao. bem mais fcil de entender se considerarmos o sistema de DNS como uma rvore, onde cada parte um novo nvel do nome do domnio. Por exemplo, 'maca.com.br' pode ser enviado para o servidor responsvel por '.com.br', ou at mesmo para '.br'. Assim como os endereos IPs, os nomes dos domnios precisam ser registrados centralizadamente. Registros de nomes de domnios nacionais e internacionais so manipulados, criando-se tabelas de DNS de alto nvel para os domnios de nvel superior (TLDs - Top Level Domains). Os TLDs incluem domnios como .com, .org, .br, .ru e nomes de registos de domnios registrados sob os auspcios do ICANN e so gerenciados por seus governos nacionais. Recentemente os principais TLDs foram entregues a um nmero de organizaes diferentes, ao invs de uma soluo dentro na Internet, dando-lhes, ento, um monoplio

virtual. Visto isto tudo, o IP e o DNS formam a base de como os computadores se interagem na Internet. Eles no so ferramentas simples, naturalmente, mas eles esto mudando o mundo de uma forma que seus projetistas nunca imaginaram.

HISTRIA DO E-MAIL
O e-mail anterior ao surgimento da Internet. Os sistemas de e-mail foram uma ferramenta crucial para a criao da rede internacional de computadores. O primeiro sistema de troca de mensagens que se tem notcia foi criado em 1965, e possibilitava a comunicao entre os mltiplos usurios de um computador do tipo mainframe. Apesar da histria ser um tanto obscura, acredita-se que os primeiros sistemas criados com tal funcionalidade foram o Q32 da SDC e o CTSS do MIT. O e-mail transformou-se rapidamente em um "e-mail em rede", permitindo que usurios situados em diferentes computadores trocassem mensagens. Tambm no muito claro qual foi o primeiro sistema que suportou o e-mail em rede. O sistema AUTODIN, em 1966, parece ter sido o primeiro a permitir que mensagens eletrnicas fossem transferidas entre computadores diferentes, mas possvel que o sistema SAGE tivesse a mesma funcionalidade algum tempo antes. A rede de computadores ARPANET fez uma grande contribuio para a evoluo do email. Existe um relato que indica a transferncia de mensagens de e-mail entre diferentes sistemas situados nesta rede logo aps a sua criao, em 1969. O programador Ray Tomlinson iniciou o uso do sinal @ para separar os nomes do usurio e da mquina no endereo de email em 1971. Considerar que ele foi o "inventor" do e-mail um exagero, apesar da importncia dos seus programas de email: SNDMSG e READMAIL. A primeira mensagem enviada por Ray Tomlinson no foi preservada; era uma mensagem anunciando a disponibilidade de um e-mail em rede. A ARPANET aumentou significativamente a popularidade do e-mail.

Tecnologia Servidores de E-mail


O que e para que serve um servidor de E-mail? Um servidor de E-mail gerencia os emails que so enviados e recebidos. Os servidores de e-mail podem ser servidores Internet, onde e-mails enviados e recebidos podem ser transitados para qualquer lugar do mundo, ou servidores de correio de intranet onde as mensagens trafegam apenas dentro da empresa.

Atravs do correio eletrnico podem ser criados grupos de discusso sobre quaisquer assuntos. Estes grupos so chamados de listas ou refletores. Um refletor uma caixa postal eletrnica falsa. Todas as mensagens enviadas para esta caixa postal, so transmitidas para as pessoas cadastradas na lista deste refletor. Desta forma cada membro do grupo passa a dispor das mensagens enviadas para o refletor em sua caixa postal ou mailbox. Cada membro, pode ler as mensagens e dar a sua opinio sobre elas enviando uma nova mensagem para o refletor.

Sistemas Livres
O correio eletrnico tornou-se uma ferramenta indispensvel no s para tornar a comunicao dentro das organizaes mais rpida, como tambm os processos, fazendo com que o acesso s informaes seja democrtico e ajudar a popularizar as rotinas e procedimentos. Utilizar correios eletrnicos comerciais, e manter estes produtos atualizados, torna-se bastante caros para as organizaes que no fazem recursos de groupware. Ainda com o aumento de usurios e o custo da implementao, faz com que estas empresas migrem seus servios de email para uma soluo gratuita, sem perda de funcionalidade, qualidade de produto ou segurana. Uns destes Sistemas Livres o sendmail que um servidor de correio eletrnico largamente utilizado na internet. Este dispe de ferramentas que permitem estabelecer a conexo via protocolo SMTP para enviar mensagens, os clientes web tm se tornado cada vez mais populares devido facilidade de acesso, j que no preciso instalar nenhum software especfico ou configurar perfis de acesso para cada usurio. Cada vez mais grandes organizaes tem utilizado o sistema de correio eletrnico para aumentar a comunicao entre os seus diversos setores. S que nem sempre este benefcio de se ter um meio to gil apresenta um custo baixo, por isso foram desenvolvidas vrias ferramentas gratuitas para o uso de correio eletrnico. Como exemplo de sistemas de correio eletrnico livres podemos citar o PostFix, que um dos candidatos a substituir o SendEmail. O PostFix hoje uma das melhores alternativas para todas as empresas que desejam utilizar um servidor de email sem ter grandes gastos, ele foi escrito de forma direta e clara e visa facilitar e ajudar o Administrador Linux j que esse software muito fcil de utilizar, alm de ser um agente de transporte de email muitas vezes chamado simplesmente de servidor de email. O PostFix pode ser utilizado em grande escala pelas empresas, pois o mesmo pode ser utilizado desde laptop pessoal at para gigantes. Alm de apresentar grande facilidade para sua configurao ele um servidor de email robusto e apresenta vrios recursos como ANTI_SPAM, evitando assim o nmero de SPAM enviado na rede. A utilizao de softwares livres nas organizaes podem trazer grandes vantagens para as organizaes. Alm desses softwares reduzirem drasticamente os gastos com lincenas em relao aos softwares proprietrios, podem ser adicionados partes

de software ou programas para realizar determinada tarefa no atentida por esses softwares. O PostFix se torna uma soluo barata para utilizxcvao em empresas j que facil de utilizar e configurar, no tendo necessidade de grandes treinamentos para sua instalao e administrao, isso est tornando sua disseminao rpida e este software est cada vez mais sendo utilizado.

Sistemas Comerciais
Podemos citar como exemplo o Microsoft Exchange 2000 Server. Examinando os ambientes do Exchange, podemos perceber como so organizados, isto acontece porque a raiz de um ambiente Exchange uma organizao. Desta forma, encontramos os componentes principais que compem a organizao do Microsoft Exchange: Configuraes globais: aplicam-se a todos os servidores e destinatrios de uma organizao. As trs configuraes globais mais comuns so: formatos de mensagens da internet, entrega de mensagens e mensagens instantneas; Destinatrios: entidade que pode receber mensagens do Exchange. Os destinatrios podem ser usurios, contatos, grupos e outros recursos. Voc se refere aos destinatrios como ativado para caixa de correio ou como ativado para correio. Os destinatrios que so ativados para caixa de correio (usurios) possuem caixas de correio para enviar e receber mensagens de email. Os destinatrios que so ativados para correio (contatos e grupos) tm endereo de email, mas no tm caixa postal. Assim, eles podem receber mensagens, mas no podem enviar; Grupos administrativos: definem a estrutura lgica de uma organizao do Exchange. Usados para organizar objetos de diretrio e gerenciar os recursos do Exchange com eficincia. Os grupos administrativos so mais adequados para organizaes grandes ou para organizaes que possuam escritrios em vrias localidades. Em uma empresa de pequeno ou mdio porte, por exemplo, pode no ser necessrio utilizar grupos administrativos. Grupos de roteamento: so usados em instalaes avanadas do Exchange, nas quais preciso controlar a conectividade das mensagens e os canais de comunicao para grupos de servidores do Exchange. Quando voc instala o primeiro servidor do Exchange em uma organizao, o servidor adicionado ao grupo de roteamento padro. No existe controle sobre esse grupo de roteamento com operaes em modo misto. Os servidores adicionais instalados na organizao do Exchange so adicionados a esse mesmo grupo de roteamento por padro, e a conectividade de mensagens e a comunicao entre esses servidores so configuradas automaticamente.

O envio e recebimento de uma mensagem de e-mail realizada atravs de um sistema de correio eletrnico. Um sistema de correio eletrnico composto de programas de computador que suportam a funcionalidade de cliente de e-mail e de um ou mais

servidores de e-mail que, atravs de um endereo de e-mail, conseguem transferir uma mensagem de um usurio para outro. Estes sistemas utilizam protocolos de internet que permitem o trfego de mensagens de um remetente para um ou mais destinatrios que possuem computadores conectados Internet.

Formato de e-mail na Internet


O formato na Internet para mensagens de e-mail definido na RFC 2822 e uma srie de outras RFCs (RFC 2045 at a RFC 2049) que so conhecidas como MIME. Mensagens de e-mail consistem basicamente de duas sees principais:

cabealho (header) - estruturada em campos que contm o remetente, destinatrio e outras informaes sobre o e-mail. corpo (body) - contm o texto da mensagem.

O corpo separado do cabealho por uma linha em branco.

Funcionalidades
Hoje os grandes Sites criaram uma srie de facilidades para o usurio podemos citar algumas. Note que essa variao s uma facilidade e no um novo tipo de e-mail. Entre estas podemos citar:

E-mail oculto
um mecanismo que permite o usurio ocultar seu endereo de origem e ao mesmo tempo manter em segredo seu dado pessoal

E-mail restrito
Alguns sites restringem alguns tipos de e-mail. Esse tipo de restrio normalmente usado a fim de evitar a atuao de um spammer ou divulgador no autorizado, normalmente esse tipo de e-mail mais usado em empresas.

E-mail com privacidade segura


Normalmente usado por autoridades e seu uso controlado. Por medida de segurana alguns organismos e entidades internacionais ou mesmo ligados a Governos, categorizam o e-mail como:

Privativo ou de uso exclusivo da autoridade, esse e-mail, apesar de ter acesso a rede to restrito que a prpria autoridade deve configurar de quem recebe os e-mails;

Semi Privativo o mesmo que privativo porem menos restrito.

Os americanos chegam ao cmulo de dar nveis e subnveis a esse tipo de e-mail; Entretanto, vm crescendo o uso da criao de chaves criptogrficas pessoais (facilidade provida por aplicativos especializados), assegurando a privacidade das informaes "de qualquer importncia" de cada indivduo. Tais chaves possuem uma grande flexibilidade, escalabilidade e confiabilidade. Dicas de segurana: nunca abrir ou responder e-mails desconhecidos,nunca abrir arquivos de e-mails desconhecidos, pois podem conter vrus e ter sempre um anti-spyware e antivrus instalados no seu computador.

E-mail categorizado ou especial


Especial ou categorizado em nveis, so de usos exclusivos dos Provedores de INTERNET, servem para testes e verificar se funciona ou no o seu sistema anti spam.

E-mails gratuitos
Com a popularizao da internet atravs dos provedores gratuitos (cujos usurios ganhavam tambm um e-mail grtis) muitos sites comearam a oferecer e-mails gratuitos desvinculados de qualquer outro servio. Esses e-mails podem ser lidos com o uso do prprio navegador, sem a necessidade de um software especfico, sendo por isso tambm chamados webmail.

Popularidade
O correio eletrnico se tornou to popular devido a sua grande facilidade em quebrar barreiras geogrficas. Pessoas que esto em diferentes continentes podem se comunicar, desde que possuam computadores conectado a Internet, eles podem enviar e receber mensagens a qualquer hora do dia e para qualquer parte do mundo. Observa-se que o correio eletrnico deixa de ser apenas um meio de troca de mensagens entre pessoas para se tornar um grande fator na produtividade das empresas. Grandes empresas esto cada vez mais utilizando o correio eletrnico para desempenhar papis decisivos em suas negociaes. A Intranet pode ser utilizada para tornar a comunicao de funcionrios com outros grupos tornando assim mais fcil o trabalho e eliminando SPAM e outras mensagens indesejadas.

reas de Aplicaes
As aplicaes de correio eletrnico, normalmente oferecem ao usurio uma srie de facilidades. A maior parte delas fornece um editor de textos embutido e a possibilidade do envio de arquivos anexados a correspondncia. Alm disso, a maioria das aplicaes

permite o envio de correspondncias para um nico destinatrio ou o envio para mais de uma pessoa ou para um grupo de pessoas. Embora no tenha sido desenvolvida como uma ferramenta de trabalho cooperativo, os servios de correio eletrnico adaptaram-se muito bem ao ambiente de grupos de trabalho onde se tornaram indispenveis nas organizaes, agilizando processos, democratizando o acesso as informaes e diminuindo os custos. Esta uma das formas mais utilizadas para o estabelecimento de comunicaes atravs do computador. Muitas organizaes utilizam o correio eletrnico como forma de troca de mensagens, mas se quiserem utilizar recursos de groupware podero inclui-los de forma simples e com baixo custo, com uma boa seguranca.

FTP (File Transfer Protocol)


FTP significa File Transfer Protocol (Protocolo de Transferncia de Arquivos), e uma forma bastante rpida e verstil de transferir arquivos sendo uma das mais usadas na internet. Pode referir-se tanto ao protocolo quanto ao programa que implementa este protocolo (neste caso, tradicionalmente aparece em letras minsculas, por influncia do programa de transferncia de arquivos do Unix). A transferncia de dados em redes de computadores envolve normalmente transferncia de ficheiros e acesso a sistemas de ficheiros remotos (com a mesma interface usada nos ficheiros locais). O FTP (RFC 959) baseado no TCP, mas anterior pilha de protocolos TCP/IP, sendo posteriormente adaptado para o TCP/IP. o standard da pilha TCP/IP para transferir ficheiros, um protocolo genrico independente de hardware e do sistema operativo e transfere ficheiros por livre arbtrio, tendo em conta restries de acesso e propriedades dos ficheiros.

Modos e interfaces
O protocolo subjacente ao FTP pode correr nos modos iterativo ou "batch". O cliente FTP fornece uma interface interactiva, enquanto que o MIME e o HTTP usam-no directamente. O protocolo permite a gravao e obteno de ficheiros, a listagem do directrio e a alterao do directrio de trabalho.

Funcionamento
O protocolo de transferncia de arquivos envolve duas diferentes conexes . O programa do usurio envia o comando " log-me neste usurio" , " aqui est meu password" , " envieme o arquivo com este nome". Assim que o comando para mandar dados enviado, uma segunda conexo aberta para seus dados.

Certamente seria possvel enviar dados em uma conexo, como o mail faz. Entretanto, transferncias de arquivos geralmente levam algum tempo e os projetistas do FTP desejavam permitir que o usurio continuasse emitindo comandos enquanto a transferncia era feita. Por exemplo, solicitar uma informao ou abortar a transferncia. Assim os projetistas sentiram que foi melhor usar uma conexo separada para os dados e deixar a conexo original para os comandos.

Facilidades FTP
1)Acesso interativo Embora FTP seja designado para ser usado por programas, a maioria das implementaes proporcionam uma interface interativa que permite as pessoas interagirem com servidores remotos facilmente. 2)Especificao do formato FTP permite ao cliente especificar o tipo e o formato dos dados armazenados. 3)Controle de autenticao FTP solicita aos clientes a sua autorizao para enviar um login name e uma password para o servidor antes de solicitar transferncia de arquivo. O servidor recusa o acesso do cliente que no fornece um login e uma password vlidos.

FERRAMENTAS DE BUSCA
Principais ferramentas de busca nos EUA e no Brasil, segundo UFRJ.

Estados Unidos
37.com AHKING.NET All4One AllSearchEngin es.com Amera Argus Clearingh. Altavista Atlantica Belseek Bighoo! Big what.com Bomis.com Clever Search Cyber411 Cyberdirectory Direct Hit! Eletric Library EL TURCO! Excite Fast Search FINAL SEARCH Galaxy Go Crawl Go To.com Google Guide to Meta SEs Hachette.net HandiLinks Hitbox! Hits Galore Hotbot Hyperseek ICN Explorer i.Explorer Infohiway Infomak Infoseek InfoSpaceJASS AN Jump City Kanoodle Linkavista.com Link Monster Linkopedia LinkStar Look Smart Lycos Magellan Mamma Match Site Meta Bug MetaCrawler MetaFind Meta Gopher Meta Search MEGAWEB Mining Co.Com MicroWho Monster Crawler MultiMeta MyWay National Directory Net Acer Net Guide Nerd World Net Windows Netcenter Northern Light One Seek Open Directory Open Text PHATOZ Prime Seek ProFusion Pure Search Qango Quest Finder Resoft Links REX SavvySearch

Surfy Search-Beat Search King Search Lynx SearchSpaniel SignPost! SmallBizFFA Snap Starting Point Suite 101.com Surf Oasis Surf Point

Super Crawler Super Snooper Surf Gopher Tagapaghanap Tecor The Big Hub The Cozy Cabin THE NET ONE The Rail Junction The Search Index

The UltraBrowser total SEEK Turbo Seek.net! Webcrawler WebData Classifications Web Ripper Web Search Web Surfer Whats New Whats New

Too WhatUseek World Hot.com WWWVirtualLi b Web Info Search Web Taxi WebSearch Yahoo Yep Yippie.net

Brasil
Abusca Altavista.com.br Aonde Argos BookMarks AlterNex Search Brazilian Business ConnectionBrazi lBiz Brazilis Index Busca Aqui Busca Web Cad? forum busca Guia Internet StarMedia i mais Online WWW Index LOJA NET MetaBusca Miner MisterZ NetscOpiO PlugSearch Quem? Radar UOL Radix Surf SuperMail Tornado Vanguarda VISO WS Guide www.procura.co m.br Yahoo!Brasil ZAP BUSCA Zeek

Textos complementares
Possibilidades da tecnologia
Deve haver equilbrio entre troca de arquivo e direito autoral por Daniel Arbix Desde antes da internet, contedos podiam ser transmitidos de um computador para outro, por meio de conexo direta. Hoje, tornou-se comum uma pessoa mandar a outra, por e-mail, um texto, uma msica ou uma foto. A diversidade de ferramentas de publicao impressiona: blogs, fotologs, websites e wikis surgem como novas opes para o envio de arquivos, com poucos cliques, sem intermedirios e praticamente sem custos.

Esses modelos de troca de contedos pressupem o conhecimento do interlocutor virtual. Quem deseja um arquivo precisa tomar algum contato prvio com quem o enviar. Com a popularizao da internet, porm, demandaram-se meios mais eficientes para a aproximao desses interessados. Ento, substituindo formas mais simples de comunicao, as tecnologias P2P peer-to-peer revolucionaram as relaes online de troca e distribuio de contedos. O funcionamento dos programas P2P to inovador quanto simples. Um software liga cada pessoa online s outras, formando listas de todas as msicas, textos e filmes disponveis. Nessa rede virtual, multiplicam-se os contedos trocveis e as trocas de contedo quase sempre entre desconhecidos. A partir do Napster, de 1999, uma infinidade de programas P2P voltou-se transmisso de contedos digitais. Essa proliferao transformou os fluxos da internet arquivos antes transmitidos de websites a usurios da rede passaram a circular diretamente entre os interessados. Sem depsitos de arquivos, o trnsito de parceiro para parceiro (peer to peer) dispensou intermedirios.

As ferramentas P2P so hoje responsveis por mais da metade do trfego da internet. Seu sucesso vem da flexibilidade (alm de msicas e vdeos, textos, jogos e at softwares inteiros so distribudos por esses programas), e de facilidade e rapidez no contato com novos contedos. A oferta ampliada de produtos culturais fascina internautas antigos e recentes. Com os programas P2P, a projeo cultural possvel sem os canais tradicionais da indstria do entretenimento. As limitaes materiais enfrentadas so a capacidade da conexo internet e o tempo disponvel. Para os usurios incautos desses programas, contudo, mais perigosa a limitao jurdica troca de contedos: a proteo imediata decorrente de direitos autorais e de imagem, e a mediata, das relaes contratuais em que os bens intelectuais trocados se inserem. As empresas que investem em P2P tem nos anncios sua principal fonte de receitas. Por isso, visam ampliao de sua base de consumidores. Nem sempre, entretanto, de forma atenta a direitos de terceiros h poucos instrumentos de compensao aos autores dos contedos transmitidos, e at pouco tempo atrs, havia mesmo descaso com os direitos envolvidos. Os programas P2P foram logo acusados de violao em massa de tais direitos, de desrespeito privacidade de usurios e de disseminao de vrus e pornografia.

Essas reclamaes alimentaram uma ao judicial contra o Napster, condenado pela Suprema Corte dos Estados Unidos por no monitorar a transmisso de contedos protegidos. Os programas P2P posteriores j no podiam mais fazer esse tipo de interveno, porque no formavam listas de arquivos em um nico servidor. Cada usurio enxergava os contedos disponveis aps comunicao direta com os demais usurios. primeira vista, o controle mais frouxo seria um incentivo impunidade. Mas, no final de 2005, a mesma Suprema Corte condenou o programa Grokster por incentivar a violao de direitos autorais, ainda que no pudesse controlar as aes dos usurios de seu software. Ademais, no mundo todo, indivduos foram processados por transmitir, sem autorizao, contedos protegidos por direitos autorais.

A distino nebulosa entre usos legtimos e ilegais das tecnologias P2P torna essas batalhas judiciais incertas, custosas e negativas sobre o pblico consumidor de msicas e filmes. A opo pelo litgio divide titulares de direitos autorais, de um lado, e empresas e indivduos interessados em compartilhar contedos protegidos, de outro. A indstria do entretenimento, ento, adotou de vez o comrcio pela internet. O pioneiro site iTunes recentemente ultrapassou 500 milhes de downloads, movimentando em 2005 mais de US$ 1 bilho. No Brasil, gravadoras, selos fonogrficos, distribuidores de filmes e artistas independentes tambm seguem essa tendncia. A opo pela distribuio no convencional estratgia comercial cada vez mais necessria e lucrativa. Perdem espao os suportes fsicos (CDs, DVDs etc.) os estdios Warner, por exemplo, acabam de anunciar a venda de filmes pelo programa P2P BitTorrent, responsvel atualmente por um quarto do trfego da internet. Esses programas, por sua vez, tomaram medidas prprias para evitar confrontos judiciais. Alguns filtram os arquivos transmitidos, vetando contedos ilcitos. Outros excluem usurios que promovem a pirataria. Tais iniciativas mostram clara disposio para no violar as leis que protegem as criaes intelectuais. Busca-se assim um equilbrio quanto aos direitos autorais e as tecnologias de transmisso de contedos. Os direitos da indstria do entretenimento so protegidos, com punies s transmisses ilegais de contedo. Ao mesmo tempo, no ficam proibidas as novas tecnologias. E os consumidores de tecnologias e bens intelectuais podem respirar mais livremente. (Artigo originalmente publicado no Valor Econmico)

The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page {sergey, page}@cs.stanford.edu Computer Science Department, Stanford University, Stanford, CA 94305

Resumo
Nesse paper, apresentamos Google, um prottipo de uma mquina de busca em larga escala que faz uso intensivo da estrutura presente em hipertextos. Google projetada para rastrear e indexar eficientemente a Web e produzir resultados mais satisfatrios do que sistemas existentes. Um prottipo com bancos de dados de textos completos e hiperlinks de pelo menos 24 milhes de pginas est disponvel em /google.standford.edu Projetar uma mquina de busca uma tarefa desafiante. Mquinas de busca indexam dezenas ou centenas de milhes de pginas web, contendo um nmero comparvel de diferentes termos. Elas respondem a dezenas de milhes de pesquisas todos os dias. Apesar da importncia de mquinas de busca em larga escala na internet, muito pouca pesquisa acadmica tem sido feita a esse respeito. Alm disso, por causa do rpido avano da tecnologia e do crescimento acelerado da web, criar uma mquina de busca hoje muito mais difcil do que trs anos atrs. Esse paper fornece uma descrio detalhada de nossa mquina de busca de larga escala - a primeira descrio desse tipo de que se tem notcia at o presente. Alm dos problemas de se adaptar as tcnicas de pesquisa tradicionais a essas escalas gigantescas, existem outros desafios tcnicos a serem enfrentados, referentes utilizao, para aprimoramento dos resultados, das informaes adicionais presentes nos hipertextos. Outro problema abordado como lidar com o fato de que novas informaes, na forma de hipertexto, podem ser livremente publicadas por qualquer pessoa.

Palavras-chave: World Wide Web, Search Engines, Information Retrieval, PageRank, Google

Caractersticas do sistema. A Google apresenta duas importantes caractersticas que a ajudam a produzir resultados de alta preciso. Em primeiro lugar, ela faz uso da estrutura de links da Web pra calcular uma medida de qualidade para cada pgina; essa medida chamada PageRank, e est descrita com detalhes em [Page 98]. Em segundo lugar, a Google utiliza informaes contidas em links para melhorar o resultado das pesquisas. 2.1 PageRank: trazendo ordem para a Web O grafo de citaes (links) da web um recurso importante que tem sido pouco usado pelas mquinas de busca. Ns criamos alguns mapas que contm 518 milhes de hiperlinks, uma amostra significativa do total. Esses mapas permitem um rpido clculo do "PageRank" de pginas da web, uma medida objetiva de sua importncia em citaes, que guarda boa correlao com a idia subjetiva que as pessoas tm de importncia. Graas a essa correlao, PageRank uma excelente maneira de priorizar os resultados de pesquisas por palavraschave. Para temas populares, uma pesquisa que examina apenas os ttulos das web pages retorna resultados admirveis, quando os mesmos so ordenados por PageRank (demo disponvel em google. stanford.edu). Para as pesquisas que avaliam todo o texto dos documentos, como ocorre no sistema principal da Google, PageRank tambm de grande utilidade. 2.1.1. Descrio do clculo do PageRank A tcnica acadmica de citaes literrias tem sido aplicada web, principalmente por meio da contagem de citaes (links) a uma determinada pgina; essa tcnicao fornece uma

aproximao da importncia ou qualidade de uma pgina. PageRank uma extenso dessa idia, com algumas diferenas: os links no so considerados todos iguais; feita uma normalizao do nmero de links em cada pgina. PageRank definido da seguinte forma: Assumimos que existam pginas T1, T2, ..., Tn que contenham links apontando para a pgina A (ou seja, as pginas T fazem citaes pgina A). O parmetro d um fator redutor que pode assumir valores entre 0 e 1; ns usualmente estabelecemos d como 0.85 (h mais detalhes sobre d na prxima seo). C(A) representa o nmero de links que existem na pgina A. O PageRank da pgina A dado pela expresso: PR(A) = (1-d) + d [PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn)] Observe que os PageRanks formam uma distribuio de probabilidades atravs de pginas web; assim a soma dos PageRanks de todas as pginas web igual a um. PageRank ou PR(A) pode ser calculado utilizando-se um simples algoritmo iterativo, e corresponde ao eigenvector principal da matriz normalizada de links da web. Ademais, o PageRank de 26 milhes de pginas pode ser calculado em algumas horas, utilizando-se uma estao de trabalho de mdio porte. H muitos outros detalhes que esto alm do escopo desse trabalho. 2.2 Explicao intuitiva PageRank pode ser interpretado como o modelo de comportamento de um usrio. Ns supomos que existe um "usurio aleatrio", a quem se fornece uma pgina aleatrio, a partir da qual ele clica aleatoriamente; tal usurio nunca clica o boto "back", mas em algum momento ele se cansa do contedo da pgina que est visitando e requisita outra pgina aleatria. A probabilidade de que esse usurio aleatrio visite determinada pgina o PageRank dessa pgina. Alm disso, o fator redutor d a probabilidade, em cada pgina, de que o usurio aleatrio se canse e requisite outra pgina aleatria. Uma variao importante atribuir o fator d apenas a uma pgina, ou a um grupo de pginas. Isso permite personalizao e torna quase impossvel enganar deliberadamente o sistema, a fim de se conseguir maiores rankings. H outras extenses de PageRank, ver [Page98]. Outra explicao intuitiva que uma pgina ter alto PageRank se houver muitas pginas apontando para ela, ou se houver algumas pginas de alto PageRank apontando para ela. Intuitivamente, fcil aceitar que pginas que so freqentemente citadas em muitos outros pontos da web so merecedoras de uma visita; por outro lado; se uma pgina no de alta qualidade, ou se for um link quebrado, pouco provvel que a homepage do Yahoo! aponte para ela. PageRank trata essas duas situaes, e todas as outras situaes intermedirias, por meio da propagao recursiva de pesos atravs da estrutura de links da web. 2.2 Texto ncora O texto dos links tratado de maneira especial pela nossa search engine. A maioria das mquinas de busca associa o texto de um link com a pgina que contm o link; ns, alm de fazer isso, associamos o texto com a pgina para a qual o link aponta. Isso apresenta algumas vantagens. ncoras, freqentemente, fornecem uma descrio mais precisa de pginas web do que as prprias pginas. Alm disso, ncoras podem existir para documentos que no podem indexadas por uma search engine baseada em texto, tais como imagens, programas e bancos de dados; torna-se possvel assim retornar pginas que no foram de fatos rastreadas (crawled). Vale notar que pginas que no foram rastreadas podem causar problemas, j que sua validade nunca foi verificada, antes de serem retornadas para os usrios; pode ocorrer, inclusive, que a search engine retorne uma pgina que nunca tenha existido, mas que tenha links apontando para ela (contudo, como possvel ordenar os resultados, esse problema raramente acontece). Essa idia de propagao de texto-ncora pgina qual o link aponta foi implementada no World Wide Web Worm [McBryan 94], especialmente porque ela ajuda na pesquisa de informaes no-textuais, e expande a cobertura da pesquisa a partir de um menor nmero de documentos baixados. Ns utilizamos texto-ncora principalmente para obter resultados de melhor qualidade. A utilizao eficiente de textos-ncora difcil, por causa das grandes

quantidades de dados que vem ser processadas; em nossa amostra de 24 milhes de pginas, ns indexamos mais de 259 milhes de ncoras. 2.3 Outras peculiaridades Alm de PageRank e do uso de texto ncora, Google apresenta outras diversas peculiaridades. Primeiramente, ela tem informao sobre a localizao de todos os hits (Nota do Tradutor: um hit significa que uma palavra-chave foi identificada num documento) e, por isso, faz uso intensivo da proximidade de palavras-chave, ao realizar as pesquisas. Alm disso, Google presta ateno a alguns detalhes visuais da apresentao, como tamanho das fontes; palavras escritas em fontes maiores ou com negritos tm um peso maior que outras palavras. Ademais, o inteiro teor das pginas HTML fica disponvel em um repositrio prprio.

Google PageRank Para se compreender o que , e qual a importncia do Pagerank, necessrio recordar um pouco da luta entre Search Engines e spammers que vem sendo travada desde que a internet tornou-se comercial. J se tornara evidente que (as SERPs mostravam isso), se se deixasse a cargo dos webmasters a tarefa de determinar qual o assunto abordado nas pginas (ou seja, se o ranking fosse determinado apenas por fatores on page - da prpria pgina), os spammers facilmente dominariam os resultados. A Altavista introduziu o conceito de link popularity, pelo qual a avaliao de uma pgina passaria a levar em conta tambm fatores off page: quanto mais links apontassem para uma determinada pgina, melhor seria sua pontuao; os spammers logo descobriram uma brecha: eles se reuniam em grupos, criavam links entre si, e inflavam artificialmente a popularidade de suas pginas. A Google levou adiante a idia de que fatores off page deveriam determinar a importncia de uma pgina. Mas, em vez de contar to somente o nmero de links (que pode ser facilmente inflado) como fez a Altavista, a Google teve a idia de atribuir diferentes pesos a cada link; a importncia de cada link seria proporcional importncia da pgina em que o link estivesse inserido; e a importncia da pgina seria proporcional quantidade e importncia dos links que ela recebesse. A esse ndice de importncia de cada pgina foi dado o nome de PageRank, em homenagem a Larry Page, autor da idia. Clique o link para ler o paper original sobre PageRank, em formato PDF. Veja mais comentrios sobre o paper na seo Fundamentos Matemticos do PageRank. O nico fator que aumenta o PageRank de uma pgina so os links que apontam para ela, bem como o PageRank da pgina que contm o link; de acordo com a frmula original, o PageRank de uma pgina , aps um desconto (se uma pgina tem 100 pontos de PageRank, apenas, digamos, 85 poderiam ser repassados), dividido igualmente entre todas as pginas linkadas na pgina. Observe que uma pgina no perde seu PageRank, independente de quantos links contenha. O PageRank pode ser comparado a uma "capacidade de voto": quanto maior o PR de uma pgina, mais PR ela pode passar (maior ser o PR das pginas linkadas); essa "capacidade de voto" conquistada, ela tambm, por meio de votaes de outros sites: a nica maneira de se incrementar o prprio PR conseguindo contribuies de PRs de outros sites. Note que o clculo de PageRank recursivo: para saber meu PR, eu tenho que saber o PR das pginas que linkam para mim; mas o PR dessas outras pginas depende do meu prprio PR, j que eu posso ter links diretos ou indiretos para elas. O clculo do PageRank extremamente trabalhoso; leia mais sobre o clculo do PageRank no link acima indicado de Fundamentos Matemticos do PageRank. A importncia do PR decorre de sua aplicao (e por muito tempo somente a Google pde

fazer isso) no rankeamento de pginas. Comparemos as situaes: Antes do PR: para uma pesquisa por [palavra], a SE selecionava mil pginas que contivessem [palavra]; a SE levava ento em conta fatores on page, tais como presena da palavra no ttulo, presena da palavra em headers, contagem do nmero de palavras na pgina, posio das palavras no texto, etc., e atribua a cada pgina uma pontuao. No caso da Altavista, essa pontuao poderia ser corrigida por um fator proporcional link popularity, mas, como vimos, com o tempo esse fator tornou-se manipulvel. Ao fim desse clculo, a SE retornava para o usrio aquelas mil pginas, em ordem decrescente de pontuao. Com o PR: para a mesma pesquisa por [palavra], a Google, por hiptese, selecionaria as mesmas mil pginas (na prtica, isso no ocorre); aplicaria os mesmos critrios para obter pontuaes on page. A diferena que essas pontuaes seriam ao final corrigidas pelo PageRank: uma pgina de alto PageRank (ou seja, de alto conceito dentro da web) poderia ultrapassar vrias outras que tivessem uma pontuao maior. Obviamente, esse ordenamento depende de muitos outros fatores (no caso da Google, certo que os textos ncoras apontando para as pginas tm grande peso no ordenamento); bvio tambm que a Google pode alterar os pesos dos fatores (inclusive e principalmente o peso do PageRank) conforme achar conveniente. O fato que o PageRank foi o principal fator do sucesso da Google. A Google tornou-se o que hoje porque seus resultados agradavam os usurios; agradavam porque eram mais relevantes; e eram mais relevantes muito por causa do PageRank. Embora tenha certamente passado por muitos ajustes, at hoje, segundo a prpria Google, "the heart of our software is PageRank" (o corao do software da Google o PageRank). Atualizao de PageRank e Rankings Breve Histrico At o final de 2002, as atualizaes ocorriam da seguinte maneira: Por um perodo de aproximadamente um ms, a Google soltava os googlebots na web; os bots coletavam novas pginas e novos links; todas as informaes eram armazenadas nos servidores. Ao final do ciclo, a Google reunia todas as informaes e reconstrua completamente seus ndices; novas pginas eram adicionadas, e todos os links eram levados em conta no cmputo do novo PageRank; uma vez concludos os clculos, o PageRank era atualizado e os rankings refletiam os novos ndices. Essa troca de ndices era chamada de Google Dance. Era um dia aguardado por webmasters, que ansiavam por ver o resultado de seus trabalhos; aps a dana, os resultados permaneciam quase estticos at que o prximo ciclo se completasse. Uma tradio iniciada na Webmasterworld fez com que cada dana tivesse um nome de mulher, em ordem alfabtica (tal qual os furaces). Veja aqui uma tabela com as datas das Google Dances; observe que a lista vai apenas at novembro de 2003. A partir de 2002, a Google introduziu um novo robot, chamado freshbot. Enquanto a googlebot buscava dados para a atualizao mensal, o freshbot ia atrs de informaes recentes, em pginas e sites atualizados com maior freqncia. A funo do freshbot era fazer pequenas alteraes no ndice e nos rankings, enquanto no se efetuava o reclculo mensal do PageRank. Por ocasio da dana mensal, as mudanas j no eram to bruscas, j que o freshbot j havia antecipado algumas alteraes nos ndices. Com o passar do tempo, o freshbot ficou cada vez mais ativo: as mudanas dirias no ndice passaram a ser mais freqentes e de maior impacto, reduzindo assim cada vez mais o impacto causado pela dana mensal. Nota: os nomes dos User Agents dos bots da google eram os mesmos: googlebot; a nica maneira de diferenciar o googlebot do freshbot por meio dos respectivos IPs. At hoje, parece existir diferentes tipos de googlebots; alguns tm nomes distintos (como o bot da Adsense, chamado Media-partners bot), outros so diferenciveis apenas pela classe de IPs. Reconhecendo a existncia de deficincias no antigo algoritmo de PageRank, a Google, em novembro de 2003, num episdio que tornou-se conhecido como Update Florida, promoveu

vrias alteraes na maneira como os resultados so apresentados aos usurios. Entre as aes adotadas pela Google para evitar a manipulao dos rankings, incluiu-se justamente uma intensificao da ao dos freshbots, que praticamente assumiram o papel dos antigos googlebots. Isso quer dizer que os freshbots no apenas buscavam pginas recentes, com o propsito apenas de refinar os rankings, at a prxima dana; agora, os freshbots parecem ter o poder de dar um ranking permanente s pginas e links que encontram. Com isso, a Google atingiu dois objetivos. Primeiro, consegue manter um ndice permanentemente mais atualizado, o que agrada os usurios e era, desde o princpio, o objetivo dos freshbots. Segundo, ficou mais difcil para webmasters observar o efeito de suas tcnicas (leia-se: tentativas de subir no ranking): anteriormente, como a atualizao era mensal, os resultados de tcnicas adotadas durante todo um ms apenas se refletiam ao final de cada ciclo, e portanto eram facilmente identificveis e mensurveis; agora, como as atualizaes so praticamente dirias, muito mais difcil saber quais tcnicas deram resultado, quanto tempo demorou, etc. Ficou mais difcil manipular os resultados.

Dias Atuais Atualizao de PageRank: o valor de PR exibido ao pblico atualizado muito pouco freqentemente; houve uma atualizao em outubro de 2004, aps um perodo de aproximadamente trs meses. Note, entretanto, que o PageRank atual, utilizado na determinao dos posicionamentos, provavelmente atualizado com muito mais freqncia. Essa foi uma das medidas tomadas pela Google para combater spammers a partir da Update Florida. Atualizao dos rankings: o posicionamento dos sites nos rankings alterado constantemente. Pginas podem subir e descer a cada vez que uma pesquisa feita; novas pginas so introduzidas constantemente. Observe, entretanto, que embora os rankings se alterem todos os dias, no h forma clara de se determinar quanto tempo uma alterao em sua pgina se refletir em uma alterao no ranking (ou, de maneira inversa: se seu posicionamento se alterou hoje, no h como saber quando foram feitas as modificaes que deram ensejo alterao). Igualmente, embora todos os dias surjam novas pginas nas SERPs, no h como determinar quanto tempo levar para que uma nova pgina especfica seja mostrada. certo, entretanto, que para ser introduzida no ndice, a pgina deve ser visitada pela googlebot; e h consenso de que as chances de uma visita da googlebot so proporcionais ao PageRank da pgina antiga onde houve um link para a pgina nova. A Google contra-ataca Por volta de outubro de 2003, o quadro na indstria de SEO era o seguinte: para melhorar o ranking de meu site sobre venda de canetas, eu vou quele site que fala de borboletas africanas, com vrias pginas com PR7, e compro alguns links por algumas centenas ou milhares de dlares. Aps alguns dias, meu site vai para a primeira pgina da Google. O comprador de links est feliz, o vendedor est feliz, e tudo segue adiante. A Google, porm, no estava satisfeita. E demonstrou isso em novembro de 2003: na sua (ento mensal) atualizao do ndice, grandes mudanas aconteceram; ficou evidente que a Google havia feito uma enorme mudana no algoritmo; diversas teorias conspiratrias surgiram (a mais citada: a Google havia rebaixado o ranking de vrios sites comerciais s vsperas do Natal, no intuito de que eles passassem a pagar por AdWords). Leia uma das mais longas threads de Webmasterworld.com: the Florida Update.

http://www.wbh.com.br/robogoogle.html

BIBLIOGRAFIA
http://acd.ufrj.br/pacc/busca1.html, ferramentas de pesquisa na internet; em 10 de novembro de 2006; http://www.google.com.br/, sobre a ferramenta google; em 12 de novembro de 2006; Valor econmico, Possibilidades da tecnologia deve haver equilbrio entre troca de arquivo e direito autoral, p 36; http://www.wbh.com.br/robogoogle.html, The Anatomy of a Large-Scale Hypertextual, Web Search Engine Sergey Brin and Lawrence Page ; em sergey. page@cs.stanford.edu em 10 de novembro de 2006; www.wiki.com.br; em 12 de novembro de 2006; www.ny.com; em 8 de novembro de 2006; www.uol.com.br/internet/novidades ; em 5 de novembro de 2006; www.cuteftp.com ; em 12 de novembro de 2006;

You might also like