You are on page 1of 72

1

VIVIANE NEVES DOS SANTOS

INDEXAO AUTOMTICA DE DOCUMENTOS TEXTUAIS: INICIATIVAS DOS GRUPOS DE PESQUISA DE UNIVERSIDADES PBLICAS BRASILEIRAS

So Paulo 2009

VIVIANE NEVES DOS SANTOS

INDEXAO AUTOMTICA DE DOCUMENTOS TEXTUAIS: INICIATIVAS DOS GRUPOS DE PESQUISA DE UNIVERSIDADES PBLICAS BRASILEIRAS

Trabalho de concluso de curso apresentado ao Departamento de Biblioteconomia e Documentao da Escola de Comunicaes e Artes da Universidade de So Paulo como requisito parcial para a obteno do ttulo de Bacharel em Biblioteconomia.

Orientadora: Prof Dr Nair Yumiko Kobashi

So Paulo 2009

3 AUTORIZO A REPRODUO E DIVULGAO TOTAL OU PARCIAL DESTE TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRNICO, PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE. Contatos E-mail 1: vivianeneves81@gmail.com E-mail 2: vivivns@yahoo.com.br

Catalogao na publicao elaborada pelo prprio autor


SANTOS, Viviane Neves dos Indexao automtica de documentos textuais: iniciativas dos grupos de pesquisa de universidades pblicas brasileiras / Viviane Neves dos Santos; Nair Yumiko Kobashi (Orientadora). So Paulo, 2009. 72 p.

Trabalho de Concluso de Curso (Bacharelado em Biblioteconomia) Departamento de Biblioteconomia e Documentao. Escola de Comunicaes e Artes. Universidade de So Paulo.

1. Indexao automtica. 2. Modelos de indexao automtica. 3. Grupos de Pesquisa em Indexao automtica. I. Autor. II. Ttulo. III. Orientadora.

FOLHA DE APROVAO

Nome: SANTOS, Viviane Neves dos Ttulo: Indexao automtica de documentos textuais: iniciativas dos grupos de pesquisa de universidades pblicas brasileiras

Trabalho de concluso de curso apresentado ao Departamento de Biblioteconomia e Documentao da Escola de Comunicaes e Artes da Universidade de So Paulo como requisito parcial para a obteno do ttulo de Bacharel em Biblioteconomia.

Banca Examinadora

Presidente da Banca: Prof Dr Nair Yumiko Kobashi

Prof Dr. Vnia Mara Alves Lima

Instituio: Universidade de So Paulo

Prof. Dr. Marcelo dos Santos

Instituio: Universidade de So Paulo

Aprovada em: ____/____/_____

AGRADECIMENTOS
A Deus que me permitiu chegar at aqui. Meu abrigo, amparo e conforto nos momentos de calmaria e de turbulncia. minha me, exemplo de carter e fora, pelo seu amor incondicional, amor s possvel vindo de uma me, a quem devo tudo que fui, que sou e que serei, aquela que me inspira a continuar andando. A Antnio (Magrinho) companheiro de minha me, que me considera sua sexta filha, mesmo no sendo, que vibrou comigo quando entrei na faculdade e que sempre tem uma palavra de apoio e um bom conselho a me dar. s mes que tive durante a vida, tia Tereza, tia Lourdes e minha prima Marilene (Ziza). Aos pais do meu amigo Carlos, Aldeniza e Marcos, que adotei como meus pais. Aos amigos Carlos, Elisangela, Renata, Helosa Kodama, Ricardo, Sarah, Larissa Raci, Virgnia, Larissa Neves (priminha), Andrea Laila, Vanessa Madeleine, trade (que no mais de trs) Luciana, Patrcia, Maria Irene, Geslaine (in memorian). s amigas Carol e Juju e aos amigos Agamenon, Alex, Gledson, Thiago Gaudncio e Tiago Murakami. Agradeo a vocs pelas conversas, pela ajuda, por poder compartilhar os bons e os difceis momentos dessa vida. A Demetrios, meu namorado, amigo e companheiro da vida, pela fora, carinho e bom humor sempre. Michely Vogel pelo incentivo, pela leitura do trabalho, sugestes e correes. A todos os amigos que mesmo no citados esto sempre em meu corao. equipe do Instituto Fernando Henrique Cardoso e da Grifo por proporcionarem meu primeiro estgio. Agradecimento especial bibliotecria Francisca Evrard, mestra e amiga, que me guiou nos primeiros passos da Biblioteconomia. equipe da BIREME, meu segundo estgio, em especial a Luciano Soares Duarte, Selma Palombo, Sueli, Maria Anlia e Ernesto Spinak. Ana Belluzzo e equipe do Projeto Arte no Brasil. Agradeo a todos pelas contribuies em minha formao profissional e aprendizado. A todos os professores da Escola Estadual Nossa Senhora Aparecida, meus primeiros mestres no Ensino Fundamental e Mdio, que um dia, l atrs, disseram que eu poderia conseguir.

6 Aos professores do CBD que me mostraram a importncia de ser bibliotecria, alm de contribuirem para minha formao. Agradeo ao Prof. Marcos Mucheroni pelo incentivo e soluo de dvidas, contribuindo para este trabalho. professora Nair Kobashi, pela orientao, pacincia, pela disposio em ajudar, bem como pelas correes e insights que contriburam muito neste trabalho. Sou muito grata, tambm, por acreditar em mim, mesmo quando nem eu mesma acreditava. Biblioteconomia, que me possibilita uma vida melhor por saber que h sentido no que fao e confirmar, a cada dia, que decidi pelo caminho certo, pois fao por amor e sem amor eu nada seria.

7 SANTOS, Viviane Neves dos. Indexao automtica de documentos textuais: iniciativas dos grupos de pesquisa de universidades pblicas brasileiras. 2009. 72 p. Trabalho de Concluso de Curso (Bacharelado em Biblioteconomia) Departamento de Biblioteconomia e Documentao, Escola de Comunicaes e Artes, Universidade de So Paulo, So Paulo, 2009.

RESUMO
Estudo sobre os modelos de indexao automtica e seu uso no tratamento e recuperao de documentos na Web e em processos de indexao em bancos de dados bibliogrficos. Apresenta-se um breve histrico da indexao automtica, seus principais conceitos, as reas relacionadas e a classificao dos mtodos de indexao automtica. So tambm identificados e caracterizados os grupos de pesquisa brasileiros que se dedicam ao tema. Conclui-se que os grupos desenvolvem pesquisas sobre o Processamento de Linguagem Natural (PLN), Sistemas Inteligentes, bem como Sistemas Inteligentes combinados com PLN. As propostas de indexao automtica tendem integrao de diferentes perspectivas, de modo a pemitir o uso da linguagem natural como linguagem de intercmbio entre usurio e sistema. Confirma-se a caracterstica interdisciplinar da indexao automtica, sendo sugerida a parceria entre os grupos para compartilhamento de recursos que conduzam ao avano das pesquisas sobre a indexao automtica.

PALAVRAS-CHAVE: Indexao automtica; Modelos de indexao automtica; Grupos de Pesquisa em Indexao automtica

LISTA DE ABREVIATURAS E SIGLAS


CDD - Classificao Decimal de Dewey CDU - Classificao Decimal Universal CID - Classificao Internacional de Doenas CNPq - Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico DeCS - Descritores em Cincias da Sade GED -Gesto Eletrnica de Documentos HTML - HyperText Markup Language IBICT - Instituto Brasileiro de Informao em Cincia e Tecnologia IDF - Inverse Document Frequency IHC - Interao Humano-Computador KWAC - Keyword alongside context KWIC - Keyword in context KWOC - Keyword out of context LaLiC - Laboratrio de Lingustica Computacional LCC - Library of Congress Classification LCSH - Library of Congress Subject Headings LD - Linguagem Documentria MHTX - Modelo Hipertextual para Organizao de Documentos NILC - Ncleo Interinstitucional de Lingustica Computacional PLN - Processamento de Linguagem Natural URL - Uniform Resource Locator XML - eXtensible Markup Language

SUMRIO

1 INTRODUO .............................................................................................................10 2 SOBRE A INDEXAO ..............................................................................................16 3 INDEXAO AUTOMTICA: CONCEITOS ..........................................................26 4 HISTRIA DA INDEXAO AUTOMTICA .........................................................32 5 RAZES PARA UMA INDEXAO AUTOMTICA .............................................36 6 A INTERDISCIPLINARIDADE DA INDEXAO AUTOMTICA.......................39 7 INDEXAO NOS DIAS ATUAIS, INDEXAO AUTOMTICA E INDEXAO NA INTERNET ................................................................................................................45 8 MODELOS DE INDEXAO AUTOMTICA.........................................................53 9 GRUPOS DE PESQUISA NO BRASIL NA REA DE INDEXAO

AUTOMTICA ...............................................................................................................56 9.1 LABORATRIO DE LINGUSTICA COMPUTACIONAL (LALIC)..........................................58 9.2 MODELAGEM CONCEITUAL PARA ORGANIZAO HIPERTEXTUAL DE DOCUMENTOS (MHTX) .........................................................................................................................59 9.3 NCLEO INTERINSTITUCIONAL DE LINGUSTICA COMPUTACIONAL (NILC)..................60 9.4 RECUPERAO INTELIGENTE DA INFORMAO ...........................................................63 9.5 REPRESENTAO DO CONHECIMENTO, ONTOLOGIAS E LINGUAGEM ............................64 9.6 CONSIDERAES GERAIS SOBRE OS GRUPOS DE PESQUISA .........................................64 10 CONSIDERAES FINAIS ......................................................................................67 REFERNCIAS ...............................................................................................................69

10

1 INTRODUO

O advento da Internet promoveu a acelerao dos processos de comunicao, provocando grandes mudanas nas formas de fazer cincia, desenvolver tecnologias, como tambm em diversos aspectos da vida em sociedade. A rea da Biblioteconomia e o fazer bibliotecrio tambm vm sendo afetados pela informatizao. Inicialmente, os computadores foram utilizados para otimizar os processos de tratamento da informao e, logo depois, para disponibilizar informao, substituindo os catlogos manuais por catlogos online. Estes ltimos superam os catlogos manuais porque oferecem maior nmero de pontos de acesso para pesquisa, permitem fazer buscas simultneas em campos diferentes e, desse modo, promovem rapidez na recuperao. Pode-se afirmar, ainda, que representar descritiva e tematicamente um documento tem sido a soluo mais adequada para que o usurio recupere informao no imenso universo de documentos produzidos e disponibilizados. Com a inveno da World Wild Web, na dcada de 90, foram criados novos tipos de documentos, as pginas HTML (HyperText Markup Language) e a possibilidade de navegao por links. Essa rede, mais conhecida como Web, pode ser definida como um sistema de documentos (hipertextos, sons, figuras) interligados e executados na Internet. Para dar alguma ordem ao atual universo de informao e comunicao, o World Wide Web Consortium, fundado em 1994 por Tim Berners Lee, passa a elaborar padres e recomendaes para o desenvolvimento de recursos para a Web. Com relao aos documentos textuais, emerge como padro de metadados a linguagem de marcao XML (eXtensible Markup Language). Em 2001, surge a Web 2.0 que, dentre outras caractersticas, destaca-se por ser uma rede colaborativa, com forte participao do usurio, tendo a prpria Web como plataforma de trabalho. Assim, cresce a tendncia de utilizao de aplicativos diretos na Web.

11 Atualmente, a grande dificuldade enfrentada pelo usurio encontrar informao pertinente dentro da imensa massa de documentos que circula na Rede. neste cenrio que surge a Web semntica que objetiva criar uma rede de dados que possam ser utilizados e combinados entre os aplicativos, empresas e comunidade em geral. Pretende-se, na Web semntica, atribuir sentido aos dados para que possam ser mais facilmente compartilhados e manipulados. Neste contexto, podem ser destacadas duas questes: a informao no est mais presa a formatos fixos e a tendncia de que os documentos tenham estruturas descritas com a utilizao de padres abertos, como o XML. Isso permite que uma mesma pgina Web possa ser exibida em navegadores diferentes, no sendo necessrio recorrer a softwares especficos para ter acesso informao. Alm disso, os documentos e pginas podem ser exibidos de maneiras diferentes, com estilos e cores variados, uma vez que h autonomia entre a apresentao da informao, a estrutura do documento e seu contedo. O outro aspecto referese ao usurio, que passa a ser tambm proudutor de contedos. Um fenmeno marcante do perodo atual o surgimento de novas formas de interao: h uma exploso de Blogs, Repositrios, Comunidades Virtuais e Foruns constitudos de pessoas que se renem por afinidades e interesses comuns. Nesses espaos, o usurio no s publica, como tambm descreve e indexa as informaes. A alterao produzida pela Internet de tal monta que praticamente toda informao produzida est na Internet, desde a comunicao cientfica at as informaes voltadas para entretenimento ou lazer. Considerando a difuso desse meio e sua larga utilizao, h quem diga que o que no est na Internet, no existe. Todavia, pode-se afirmar que a informao que est na Internet e no recuperada, portanto perdida na Rede, tambm no existe. Isso pode ser aplicado tambm s instituies, principalmente as de carter cientfico, que hoje tm na Internet uma das principais ferramentas de divulgao de resultados de pesquisas e de comunicao entre

12 pesquisadores. Todavia, as instituies enfrentam o desafio de adaptao ao novo contexto informacional e tecnolgico, sendo necessrio introduzir modificaes radicais nas formas de processar e apresentar informao. Padres de descrio e importao de dados, como os metadados utilizados pelo SciELO e polticas de catalogao colaborativa, como a desenvolvida para a catalogao de materiais para a base LILACS, iniciativas da BIREME, so alguns dos mtodos utilizados para otimizar os processos de tratamento dos documentos para rpida disponibilizao. Por outro lado, devido ao volume crescente de documentos e velocidade de sua produo, h iniciativas que visam a representar contedos de documentos automaticamente (ou de maneira semi-automtica), recorrendo s tcnicas da rea de Apredizado de Mquina, um ramo da Inteligncia Artifical, associadas s tcnicas de Processamento de Linguagem Natural (PLN). So os chamados mtodos de indexao automtica, cujas origens remontam a tcnicas mais simples, baseadas em frequncia/ocorrncia de palavras, utilizados desde os anos 1960. Observou-se, durante o levantamento bibliogrfico feito para a presente pesquisa, que h atualmente um considervel nmero de trabalhos sobre indexao automtica, que utiliza variados tipos de tcnicas e algoritmos aplicados principalmente indexao de documentos na Internet. Esses trabalhos nomeiam a atividade ora como Classificao automtica, ora como Categorizao automtica. Este cenrio justifica os objetivos deste Trabalho de Concluso de Curso, de estudar os modelos atuais de indexao automtica, em particular os projetos de grupos de pesquisas de universidades pblicas brasileiras e identificar os produtos/softwares desenvolvidos para a indexao de textos em lngua portuguesa. Foram definidos, a partir da, os objetivos da pesquisa, apresentados a seguir.

13 Objetivo Geral: Realizar um estudo exploratrio sobre os mtodos ou modelos de indexao automtica de documentos textuais. Objetivos Especficos: Verificar, com base na literatura publicada na rea da Cincia da Informao, os atuais modelos de indexao automtica. Verificar seu uso no tratamento e na recuperao de documentos na Web e em processos de indexao em bancos de dados bibliogrficos j constitudos. Levantar as inciativas de desenvolvimento de sistemas ou pesquisa de mtodos de indexao automtica em grupos de pesquisas de universidades pblicas brasileiras.

Procedimentos Metodolgicos: Para o desenvolvimento da pesquisa, foi feito inicialmente um levantamento da bibliografia relacionada ao assunto estudado neste projeto. Foram feitas buscas nas fontes Library and Information Science Abstracts (LISA), Web of Science, Annual Review of Information Science and Technology (ARIST), Portal do CRUESP, que rene os catlogos e recursos da USP, Unesp e Unicamp, Pesquisa Brasileira em Cincia da Informao e Biblioteconomia, outros peridicos na rea de Biblioteconomia e Cincia da Informao e pesquisas na Internet. Foram consideradas tambm obras referenciadas nos materiais j lidos para a redao do projeto. Para levantamento da literatura foram utilizados, em portugus e ingls, os assuntos Indexao automtica, Indexao semi-automtica, Categorizao automtica, Classificao automtica, combinando-os com Sistemas e Mtodos, os assuntos Sistemas de Recuperao de Informao e Minerao de texto tambm foram considerados.

14 Em cada fonte foi feita busca com os assuntos selecionados, nos campos Ttulo, Palavras-chave, Resumo e no prprio texto do item quando disponvel o texto completo. Cabe dizer que, uma vez que a literatura sobre o assunto publicada at 1998 foi revista na obra de Isidoro Gil Leiva (1999), as buscas se concentraram em obras publicadas do ano de 1998 em diante. Com base nos subsdios tericos fornecidos pelas obras lidas, foi elaborada uma grade de anlise para classificar as tendncias em indexao automtica dos grupos de pesquisa brasileiros. Os resultados da pesquisa esto organizados nas seguintes sees: O Captulo 1 Introduo, apresenta os objetivos da pesquisa, justificativas e procedimentos metodolgicos para levantamento da literatura utilizada para a parte terica do trabalho. O Captulo 2 Sobre a Indexao, contm o conceito de indexao, bem como localiza a indexao dentro do fluxo do Sistema de Recuperao de Informao e levanta resumidamente os fatores que interferem no produto final da indexao. O Captulo 3 Indexao automtica: conceitos, versa sobre a automatizao da indexao e conceitos relacionados (indexao automtica, semi-automtica e assistida por computador). A histria da indexao automtica vista no Capitulo 4 Histria da indexao automtica. No Captulo 5 Razes para uma indexao automtica, faz-se uma breve reviso dos fatores favorveis e contrrios indexao automtica. No Captulo 6 A interdisciplinaridade da indexao automtica, caracteriza-se a indexao automtica como rea interdisciplinar e so relacionas as disciplinas que contribuem para seu desenvolvimento.

15 O Captulo 7 Indexao nos dias atuais, indexao automtica e indexao na Internet, trata dos dias atuais da indexao automtica, incluindo a indexao na Internet. No Captulo 8 Modelos de indexao automtica, feita uma classificao dos modelos indexao automtica de acordo com a literatura. O Captulo 9 Grupos de pesquisa no Brasil na rea de indexao automtica, trata da metodologia para levantamento dos grupos de pesquisa, incluindo a descrio de cada um e sua classificao de acordo com quadro de modelos de indexao automtica elaborado a partir dos modelos identificados na literatura descritos no Captulo 8. Nas Consideraes Finais so apresentados e discutidos os resultados alcanados, bem como feitas indicaes sobre trabalhos futuros.

16

2 SOBRE A INDEXAO

Uma das misses da Biblioteconomia e da Documentao tratar e organizar informao para sua difuso. Para cumprir tal misso, o bibliotecrio ou profissional da informao desenvolve atividades que envolvem a seleo de documentos e seu tratamento, tendo em vista as necessidades dos usurios. Para atender aos usurios, necessrio tambm promover a adaptao contnua dos sistemas de informao. Dentre as atividades bibliotecrias tpicas podem ser citadas a representao descritiva e a anlise documentria, que tratam, respectivamente, da descrio dos aspectos formais e de contedo dos itens de informao. O processo de indexao uma das principais atividades realizadas pela Biblioteconomia e Documentao e constitui uma das formas de representao do contedo de documentos. Para melhor compreenso do funcionamento de um sistema automtico ou semiautomtico de indexao, ser feita, a seguir, uma caracterizao resumida do conceito de indexao, seus objetivos, estapas e instrumentos, bem como sua relao com a recuperao de informao. Os sistemas de recuperao de informao, de modo geral, apresentam uma entrada onde recebido um documento selecionado de acordo com a poltica do servio de informao. Este passa pelas tarefas de representao descritiva e representao temtica. Os produtos da descrio so armazenados em uma base de dados para acesso. Neste processo, um usurio com uma determinada necessidade informacional, far perguntas ao sistema por meio de estratgias de busca (LANCASTER, 2004, p.2). Apesar das diferentes correntes tericas que conceituam a indexao, aceita-se aqui, que ela uma operao de representao documetria com a finalidade de recuperar informao, localizando-se a Indexao dentro da rea de Anlise Documentria (CINTRA et al., 2002, p.33).

17 Por Anlise Documentria compreende-se, no sentido apresentado por Silva e Fujita (2004) como:
"[...] rea terica e metodolgica com o objetivo de tratamento temtico de documentos, que abrange as atividades de Indexao, Classificao e elaborao de resumos, considerando as diferentes finalidades de recuperao da informao." (p. 138)

Com base no modelo de sistema de recuperao de informao apresentado por Lancaster, verifica-se que, na entrada no sistema, feita a representao do documento para armazenamento. As etapas, segundo o autor, so constitudas da Anlise Conceitual e da Traduo. Na sada do sistema, h a pergunta do usurio, formulada por meio de estratgias de busca, feita com o intuito de recuperar documentos. Ambos os processos so mediados pelo Vocabulrio do Sistema, necessitando tambm, na sada do sistema, que seja feita a Anlise Conceitual e a Traduo da pergunta do usurio para a linguagem do sistema. Apesar de ser possvel descrever de diversas formas as etapas do processo de indexao, pode-se dizer, com base no exposto at agora, que ele ocorre na entrada dos sistema de recuperao de informao, quando feita a leitura, anlise e representao do contedo do documento, com base em um vocabulrio ou linguagem documentria do sistema; e ocorre tambm na sada do sistema, quando feita a leitura da pergunta do usurio e a elaborao de uma expresso de busca, de acordo com o vocabulrio ou linguagem documentria do sistema. Gil Leiva (1999, p.19-20), com relao ao conceito de indexao, afirma que a maioria dos conceitos so incompletos por se referirem, muitas vezes, apenas aos documentos como fontes de anlise, ignorando a pergunta do usurio. Para o autor, a indexao ocorre em dois momentos: a indexao do documento, para armazenamento; e a indexao da pergunta do usurio, cujo objetivo obter o que o autor chamou de resposta documental, ou seja, para recuperar documentos que atendam necessidade do usurio, materializada na expresso de busca.

18 Gil Leiva divide a indexao dos documentos em duas etapas. A primeira referese leitura do documento, que por sua vez se divide em uma leitura horizontal, em que so analisados e selecionados os conceitos presentes no documento; e em uma leitura vertical, onde so identificados e atribudos termos referentes aos conceitos implcitos no documento. Na segunda etapa, os conceitos em linguagem natural podem ser armazenados em linguagem natural ou convertidos para os termos de uma linguagem documentria. Um sistema automtico apenas seria capaz de identificar conceitos implcitos se ele fosse capaz de reconhecer um padro e inferir que uma expresso refere-se a um conceito; esta uma tarefa difcil pois a identificao requer lidar com um universo simblico, aspecto ainda no suficientemente descrito para ser incorporado aos sistemas de indexao automtica. A possibilidade de a mquina interpretar um texto tal como um ser humano o faria, tarefa subjetiva ainda no realizvel pelos sistemas de indexao, dado que a maioria deles, apesar de fazerem algum processamento baseado em referenciais lingusticos, e/ou com uma ajuda de uma linguagem documentria, baseiam-se predominantemente em mtodos estatsticos. Com relao aos conceitos explcitos, estes j seriam de fcil identificao dado que o sistema trabalharia com o que est presente materialmente no texto (os smbolos), ou seja, seria feito um reconhecimento dos significantes presentes no documento. Na sada do sistema, tanto Cleveland e Cleveland (1990, p.20) quanto Gil Leiva (1999, p.21), afirmam que a indexao da pergunta passa pelo mesmo processo realizado sobre o documento na entrada do sistema. Todavia, enquanto neste processo, a indexao do documento orientada s possveis perguntas dos usurios, naquele, a indexao da pergunta orientada para o documento, ou seja, tenta-se elaborar uma expresso de busca com os termos que possam constar como termos de indexao de determinado documento.

19 So utilizados diferentes nomes para designar o processo de indexao. Ora se emprega o termo indexao de assuntos, ora classificao, categorizao e, ainda, catalogao de assuntos. Por vezes, classificar e indexar so vistos como processos distintos, pois o primeiro utiliza-se de um sistema de classificao e o segundo pode utilizar palavras ou expresses do prprio texto para a representao o contedo. Porm, o ato em si consiste em atribuir uma representao a um documento, com o intuito de armazen-lo e recuper-lo do ponto de vista de seu contedo. Portanto, em essncia, classificar e indexar significam praticamente a mesma coisa. Adota-se aqui, pela frequncia na literatura, o termo indexao para todos os processos, com base na afirmao de Lancaster, de que:
O processo que consiste em decidir do que trata um item e de atribuir-lhe um rtulo que represente esta deciso conceitualmente o mesmo, quer o rtulo atribudo seja extrado de um esquema de classificao, de um tesauro ou de uma lista de cabealhos de assuntos, quer o item seja uma entidade bibliogrfica completa ou parte dela, quer o rtulo seja subseqentemente arquivado em ordem alfabtica ou em outra seqncia (ou, com efeito, no arquivado de modo algum), quer o objeto do exerccio seja organizar documentos em estantes ou registros em catlogos, ndices impressos ou bases de dados eletrnicas. (LANCASTER, 2004, p. 21)

H outro elemento importante na indexao: a linguagem. A Indexao, enquanto atividade que cria representaes de contedos explcitos e implcitos dos documentos, utiliza-se de uma linguagem constituda de termos que podem ser armazenados ou usados para busca em linguagem natural ou convertidos para o vocabulrio do sistema, ou seja, uma Linguagem Documentria (LD). Segundo Cintra et al. (2002, p. 33) as linguagens documentrias tm sua origem associada necessidade de resoluo das dificuldades de armazenamento e recuperao de informaes, surgidas nas dcadas de 50 e 60, dado o crescimento do conhecimento cientfico e tecnolgico. Essas linguagens podem ser definidas como linguagens construdas e constitudas de smbolos para representao do contedo dos documentos, para armazenamento e

20 recuperao. De maneira geral, operam no sentido de evitar ambiguidades na representao da informao, bem como no agrupamento daqueles que possam ser representados por termos sinnimos, alm de tentar garantir a univocidade dos termos, evitando a polissemia. Esta caracterstica, que torna a linguagem natural rica, por outro lado, dificulta a recuperao da informao. Alm disso as LDs deixam explcitas as normas ou regras de como devem ser utlizados os termos no ato da indexao e as relaes entre os termos da linguagem (sinonmicas, hierrquicas ou associativas) (CINTRA et al., 2002; GIL LEIVA, 1999). Os aspectos anteriormente descritos evidenciam que, alm de exercer a funo de instrumento de representao, as linguagens documentrias tambm tm uma funo comunicativa, ou seja, a normalizao das representaes documentrias como meio de viabilizar sua comunicao (LARA, 1993, p.223), portanto, envolve tambm a questo da significao, tendo como problema a representao de um documento de modo a no alterar o seu significado. Alm de outros fatores, as caractersticas da linguagem utilizada na indexao influenciam a comunicao que ser estabelecida entre o sistema de informao e o usurio, no ato da busca; assim, uma indexao incoerente ou a limitao da linguagem de indexao podem provocar a comunicao incorreta do contedo do documento. De maneira geral, as linguagens documentrias, enquanto linguagens de tratamento e recuperao da informao, podem ser classificadas de acordo com trs pontos de vista (GIL URDICIAIN, 1996, p. 22 citado por GIL LEIVA, 1999, p. 49): a) Tipo de controle de vocabulrio nesse sentido, podem ser livres (listas de descritores livres) ou controladas (classificaes, listas de cabealhos de assuntos e tesauros). b) Pela coordenao pr-coordenadas (classificaes e listas de cabealhos de assunto) e ps-coordenadas (lista de descritores livres, listas de palavraschave e tesauros)

21 c) Pela sua estrutura podem apresentar-se como hierrquicas (classificaes), alfabticas (listas de cabealhos de assunto), ou ambas (tesauros). Exemplo de lista de cabealhos de assunto a Lista de Cabealho de Assunto da Library of Congress (Library of Congress Subject Headings LCSH). Exemplos de classificaes so a Classificao Decimal de Dewey (CDD), Classificao Decimal Universal (CDU), Library of Congress Classification (LCC) e a Classificao de Ranganathan (Colon Classification). Estas so denominadas classificaes enciclopdicas, posto que procuram abarcam todo conhecimento humano. Todavia, h classificaes especializadas, como a Classificao Internacional de Doenas (CID), utilizada na rea da Sade para indexao das doenas, em pronturios mdicos ou atestados de bito, possibilitando a anlise estatstica de doenas, causas de mortes etc (WORLD HEALTH ORGANIZATION, [2009?]). Como exemplo de tesauro, pode ser citado o Tesauro da Unesco (UNESCO Thesaurus). Incluem-se aqui tambm as Taxonomias, que vm sendo utilizadas para a recuperao de informao em portais e bibliotecas digitais. As taxonomias permitem acesso por meio de navegao baseada em estruturao lgica de termos, organizados em classes e sub-classes, com quantidade de subdivises definida de acordo com a necessidade. As Ontologias tambm so consideradas neste grupo que, tal como as taxonomias, desempenham papel importante na Web Semntica. Campos e Gomes (2008) resumidamente ilustram a importncia do papel das ontologias e taxonomias para a Web Semntica:
Para que a Web semntica venha a funcionar de forma efetiva, computadores tm que ter acesso s colees estruturadas de informaes e a conjuntos de regras de inferncia que se consolidam atravs de mecanismos como as ontologias. Estas so meios poderosos de inter-relacionar sistemas e neste contexto elas possuem papel de destaque, como podemos observar atravs dos componentes que integram uma ontologia, ou seja: Termos e Definies; Classes e subclasses - que podem estar organizadas em uma taxonomia; Relaes (tambm chamadas de propriedades), que devem representar os tipos de interao entre as classes de um domnio; Axiomas

22
que so regras para determinar a verdade das sentenas; e Instncias que so utilizadas para representar elementos especficos, ou seja, os prprios dados.

Enquanto instrumentos utilizados para a representao do contedo de documentos, possibilitando armazenamento e recuperao de informao na Internet, consideram-se aqui as ontologias e taxonomias como tipos de linguagens documentrias. No estudo e no exerccio da atividade de indexao, h que se considerar outros fatores que influenciam o produto final da indexao e, consequentemente, a recuperao do documento, sendo alguns deles relacionados poltica de indexao da instituio. So exemplos, as partes do documento utilizadas para a indexao (se ttulos, resumos ou texto completo), o tempo dedicado indexao, a exaustividade, a especificidade e o grau de prcoordenao da linguagem documentria ou vocabulrio do sistema. Outras caractersticas mais alinhadas com a qualidade do produto da indexao so a correo e a coerncia. A indexao correta caracterizada pela ausncia de erros. Os erros podem ser causados pela omisso de um descritor necessrio ou pela atribuio de um descritor incorreto. Esse fator afeta diretamente a qualidade da recuperao de informao. A coerncia pode ser definida como o grau de concordncia entre as indexaes feitas por diferentes indexadores, bem como o grau de concordncia entre as indexaes de um mesmo indexador. (LANCASTER, 2004, p.68; GIL LEIVA, 1999, p.26). A coerncia pode ser medida pela razo entre os termos coincidentes atribudos a um documento pelos sistemas ou indexadores avaliados, e a soma dos termos atribudos por ambos, subtraindo-se os termos coincidentes. (GIL LEIVA, 1999, p.31). Essa proposta de Salton e McGill (citados por GIL LEIVA, 1999) foi inicialmente pensada para avaliar a consistncia entre indexao manual e indexao automtica. Ela pode ser empregada para avaliao de sistemas de indexao automtica, no no sentido de

23 oposio entre a indexao manual e automtica, mas no sentido de verificao da consistncia para posterior melhora ou correo dos parmetros do sistema de indexao, em um trabalho conjunto da indexao manual e automtica. Outra forma de avaliar a indexao por meio da recuperao de documentos pelos ndices de preciso e revocao do sistema. So conceitos de grande importncia para elaborar indicadores de desempenho de bases de dados ou sistemas de recuperao de informao. Lancaster (2004, p. 4), com relao ao uso de revocao e preciso, diz que, apesar de existirem outras abordagens, elas so medidas a serem utilizadas para expressar os resultados de qualquer busca que simplesmeste divida uma base de dados em recuperados e no recuperados. Emprega revocao (recall) como a capacidade de um sistema de informao de recuperar documentos teis; e preciso, a capacidade evitar documentos inteis. O coeficiente de revocao constitudo pela razo entre os documentos relevantes recuperados em uma busca e o total de documentos relevantes do sistema (CLEVELAND e CLEVELAND, 1990, p.149). A princpio j se pode afirmar que quanto mais tendente a um o coeficiente, maior a capacidade do sistema de recuperar itens relevantes para uma determinada busca. O coeficiente de preciso leva em conta a razo entre documentos relevantes recuperados e o total de documentos recuperados em uma busca (relevantes e irrelevantes). Pode-se inferir, ento, que quanto mais tendente a um, mais precisa ser a busca, pois maior ser a quantidade de itens relevantes recuperados efetivamente. Outra considerao a de que preciso e revocao so inversamente proporcionais, ou seja, quanto maior a preciso de um sistema, menor ser sua revocao (LANCASTER, 2004, p. 4; CLEVELAND e CLEVELAND, 1990, p. 150).

24 Se o objetivo de um sistema de informao recuperar informao, ento preciso e revocao so pontos a serem considerados e medidas que podem fornecer, de certa forma, parmetros para a avaliao de um sistema de indexao, seja ele automtico ou no. Cabe ressaltar que para grandes volumes de informao recomendvel que se tenha maior ndice de preciso e no de revocao. Lancaster recomenda isso ao afirmar que quanto maior for a base de dados, menos aceitvel ser uma baixa preciso. (2004, p. 4). Como explicao, o autor alega que o usurio pode ter disposio para examinar 57 itens com o fim de encontrar 6 que lhe sejam satisfatrios, mas no examinaria 570 itens com o fim de selecionar 60. Tal afirmao igualmente aplicvel ao resultado de uma busca na Internet, em que o usurio se dispe a verificar os links da primeira pgina de resultado, todavia no h garantia de que ele verifique as demais. Pode-se dizer, ento, que em grandes bancos de dados e na Web, alm de recuperar informao, as inciativas devem objetivar, principalmente, a preciso dos resultados das buscas, pois um aumento na revocao geraria como resultado muitos registros a serem examinados, sob risco de poucos deles serem relevantes para a busca efetuada. Para uma melhora na preciso de sistemas de recuperao de informao, o emprego da indexao necessrio. Dada a caracterstica descentralizada da Internet e o volume de informao crescente, as iniciativas que visem automatizao do processo so bem-vindas, posto ser de difcil realizao a indexao manual de todos os documentos disponveis na Rede. Considerando a indexao tradicional, so muitos os fatores que influenciam sua qualidade, mesmo havendo uma poltica delimitada, uma linguagem bem estruturada e pessoas bem treinadas para o tratamento e a difuso da informao. A indexao exige um esforo intelectual e requer padres e mtodos para contornar a subjetivade da compreenso

25 de mensagens presentes em textos. As possibilidades de vrias interpretaes de um texto, uma caracterstica inerente a eles, pode causar incoerncia nas indexaes. As iniciativas de automatizao so propostas, portanto, para facilitar o trabalho do indexador, conferindo padronizao indexao e para tentar resolver o problema de tratamento da crescente massa documental com a qual os servios de informao precisam lidar na atualidade. Sistemas automticos que abarquem todas as etapas do processo de tratamento, armazenamento e recuperao da informao e os agentes envolvidos (usurios, profissionais da indexao, autores dos documentos e instituies que abrigam os servios de informao) podem ser de grande valia e se deve consider-los como alternativas para a melhoria dos resultados de busca e dos produtos da indexao. necessrio observar, no entanto, que estes sistemas ainda esto por vir.

26

3 INDEXAO AUTOMTICA: CONCEITOS

Sendo a indexao a representao de um documento ou das perguntas feitas pelos usurios, no ato de busca, por meio de linguagem natural ou uma linguagem documentria, a indexao automtica seria a execuo deste processo por meio de programas ou algoritmos de computador que varrem o documento (ou registros de documentos) e realizam a representao do contedo sem a interveno do documentalista. Em reviso de literatura feita por Gil Leiva (1999, p.57-58), foi identificada uma grande variedade de termos utilizados para denominar a automatizao da indexao, sendo o termo Automatic indexing (Indexao Automtica) a forma mais utilizada. Todos os termos levantados pelo autor referiam-se automatizao da indexao, representando trs conceitos diferentes: Indexao assistida por computador durante o armazenamento: sistemas que auxiliam o processo de armazenamento dos termos de indexao extrados pelo indexador na etapa de anlise conceitual. So facilitadores do processo de indexao uma vez que proporcionam, por meio de janelas de ajuda, notas explicativas sobre os termos e seus relacionados e, s vezes, acesso a documentos j indexados, para soluo de dvidas. Indexao semi-automtica: sistemas que indexam automaticamente o documento e, se necessrio, do a possibilidade de edio e validao dos termos pelo documentalista. Indexao automtica: sistemas sem nenhuma validao por parte do documentalista; os termos de indexao so armazenados diretamente como descritores do documento.

27 Anderson e Perez-Carballo (2001b, p.256) definem indexao automtica como a anlise do texto por meio de algoritmos de computador. Na mesma linha, Hjrland (2008) define indexao automtica como a indexao feita por procedimentos algortmicos. O algoritmo pode trabalhar em uma base contendo representaes dos documentos, e/ou texto completo, registros bibliogrficos ou partes do texto, bem como pode ser efetuada em bases de materiais no-textuais, como imagens ou msica. Ainda de acordo com o autor acima, algumas tcnicas podem ser totalmente automticas, enquanto outras, semi-automticas. Cita como processamento semi-automtico a tcnica Machine-Aided indexing. Exemplos dessa abordagem so os sistemas NewsIndexer (REDMOND-NEAL, 2003) e o M.A.I. (Machine Aided Indexer) um aplicativo do sistema Data Harmony da Access Innovation, Inc.(HLAVA, 2003), que utilizam um vocabulrio controlado e realizam a operao de comparar as expresses extradas do documento com as expresses de uma linguagem documentria. Como processamentos totalmente automticos h aqueles que utilizam tcnicas de Categorizao de Texto (Text Categorization) e agrupamento (clustering). GOLUB*(2005, p.52-53), em pesquisa sobre indexao automtica para pginas Web utilizando vocabulrios controlados, diferencia as trs tcnicas acima citadas de acordo com sua rea predominante. A Categorizao de Textos, de acordo com a autora, uma abordagem da rea de Apredizado de Mquina (Machine-Learning), na qual os mtodos da rea recuperao da informao so tambm aplicados. Envolve, basicamente, a construo de indexadores automticos (classificadores automticos) que so capazes de aprender e classificar documentos apoiando-se em um conjunto de categorias pr-definidas e uma instncia de
* A Dra. Koraljka Golub pesquisadora do Grupo UKOLN da Universidade de Bath (Reino Unido) e faz parte do conselho editorial do peridico International Journal of Digital Library Systems.

28 treino de documentos j pr-classificados manualmente, que servem para que o sistema aprenda as caractersticas dos documentos e possa classificar um novo documento incorporado ao conjunto (GOLUB, 2005, p. 52). Esta considerada uma abordagem de aprendizado supervisionado(SEBASTIANI*, 2002, p.8). O clustering ou agrupamento (document clustering) uma abordagem de recuperao de informao (da rea da Cincia da Informao) e, diferente da tcnica anterior, no envolve uso de categorias pr-definidas ou uma "instncia de treino" de documentos j classificados manualmente, o que o caracteriza como no-supervisionado. Os agrupamentos (clusters) e as relaes entre eles derivam automaticamente dos documentos a serem agrupados e, posteriormente, os documentos so inseridos nos clusters. GOLUB (2005) denominou, tambm, de Classificao de Documentos (Document classification) a tcnica ligada Cincia da Informao que envolve um vocabulrio controlado (uma linguagem documentria) intelectualmente criada e utilizada por um sistema semi-automtico que sugere termos de indexao (Machine-Aided Indexing). Ainda ressalta uma abordagem mista, na qual as duas primeiras tcnicas so combinadas com a terceira, ou seja, o uso de vocabulrios controlados em categorizao de textos e em clustering (GOLUB, 2005, p.19). Com relao Categorizao Automtica, Farmer (2006) afirma que se trata de uma nova tecnologia feita para lidar com o grande volume de contedos digitais noestruturados, no indexados e desorganizados. utilizada conjuntamente com taxonomias e metadados para melhorar o desempenho das ferramentas de busca. De acordo com a autora (FARMER, 2006, p.93) essas ferramentas desempenham trs funes:

Fabrizio Sebastiani dedica-se ao estudo do Aprendizado de Mquina aplicado Categorizao Automtica de Textos e pesquisador do Conselho Nacional de Pesquisa da Itlia.

29 1) Categorizao de contedos digitais de acordo com uma taxonomia prestabelecida. 2) Extrao de conceitos e entidades dos documentos para desenvolvimento de uma taxonomia. 3) Extrao de metadados dos contedos ou extrao do contedo de tags de acordo com um esquema de metadados pr-definido. Ainda segundo a mesma autora (FARMER, 2006, p.94-95) so trs as tcnicas de processamento de texto para atribuir um documento a uma categoria: 1) Abordagem baseada em regra as regras so expressas por especialistas no formato SE... ENTO, como nos sistemas Machine-Aided Indexing. 2) Anlise estatstica para verificar frequncia de palavras, usando tambm algoritmos de co-ocorrncia de termos. Esta abordagem inclui a Categorizao de Texto, citada por outros autores anteriormente, que necessita de um conjunto de documentos pr-classificados para que o classificador aprenda as regras de inferncia. 3) Agrupamento (Clustering) lingustico e semntico esse tipo de tecnologia, considerado pela autora como o mais sofisticado, possibilita a criao de taxonomias e no necessita de documentos pr-classificados. Baseia-se no sentido das palavras para agrup-las, utilizando instrumentos como tesauros, dicionrios, analisadores morfossintticos, lematizadores, gramticas etc. Observa-se, portanto, que h classificadores que se baseiam em tcnicas de Processamento de Linguagem Natural para indexao de documentos digitais. Alm disso, vse uma variedade de tcnicas, umas apoiadas no PLN e outras em modelos matemticos (estatsticos ou probabilsticos), conjuntamente com tcnicas de Aprendizado de Mquina.

30 Em essncia, essas tcnicas podem ser consideradas dentro do mbito da automatizao da indexao, haja vista a utilizao de algoritmos que realizam funes de representao automtica do contedo de um documento, com o objetivo de armazenamento e/ou recuperao de informao, seja em bases de dados ou na Internet. Alm disso, a atividade de indexao pode utilizar uma linguagem documentria ou basear-se em termos em linguagem natural extrados dos prprios documentos. A Categorizao de Textos tambm se utiliza de um conjunto de categorias definido previamente ou uma taxonomia, assemelhandose aos processos j praticados pela Biblioteconomia e Documentao. Com relao terminologia, verificou-se na literatura a utilizao do termo indexao automatizada, sem a meno aos sistemas semi-automticos (MNDEZ RODRGUEZ e MOREIRO GONZLEZ, 1999), s vezes referindo-se apenas indexao que requer validao do documentalista (semi-automtica) (SILVA e FUJITA, 2004, p.145), bem como seguindo a mesma linha apresentada por Gil Leiva (RODRIGUEZ PEROJO e RONDA LEON, 2006). Por outro lado, ao se referir s abordagens de indexao automtica, Hjrland (2008) inclui a indexao semi-automtica. Reconhece-se que a validao dos termos propostos por um sistema semiautomtico implica uma outra indexao por parte do documentalista, exigindo o mesmo esforo intelectual necessrio na indexao manual ou assistida por computador. No entanto, o sistema em si executa a tarefa de indexao como um sistema automtico, com a diferena de que h um processo de verificao ou validao do produto final. Em seu sentido denotativo, de acordo com o Dicionrio Houaiss da Lngua Portuguesa, automatizar prover de mquinas ou de dispositivos mecnicos ou eletrnicos, para agilizao e otimizao da produo, dos servios etc. Logo, a automatizao da indexao o emprego de dispositivos que agilizam e otimizam o processo de indexao e adota-se aqui a classificao proposta por Gil Leiva, em que a indexao assistida por

31 computador, a indexao semi-automtica e a indexao automtica enquadram-se no mbido da indexao automatizada. Alguns sistemas baseados em regras tm na correo da indexao por humanos subsdios para a melhoria dos processos. De modo geral, o feedback dos indexadores fornece dados que permitem a correo das regras do sistema, bem como fornecem parmetros de avaliao para melhorar a preciso da indexao. Exemplos desse tipo de sistema so os j citados anteriormente, NewsIndexer e M.A.I. (Machine Aided Indexer).

32

4 HISTRIA DA INDEXAO AUTOMTICA

A histria da indexao automtica foi consistentemente revista por Gil Leiva (1999), portanto decidiu-se basear o histrico do tema em sua obra, recorrendo-se, quando necessrio, a outros autores. Os primeiros passos dados em direo indexao automtica so atribudos a Hans Peter Luhn, que por volta do final dos anos 1950, durante suas atividades na IBM, props que a frequncia das palavras em um documento ou cojunto de documentos estaria relacionada com sua utilidade para a indexao.(GIL LEIVA, 1999, p. 64; HJRLAND, 2008). Luhn baseou-se nos estudos desenvolvidos por Zipf. Este observou que havia um princpio do mnimo esforo na comunicao escrita ou falada, relativo tendncia de repetio de certas palavras ao invs da utilizao de palavras diferentes na comunicao oral ou escrita. Analisando a frequncia de apario das palavras, verificou que o produto da frequncia pela posio (classificao) da palavra no ranking, resultava em uma constante. Com base no exposto acima, Luhn props o primeiro mtodo de indexao automtica, que considerava a frequncia das palavras dos ttulos dos documentos, compondo um ndice permutado, chamado KWIC (Keyword in Context). A ideia de um ndice KWIC atribuda por Borko e Bernier a William Frederick Poole com a publicao de "Poole's Index" em 1882 (1978, p.8 citados por SILVA e FUJITA, 2004, p.146). Todavia, sua aplicao em processos automticos de indexao d-se a partir das iniciativas de Luhn. KWIC e suas variantes KWOC (Keyword out of context) e KWAC (Keyword alongside context) so as inciativas mais simples de indexao automtica que baseavam-se em extrao de palavras, geralmente dos ttulos, e clculo de sua frequncia. (HJRLAND, 2008; ANDERSON e PREZ-CARBALLO, 2001b, p.258). Luhn propunha que as melhores

33 palavras para indexao seriam as de frequncia mdia e j previa a retirada de palavras vazias como artigos, preposies etc. Seguindo essa linha estatstica da indexao automtica, Sprk Jones props, em 1972, um mtodo de ponderao de termos, o IDF (Inverse Document Frequency), que mede a escassez de apario de um termo em uma coleo. Essa forma de ponderao utilizada atualmente em combinao com a frequncia de apario do termo em um documento (Term frequency-Inverse Term Frequency TF-IDF), em experincias de indexao automtica e em recuperao da informao (GIL LEIVA, 1999, p.65; HJRLAND, 2005). Outro mtodo de ponderao, tambm da dcada de 1970, o valor de discriminao de termos, proposto por um grupo de investigadores liderados por Gerald Salton. Basicamente, a tcnica classificava vocbulos de um texto segundo sua capacidade para diferenciar um documento de outro em uma dada coleo. Segundo este mtodo, so atribudos pesos aos termos que, quanto mais altos, significam que se referem a termos que causam a mxima separao possvel entre os documentos, sendo estes os melhores termos para indexao. Ainda consideravam que, se havia mais de trs termos identificando um documento, poderia-se recorrer ao vetor espacial para representar uma coleo (GIL LEIVA e RODRGUEZ MUOZ, 1996, p.276). Tcnicas no lingusticas, baseadas no s na frequncia das palavras, mas se apoiando na probabilidade e relevncia de termos, so iniciativas que tambm surgiram at a dcada de 1980. Experincias baseadas em referenciais probabilsticos, que consideravam uma base com documentos pr-classificados por indexadores humanos como exemplos para o indexador automtico inferir regras j tiveram as primeiras iniciativas testadas na dcada de 80 (GIL LEIVA e RODRGUEZ MUOZ, 1996). O emprego de mtodos estatsticos contribuiu para o desenvolvimento inicial da indexao automtica. No entanto, estavam sujeitos a limitaes que influenciam os

34 resultados da ponderao dos termos. Como limitaes, consta que esses sistemas no possibilitavam reconhecer relaes semnticas (como o sinnimo de uma palavra); no reconheciam termos compostos, pois no trabalhavam com sintagmas e requeriam a normalizao das palavras, pois computavam, por exemplo, a forma singular e plural de um termo como ocorrncias distintas. nos anos 60 que se inicia a aplicao de tcnicas da rea de Processamento de Linguagem Natural (PLN) na indexao automtica. Segundo Gil Leiva (1999, p.69) as tcnicas de PLN so organizadas de acordo com diferentes anlises, chegando a enumerar um processamento morfolgico, um sinttico e um semntico. Em seu estudo, Gil Leiva (1999, p.77) evidencia que, exceto as primeiras propostas dos anos 60, que eram totalmente baseadas em mtodos estatsticos, as propostas posteriores poderiam ser hbridas, considerando: 1) Sistemas estatsticos e PLN; 2) Sistemas estatsticos com a utilizao de vocabulrio controlado; 3) Sistemas fundamentados em PLN com a utilizao de vocabulrios controlados; 4) Sistemas que consideramvam as trs abordagens anteriores. Cabe ressaltar aqui a interdisciplinaridade na construo desses sistemas, que une profissionais de PLN, estatsticos e bibliotecrios em trabalhos conjuntos. No Brasil, a aplicao da indexao automtica tem seu incio no final dos anos 60, com a utilizao do programa KWIC para elaborar os ndices das bibliografias especializadas publicados pelo Instituto Brasileiro de Bibliografia e Documentao (IBBD), atual Instituto Brasileiro de Informao em Cincia e Tecnologia (IBICT). Nos anos de 1970 surgem os primeiros estudos com a aplicao de leis bibliomtricas na indexao automtica, com a utilizao das Leis de Zipf e de Bradford, assim como a utilizao da transio de

35 Goffman. Posteriormente, foram desenvolvidos estudos j considerando a co-ocorrncia de palavras, bem como indexao baseada em razes vazias e razes significativas das palavras, como alternativa para otimizao do processo de indexao e recuperao, proposta por Jaime Robredo. (VIEIRA, 1988, p.52-53). Na dcada de 80 surgem tambm estudos j baseados em referenciais lingusticos, conjuntamente com uma abordagem estatstica, como por exemplo o estudo de Andreewski e Ruas (1983) que trata da adaptao do sistema francs SPIRIT para documentos em lngua portuguesa. Verifica-se, atualmente, o uso de referenciais lingusticos ou de PLN, mais exatamente de critrios sinttico-semnticos, tal como a proposta de uso de sintagmas nominais como unidades de anlise, presentes nos trabalhos de alguns autores brasileiros (KURAMOTO, 1996; SOUZA, 2006; BORGES, MACULAN e LIMA, 2008).

36

5 RAZES PARA UMA INDEXAO AUTOMTICA

Mndez Rodrguez e Moreiro Gonzlez (1999, p.4-8) identificam 4 fatores que levaram s experincias de indexao automatizada: O alto custo da indexao humana, em termos de tempo, suscitou a ideia de explorar de maneira eficaz, a um custo e tempo reduzidos, o volume constantemente crescente de informao. Essa questo motivou estudos que para comparar a indexao humana e a indexao automtica. Aumento exponencial da informao eletrnica e a proliferao de textos completos. A Gesto Eletrnica de Documentos (GED) e a informatizao dos processo documentais. A automatizao de processos cognitivos e a pesquisa crescente e os avanos em Processamento de Linguagem Natural (PLN). A automatizao de processos cognitivos permite o surgimento de sistemas inteligentes, que somados ao PLN, podem lidar com a atividade de indexao. Porm, os autores alertam para complexidade da linguagem e afirmam que um sistema no pode lidar globalmente com ela, sendo capaz apenas de reconhecer cadeias de caracteres. Os autores chegam a citar a digitalizao de documentos e seu manejo por meio de sistemas GED como um dos fatores que fortaleceram os estudos de indexao automtica. O aumento da capacidade de memria dos computadores, o avano nas interfaces grficas, o advento da Internet e depois da Web, dentre outros motivos, tambm criaram um conjunto de condies que podem facilitar o trabalho dos profissionais de informao. Se por um lado se

37 presencia um crescimento da produo e disponibilizao de informao, por outro, h tambm o desenvolvimento de tecnologias e aplicativos para seu tratamento. A subjetividade inerente indexao humana outro forte fator levantado em favor da automatizao da indexao (GIL LEIVA, 1999, p.61; MNDEZ RODRGUEZ e MOREIRO GONZLEZ, 1999, p.6; BORGES, MACULAN e LIMA, 2008, p.183). A indexao pode variar de um indexador para outro, bem como pode variar a indexao de um mesmo indexador em momentos diferentes. Logo, outro forte argumento em favor dos sistemas automticos que eles so mais objetivos, posto que aplicam sempre os mesmos parmetros para a indexao dos documentos, enquanto o indexador humano est sujeito variao de humor, alm de sua indexao refletir, at inconscientemente, sua viso de mundo, preconceitos e valores. A riqueza, traduzida pela exaustividade da indexao, outra caracterstica favorvel, embora a indexao humana parea ser mais precisa. (GIL LEIVA, 1999, p.62; ANDERSON e PEREZ-CARBALLO, 2001a, p.234). Porm, a exaustividade tambm pode significar alta revocao, fato que interfere na preciso dos resultado de buscas, efeito nem sempre desejvel. Ainda segundo os autores (ANDERSON e PEREZ-CARBALLO, 2001a) a indexao automtica parece funcionar to bem como a indexao humana, mas de maneira diferente. E endossam o baixo custo (com relao ao tempo) desse tipo de indexao, alm de sua facilidade de aplicao a grandes conjuntos de documentos (como na Internet), onde o volume de informao cresce constantemente, dificultando a indexao humana. Importante enfatizar que a indexao automtica pode ser vista como um instrumento facilitador da atividade de indexao, no sendo oposta indexao humana. Nesse sentido, os autores Anderson e Perez-Carballo (2001b, p.270-271) sugerem que a indexao humana poderia ser concentrada nos documentos mais importantes, ressaltando,

38 por exemplo, as abordagens metodolgicas, os pontos de vista ou os valores qualitativos, aspectos que no so facilmente identificveis por procedimentos automticos. Concorda-se aqui com esta abordagem para servios de informao j constitudos, como as bibliotecas, posto que a indexao automtica uma realidade e pode ser considerada uma soluo com relao a grandes volumes de informao. Porm, os sistemas automticos ainda no lidam satisfatoriamente com a linguagem humana ao ponto de indexar documentos textuais com alto grau de qualidade. O indexador tambm pode contribuir nas atividades de construo e avaliao dos sistemas automticos, postura defendida por Gil Leiva. O autor ainda afirma que, uma vez que este tipo de tecnologia venha a ser aplicada area de Cincia da Informao, o profissional da informao poder dedicar-se mais s atividades fins, consequentemente, difuso da informao, tarefa que constitui sua principal misso (1999, p. 60). Ainda sobre a indexao automtica, Farmer (2006, p. 99-100), quando se refere s ferramentas de categorizao automtica de documentos digitais, confirma a necessidade da parceria Homem-Mquina para somar capacidade de processamento de textos dessas ferramentas, a inteligncia, julgamentos e experincia humanas. Essa parceria produz melhoria na efetividade das taxonomias e no desempenho dos sistemas. De acordo com a autora, as habilidades humanas podem ser aplicadas configurao das ferramentas, ao controle de qualidade da indexao (avaliao), criao das taxonomias, em testes e treinamento dos sistemas e criao de regras de classificao. As atividades elencadas pela autora j so prticas correntes de bibliotecrios, j tendo portanto, este profissional da informao, instrumentos metodolgicos e ferramentas para a execuo dessas atividades.

39

6 A INTERDISCIPLINARIDADE DA INDEXAO AUTOMTICA

A interdisciplinaridade uma caracterstica inerente indexao automtica. Muitos autores reconhecem no s a interdisciplinaridade como recomendam a criao de grupos interdisciplinares para que se avance nas pesquisas da rea (GIL LEIVA, 1999, p.8283). Em relao aos sistemas de indexao automtica, Lamarca Lapuente (2007) afirma que os mesmos, hoje, norteiam-se pela equao Lingustica + Estatstica + Informtica + Base de conhecimento, utilizando cada elemento da equao em graus diferentes. De acordo com Gil Leiva, as reas que contribuem com a indexao automtica de documentos so: Lingustica Como a indexao lida com a linguagem para a representao dos conceitos, falar em indexao de documentos textuais falar tambm no uso de componentes da Lingustica que ajudam os sistemas automticos, por exemplo, a padronizar palavras para contagem (morfologia), desambiguao gramatical (sintaxe) e determinao do sentido de uma palavra (semntica). Terminologia A Terminologia tem como principal contribuio o fornecimento de bases para a construo de linguagens documentrias. Relao herdada da Cincia da Informao, pode-se constatar a contribuio da rea nos sistemas de indexao automtica que utilizam essas linguagens para representao dos documentos. Informtica rea que permite, desde os anos 50, o tratamento automtico da informao e seu armazenamento. Permite no s a indexao automtica, como tambm o armazenamento dos termos de indexao selecionados manualmente. Lingustica Computacional Trabalha a compreenso da lngua e de tcnicas apropriadas sua interpretao, escrita ou falada, tentando imitar a capacidade humana de

40 compreender textos. Essa rea intersdisciplinar, que fica entre a Lingustica e a Informtica, utiliza elementos de sintaxe, semntica, fontica e fonologia, pragmtica e anlise do discurso, e pode ser dividida em Lingustica de Corpus e Processamento da Lngua Natural (PLN). O PLN tem relao direta com a indexao automtica, pois se preocupa com o estudo da linguagem para a construo de softwares de traduo automtica, reconhecedores automticos de voz, geradores automticos de resumos, parsers, entre outros. da rea da PLN que surgem as tecnologias que permitem indexao automtica a realizao de processamentos sintticos, morfolgicos, semnticos e pragmticos. Hoje ela contribui com a rea de Inteligncia Artificial na construo de Sistemas Inteligentes.(GIL LEIVA, 1999, p.88; BORGES, MACULAN e LIMA, 2008, p.187). Estatstitca A estatstica geralmente aplicada a processos automticos de indexao com o intuito de calcular a capacidade informativa das palavras, determinada, geralmente, por frequncia de apario nos documentos. Posteriormente, com a PLN, foi possvel obter melhores resultados, uma vez que o processamento lingustico contribui para a normalizao dos termos e maior correo em sua contagem. Inteligncia Artificial A rea contribui com os Sistemas Inteligentes, ou seja, sistemas baseados em conhecimento, operando com uma base de conhecimento, que dota o sistema da capacidade de realizao de inferncias para a resoluo de problemas. Uma das formas mais comuns de expresso desse conhecimento por meio de regras. Atualmente, a rea tem contribudo com vrias reas por meio do fornecimento de algoritmos e tcnicas de Aprendizado de Mquina, incluindo a indexao automtica de documentos. Como exemplo desse tipo de abordagem o WADCS (Web-based automatic document classification system) criado por Pong et al (2007), testado no ambiente de biblioteca, com dois algoritmos da rea, o k-nearest neighbours (KNN) e Nave Bayes, e usando categorias da Library of Congress Classification (LCC). Exemplo de estudo para

41 aplicao na tarefa de classificao de pginas Web foi relatado por Indra Devi, Rajaram e Selvakuberan (2008). Outras tcnicas e disciplinas que tambm contribuem para o tratamento e recuperao de informao so: Minerao de Texto (Text mining) tendo como base a Minerao de Dados, a Minerao de Texto dedica-se extrao de informao de dados no estruturados ou semiestruturados, ou seja, textos em linguagem natural. Assim como na Minerao de Dados, a rea tambm trabalha com classificao automtica de textos e agrupamento (clustering), utilizando algoritmos de Aprendizado de Mquina para a construo de seus sistemas. Na classficao de textos, geralmente, o aprendizado supervisionado e no clustering nosupervisionado. Um estudo sobre a aplicao de Minerao de Texto aos processos de busca e recuperao de informao de materiais textuais, em lngua portuguesa, foi feito por Arajo Jnior e Tarapanoff (2006). Os autores chegaram concluso de que o processo poderia ser aplicado como auxiliar da atividade de indexao manual, na melhoria da preciso da indexao. No Brasil, um exemplo de busca realizada com base em clusters o IAHx, sistema de pesquisa integrado desenvolvido pela BIREME. Esse sistema objetiva, de maneira geral, aperfeioar a apresentao dos resultados de buscas da Biblioteca Virtual em Sade e de sua coleo de fontes de informao, possibilitando a visualizao de forma integrada, individualizada e ordenada por diferentes critrios e clusters. (BIREME CENTRO LATINO-AMERICANO E DO CARIBE DE INFORMAO EM CINCIAS DA SADE, 2008). A aplicao de tcnicas de Aprendizado de Mquina na Classificao Automtica de Textos (Text categorization) foi bastante estudada por Sebastiani (2002). O autor afirma

42 que a Categorizao de Textos data dos anos 60, mas foi popularizada nos anos 90. At os anos 80, a abordagem mais popular era baseada na Engenharia do Conhecimento, que consistia em elaborar uma srie de regras, sobre como classificar um documento sob uma determinada categoria, alimentadas manualmente por especialistas (base do Machine-Aided Indexing). Nos anos 90, cresce a adoo do paradigma do Aprendizado de Mquina que se constitui na construo de um classificador automtico, capaz de inferir regras, de acordo com uma base de documentos j pr-classificada. Isto faz com que a Categorizao de Textos seja uma disciplina que compartilha elementos do Aprendizado de Mquina e da Recuperao de Informao, alm de contribuir a execuo de tarefas como extrao de

conhecimento/informao e minerao de texto. Das aplicaes da Categorizao de Textos destacam-se a Indexao Automtica para Sistemas de Recuperao de Informao, mecanismos de filtragem de texto (por exemplo para disseminao seletiva de informao), desambiguao do sentido das palavras (Word sense disambiguation), e a categorizao hierrquica de pginas Web (indexao de pginas Web). Alguns mtodos para a construo de classificadores automticos so: Probabilsticos (Exemplo: Nave Bayes) rvores de Deciso (no-numricos, ou seja, simblicos) Regras de Deciso Mtodos de Regresso Mtodos On-line (classificadores lineares e Mtodo Rocchio) Redes Neurais Classificadores baseados em exemplos (Exemplo: k-nearest neighbours) Support Vector Machines Classifier Commitees (quando mais de um classificador utilizado)

43 Moens* (2000, p.132) tambm estuda as abordagens baseadas em Aprendizado de Mquina para indexao automtica e ressalta a importncia do uso de termos de linguagens controladas, pois o conhecimento sobre as palavras e expresses necessrio, exigindo que o conceito esteja presente, seja em um tesauro ou uma base de conhecimentos (base dos Sistemas Inteligentes). H que se considerar aqui a complexidade dos indexadores automticos de Categorizao de Textos, que podem ser construdos de acordo com uma grande variedade de mtodos e algoritmos, podendo ser automticos ou semi-automticos. Um estudo mais qualitativo dos algoritmos faz-se necessrio para identificao daqueles de melhor performance em documentos textuais para utilizao em indexao automtica de documentos em lngua portuguesa. Rodriguez Perojo e Ronda Len (2006) propem a participao de outra disciplina no s na Cincia da Informao no geral, como tambm na criao de sistemas de indexao automtica. Trata-se da Interao Humano-Computador (IHC). Esta disciplina, nascida no contexto da exploso tecnolgica da dcada de 1970, tem como palavra de ordem a interao, procurando assim desenhar, avaliar e implementar sistemas interativos para o uso dos seres humanos. A IHC pode ser analisada em fuo do estilo, ou seja, a forma como o usurio introduz e recebe informao; estrutura, que se refere forma de organizar os componentes (distribuio dos comandos em janelas ou campos em um formulrio); e contedo, relativo aos significados semnticos e pragmticos produzidos no dilogo homem/mquina. Nesse sentido, a rea est ligada Inteligncia Artificial, mais exatamente ao desenvolvimento de Sistemas Inteligentes que simulam o comportamento humano para resoluo de problemas. Somadas ao Processamento de Linguagem Natural, as reas
*

Marie-Francine Moens professora do Departamento de Cincia da Computao da Katholieke Universiteit Leuven (Blgica), dedicando-se ao estudo de mtodos automticos de indexao e resumo.

44 contribuem para o desenvolvimento de sistemas de indexao automtica, que atualmente possuem componentes dos sistemas inteligentes, como segue: Base de conhecimentos que compreende o conhecimento factual (dados) e inferencial (regras) que so introduzidos no sistema com a ajuda de especialistas da rea qual o sistema voltado. Ferramenta de inferncia composta de regras e princpios aplicados de forma consistente para garantir a estabilidade e previsibilidade do sistema. Interface com o usurio que precisa estar preparada para receber dados e acrescent-los memria de trabalho durante a sesso. Acredita-se que aqui a IHC pode ter grande contribuio. De maneira geral, foi feito aqui um resumo sobre as reas e disciplinas relacionadas indexao automtica. Cabe enfatizar que, muitas vezes, difcil tratar algumas disciplinas separadamente, uma vez que muitas colaboram entre si, tal como a Inteligncia Artificial, que se baseia em preceitos de PLN para construo de Sistemas Inteligentes, bem como a Minerao de Textos, a Categorizao de Textos e o clustering. A interdisciplinaridade dessas reas tambm se reflete na composio dos grupos que realizam pesquisas, requerendo cada vez mais profissionais de diferentes reas para desenvolvimento de projetos, inclusive na rea de Indexao Automtica que, como visto, vale-se de referenciais de variadas reas para seu desenvolvimento.

45

7 INDEXAO NOS DIAS ATUAIS, INDEXAO AUTOMTICA E INDEXAO NA INTERNET

O fluxo de recuperao de informao de Lancaster (2004, p.2), descrito no Captulo 2 Sobre a Indexao, pensado com relao a sistemas como as bases de dados tradicionais. Contudo, o autor afirma que o esquema tradicional de um Sistema de Recuperao de Informaes pode ser aplicado aos documentos da Internet, embora este no apresente as mesmas caractersticas de uma base de dados. Isto se deve ao fato de que, na Internet, qualquer pessoa pode criar uma pgina, inexistindo um processo de seleo e estruturao de documentos para recuperao (LANCASTER, 2004, p. 5). Embora alguns sites da Web possam incluir algum tipo de dado sobre seu contedo (metadados), nem todos o fazem. Os metadados so a maneira encontrada para a estruturao de dados nos recursos da Web, uma vez que estes no se encontram centralizados em uma base de dados. Essa estrutura descritiva faz parte do prprio documento e possibilita que seus dados sejam manipulados e consultados. O autor ainda prev que a indexao e resumos na Rede, provavelmente sero feitos por processo automticos, por meio de vrias etapas de processamento informatizado. (LANCASTER, 2004, p. 5). O que se torna bastante ntido que a cada dia h um volume maior e de tendncia crescente de informaes disponveis. O tratamento de todo este volume de informao necessita de mecanismos que otimizem sua execuo. Outro fator a ser levantado que a Internet, que abriga repositrios de informaes produzidas de maneira descentralizada, no conta com profissionais de referncia (como os que existem em servios de informao ou biblioteca). Esse papel desempenhado ou pela ferramenta busca ou pelo prprio usurio, quando clica em um link de uma pgina Web que ele supe atender s suas necessidades, quando navega pelas categorias de um site ou quando elabora uma expresso de busca.

46 Em algumas bases de dados e servios de informao on-line possvel que o usurio busque pelo termo de uma linguagem documentria, como no caso da BIREME, que tem o DeCS como linguagem que integra todas as fontes de informao disponveis em seu portal e permite que as buscas sejam feitas por termos DeCS. Com relao indexao na Internet, Gil Leiva menciona o que ele chamou de Universo da Indexao Web, confirmando a presena e a necessidade da indexao de documentos nesse meio. Esse Universo foi alcanado por uma extenso progressiva, tanto de conhecimentos e prticas prprios dos indexadores como dos profissionais da informao e da documentao em geral, com vistas popularizao da Internet (2007, p.47-48). Esta extenso dos conhecimentos e prticas facilmente identificvel. Quem desenvolve uma pgina Web ou procura informaes na Internet, tanto pessoas como instituies, esto, de fato, exercendo funes ou lidando com conceitos da rea da Biblioteconomia e Documentao. Os metadados so exemplos disso. Eles so formas de representao descritiva e temtica do documento (ou descrio da forma e do contedo). Quem define as tags de uma pgina est, portanto, realizando a atividade de um documentalista. Generalizando, o usurio que insere tags de assunto nos seus contedos na Web est indexando, bem como os padres de descrio de dados se assemelham a campos de bancos de dados. De maneira geral, as tags so marcaes no prprio texto que qualificam o objeto do texto (autor, ttulo, descritores) permitindo que essa informao seja tratvel por computador. A separao entre contedo, estrutura e estilo permite que o documento seja portvel e as linguagens de marcao permitem a estruturao desses documentos (descrio de sua forma e contedo). (BAX, 2001; ALMEIDA, 2002). Nesse sentido, o metadado sempre existiu. Antes ele era estruturado e centralizado em um banco de dados, constituindo os campos do banco. Hoje, ele est em um meio

47 descentralizado, a Internet, e faz parte da estrutura do prprio documento. Este pode ser apresentado de vrias formas, bem como podem ser feitas buscas em seu contedo, uma vez que a informao apresenta uma estrutura inteligvel a navegadores e sistemas de busca. Para Gil Leiva (2007), esse Universo de Indexao Web ou Ambiente de Indexao Web est impregnado pela indexao e formado por quatro elementos interrelacionados, a saber: Metadados: ordenam e descrevem a informao no documento, do ponto de vista formal e de contedo, facilitando seu acesso na Internet. O posicionamento Web: tambm chamado de Search Engine Optimization, refere-se ao conjunto de tcnicas utilizadas pelas ferramentas de busca para o ranqueamento das pesquisas. Cada ferramenta de busca tem um critrio para ranqueamento dos resultados. Todavia a utilizao das tags ou de palavras significativas na URL (Uniform Resource Locator), palavras-chave, ttulos, links externos, dentre outros, so fatores que contribuem para um bom posicionamento e visibilidade na Web. Essa catalogao da pgina fica a cargo da entidade que a produz. Buscadores: podem ser um diretrio ou uma ferramenta de busca. Os diretrios so organizados manualmente e apresentam uma estrutura de categorias navegvel. As ferramentas de busca operam com algoritmos que classificam as pginas do resultado de busca por relevncia, de acordo com critrios estabelecidos pelas instituies que produzem a ferramenta. Estes nem sempre so divulgados, mas o que se pode perceber que alm dos links internos de uma pgina, estes buscadores podem verificar tambm a frequncia de uma palavra no texto ou sua posio no documento.

48 Usurios: O usurio aqui visto pelo autor como um paradocumentalista, pois recorre constantemente Internet para localizao de informaes e j est familiarizado com conceitos da rea da documentao. Com todos esses agentes, a tarefa de organizar os documentos na Web no fcil, dado o nvel de subjetividade no momento de descrever o contedo (mesmo havendo uma estrutura de metadados) e dada a diversidade das informaes presentes na Internet (estruturadas ou no). Cada entidade catalogar suas informaes de acordo com seu ponto de vista e este no ser necessariamente o ponto de vista do usurio. Quem busca, buscar informaes de acordo com sua praxis e fica para o buscador a tarefa de mediao entre as duas pontas do sistema. A subjetividade da indexao v-se intensificada na Internet. Moens (2000, p.21) alerta que a insero de marcaes em documentos eletrnicos quando considera atributos relativos ao contedo (por exemplo, a atribuio de uma tag de descritores), pode ser considerada uma indexao manual e pode ser custosa, subjetiva e inconsistente. Como a Internet descentralizada, uma boa soluo seria aumentar o nmero de inciativas automticas. Porm, basear-se apenas no documento no considerar todos os agentes que contribuem para a indexao, pois ignora o ponto de vista do usurio. Portanto, tecnologias que indexam contedos, tanto na Internet como em servios de informao constitudos formalmente, precisam de alguma avaliao ou validao de seus produtos. Pensando na Internet, os mecanimsos de busca voltam-se para os documentos, mas o registro da busca feita pelo usurio pode contribuir bastante para a melhoria das buscas e ordenao de seus resultados. O mesmo pode ser considerado para servios de informao tradicionais, onde a possibilidade de acesso aos logs de buscas efetuadas pode fornecer subsdios para avaliao do vocabulrio do sistema e da indexao.

49 Em servios de informao que utilizam sistemas automticos de indexao, o problema que por mais que seja avanado um sistema, este no entende ou interpreta um texto como o ser humano. Assim, parece ser imprescindvel a avaliao constante do produto da indexao para verificar se o documento est sendo representado coerentemente, se a indexao est permitindo a recuperao do item ou se a linguagem utilizada precisa de atualizaes ou adaptaes. Em caso de sistemas que indexam e simultaneamente constrem a linguagem documentria, a superviso igualmente necessria. A fase atual dos sistemas de indexao automtica marcada pela unio de referenciais tericos de PLN e dos Sistemas Inteligentes, sistemas de indexao apoiados em referenciais da Inteligncia Artificial. Mndez Rodrguez e Moreiro Gonzlez (1999, p.17) do um panorama da nova gerao de sistemas de indexao automtica. Essa nova gerao seria caracterizada pelo acesso direto aos documentos por meio de processamento lingustico automtico e pela utilizao da linguagem natural, combinando tcnicas de anlise estatstica ou ponderao de termos. Os autores acima afimam que aqui so integrados todos os modelos anteriores (matemticos e lingusticos) com o intuito de fornecer competncias lingusticas e cognitivas s mquinas, baseadas tanto na Lingustica como nas bases de conhecimento. H a possiblidade de se contar tambm com interfaces inteligentes que viabilizam a utilizao da linguagem natural como linguagem de intercmbio de conhecimento entre o documentalista, o usurio e o sistema. Com relao s bases de conhecimento, estas podem ser consideradas um tesauro enriquecido com informao morfolgica, sinttica e semntica, cujo vocabulrio extrado dos documentos de uma rea especfica do conhecimento. Como j citado anteriormente, os Sistemas Inteligentes possuem trs componentes fundamentais, de acordo com Rodriguez Perojo e Ronda Len (2006): a base de

50 conhecimento, a ferramenta de inferncia e a interface com o usurio. As competncias necessrias a este sistema, ou seja, o conhecimento da rea, so retirados diretamente dos documentos, do conhecimento que os especialistas colocam neles, um conhecimento pragmtico, uma vez que vem da realidade (semntica de mundo), o que contribui tambm para que a linguagem do sistema esteja atualizada. (MNDEZ RODRGUEZ E MOREIRO GONZLEZ, 1999, p.18-19; LAMARCA LAPUENTE, 2007). Documentos Web que so marcados com alguma linguagem de marcao (como XML) podem servir como uma base de dados, ou seja, pode ser gerida a partir de sua estrutura e com o uso de um programa. Como nem todos documentos possuem esta estrutura marcada, h o desenvolvimento de ferramentas que manipulam esses tipos de dados. Lamarca Lapuente cita sistemas comerciais que indexam de forma automtica, mas admite que essas ferramentas no realizam somente as funes de indexao, elas tambm processam, armazenam e recuperam documentos. Mndez Rodrguez e Moreiro Gonzlez (1999, p.14-16), bem como Lamarca Lapuente (2007), resumem quatro processamentos (ou parsers lingusticos) sucessivos no PLN: O primeiro o processamento morfolgico-lxico, que tem como principal funo obter um lxico que serve como base para as anlises posteriores (sinttica e semntica), alm de fornecer dados coerentes e semanticamente nvocos para uma anlise estatstica de frequncias. Neste processamento h a segmentao do conjunto de textos em pequenas unidades, realizando uma verticalizao das oraes e atribuindo-lhes identificadores que sero utilizados como referncia nas anlises posteriores, marcando-se, assim, no s as palavras, mas os sintagmas, as locues, siglas, etc. So utilizados como auxiliares dois dicionrios, um contendo todas as entradas da lngua e outro as locues e expresses

51 idiomticas. Neste processo tambm pode ocorrer a lematizao para a converso das palavras em sua forma cannica (por exemplo a transformao de verbos conjugados em seu infinitivo, ou substantivos no plural para o singular). O segundo o processamento sinttico, aqui so utilizados dicionrios e gramticas para a descrio da estrutura das oraes e separao das unidades lingusticas, bem como desambiguao das categorias gramaticias atribudas no processamento anterior e realimentao dos dicionrios de aplicao. Utilizam-se analisadores sintticos que podem determinar as funes das palavras no texto (sujeito, verbo, etc). As etapas morfolgica e sinttica podem, tambm, ser realizadas de uma nica vez, com um analisador morfossinttico. O processamento semntico a anlise que permite agrupar e hierarquizar o contedo do texto por meio de um novo reconhecimento morfolgico, que tenha em conta os significados, por meio de reconhecimento de sinnimos e termos genricos. Pode-se realizar uma anlise semntica que estude as relaes do termo no contexto da frase ou no documento completo. Posteriormente, pode-se sistematizar os termos (em rvores) que mostrem as relaes dos termos dentro do esquema. Nesta etapa, so utilizados tesauros especializados. O processamento pragmtico considerado pelos autores como o mais complexo por no se basear somente no conhecimento lingustico, mas no conhecimento do mundo real (semntica de mundo). Este processamento analisa as relaes contextuais, valendo-se de algoritmos que permitem compreender o contexto do discurso. Uma rea mais avanada dessa corrente baseia-se na Anlise Cognitiva do Discurso, com o fim de extrair o que se denomina estrutura fundamental do significado. Para isso, so utilizadas outras tcnicas, como a de construo de Redes Semnticas. Este tipo de processamento j tem caractersticas de Sistemas Inteligentes.

52 Como j visto, os sistemas automticos utilizados para documentos digitais, incluindo pginas da Internet, utilizam-se de algoritmos de aprendizado de mquina, inclusive j com base em PLN, constituindo, de acordo com Farmer (2006, p. 96) a tcnica mais sofisticada de ferramentas de categorizao automtica que j conta com analisadores morfossintticos, dicionrios e tesauros. Pode ser percebido, de acordo com o exposto at o momento, que as tcnicas podem ser utilizadas conjuntamente (no sendo excludentes), permitindo pensar em uma evoluo dos sistemas de indexao automtica que antes eram baseados em abordagens estatscas mais simples (frequncia e ocorrncia de palavras). Hoje so caracterizadas por algoritmos complexos e teorias de PLN, que permitem a utilizao de linguagem natural no processo de recuperao de informao, em uma unio de modelos matemticos (no lingusticos) de indexao automtica e modelos lingusticos.

53

8 MODELOS DE INDEXAO AUTOMTICA

Mndez Rodrguez e Moreiro Gonzlez (1999), ao falarem sobre a classificao dos modelos de indexao automtica, afirmam que o mais comum o critrio evolutivo, mas que apesar das classificaes, os modelos no so excludentes e no tendem a se suplantarem, mas a conviverem e se unirem com um propsito comum que a obteno de uma indexao totalmente automtica. Das formas de classificao identificadas, podem ser destacadas, com base em Mndez Rodrguez e Moreiro Gonzlez (1999) e Lamarca Lapuente (2007): 1) Segundo o mtodos de extrao terminolgica: Com relao ao mtodo de extrao terminolgica, este se subdivide em: mtodos lingusticos e mtodos no lingusticos. Os mtodos lingsticos envolvem anlise do lxico, sinttica, semntica e conceitual, com a utilizao de ferramentas automticas. So os processamentos morfolgicolxico, sinttico, semntico e pragmtico citados anteriormente (Captulo 7). Os mtodos no lingusticos so aqueles de caractersticas quantitativas, baseados em: Extrao estatstica dos termos por exemplo o mtodo KWIC de Luhn. Extrao probabilstica dos termos baseada na frequncia mdia de aparecimento dos termos. Extrao bibliomtrica dos termos baseada na anlise quantitativa de determinados termos presentes nos documentos da bibliografia empregada em um campo concreto. Extrao infomtrica dos termos baseada no tratamento informtico dos termos e na engenharia do conhecimento. o denominado data mining ou

54 minerao de dados. Toma-se a liberdade de inserir tambm a minerao de texto, uma vez que derivada da minerao de dados. 2) Segundo as partes do documento que indexam: Os sistemas automticos de indexao so divididos naqueles que indexam apenas as partes principais do documento (ttulo, resumo etc) e os que indexam texto completo. 3) Segundo o controle de vocabulrio: Os sistemas so divididos de acordo com a linguagem utilizada pelos sistemas, se liguagens controladas (taxonomias, ontologias, tesauros, listas de cabealho de assunto etc) ou linguagens livres (lista de termos livres). 4) Segundo a evoluo dos sistemas de indexao automtica: Essa abordagem foi utilizada por Gil Leiva e Rodrguez Muoz (1996). Mndez Rodrguez e Moreiro Gonzlez (1999) citam as geraes de sistemas de indexao automatizada para propor uma classificao de acordo com o papel da linguagem natural em cada um deles. 1 gerao Palavras como objeto: aqui encontram-se os primeiros estudos baseados nos mtodos estatsticos e probabilsticos, onde as palavras so entendidas como objetos, e o processamento da linguagem ainda se d em nvel morfolgico. 2 gerao Anlise lingustica para a desambiguao das palavras: nesta gerao j se aplicam as tcnicas de Processamento de Linguagem Natural na desambiguao das palavras. Abrange os processamentos morfolgico-lxico, sinttico, semntico e pragmtico, com o intuito de compreender o significado dos documentos. 3 gerao Indexao inteligente Sistemas que se apoiam em Sistemas Inteligentes em combinao com os modelos anteriores (modelos estatsticos, probabilsticos etc). Possibilitariam o acesso direto aos documentos por meio

55 de linguagem natural e a utilizao de bases de conhecimento para dotar os sistemas de competncia lingustica e cognitiva. Cabe aqui citar tambm a sugesto de Hjrland (2008) que prope uma classificao voltada para o ponto de vista epistemolgico. O trabalho de Moreiro Gonzlez (2002) tambm fornece subsdios para classificao dos modelos de acordo com a teoria matemtica da informao. Estes ltimos foram apenas citados, sendo importante considerlos em estudos futuros sobre a classificao dos modelos de indexao automtica. Em sntese, foi percebido, de acordo com as leituras feitas, que os sistemas de categorizao automtica aplicados em documentos digitais (como pginas da Internet), como exposto, podem basear-se em referenciais de Aprendizado de Mquina, utilizando-se de uma base de documentos j pr-classificada, e por vezes no contam com todos os instrumentos lingusticos dos sistemas baseados em Processamento de Linguagem Natural. Portanto, so considerados neste estudo como Sistemas Inteligentes apenas, com exceo dos sistemas de agrupamento (clustering) lingustico e semntico citados por Farmer (2006) que j tm caractersticas da terceira gerao de sistemas. Pode ser dito, tambm, que h diversos modelos de indexao automtica atualmente, tendo sido percebido que as mais recentes so as assentadas em Sistemas Inteligentes ou na combinao de Sistemas Inteligentes com o Processamento de Linguagem Natural. Nesse sentido, considerando uma abordagem evolutiva e as caractersticas dessas novas ferramentas, ser apresentado, na prxima seo, um quadro geral que possa identificar os mtodos que os grupos de pesquisa de universidades pblicas brasileiras vm desenvolvendo.

56

9 GRUPOS DE PESQUISA NO BRASIL NA REA DE INDEXAO AUTOMTICA

Neste item sero analisados os trabalhos dos grupos de pesquisa brasileiros que se dedicam indexao automtica. Os critrios de anlise esto expostos no quadro abaixo.

Quadro 1: Critrios para Classificao dos Modelos de Indexao Automtica Modelo de Indexao Automtica Sistemas no lingusticos Descrio Inclui as linhas que seguem modelos estatsticos, probabilsticos, bibliomtricos e infomtricos. Sistemas lingusticos (PLN) So as linhas que j consideram um

processamento de linguagem natural nos nveis morfolgico, sinttico e semntico. Por exemplo com a utilizao de vocabulrios controlados ou o uso dos sintagmas nominais para

representao; e sistemas baseados em regras (Machine Aided-Indexing). Sistemas Inteligentes Sistemas de indexao automtica que se baseiam em algoritmos de Aprendizado de Mquina, permitindo a inferncia automtica das regras para a classificao dos documentos, podendo incluir o uso de um conjunto de documentos pr-classificados manualmente. PLN + Sistemas Inteligentes Trata-se da ltima gerao de sistemas de indexao que une todos os modelos existentes, com a utilizao de tcnicas e instrumentos de Processamento de Linguagem Natural (incluindo os intrumentos de processamento morfolgico, sinttico, semntico, pragmtico para a

composio de uma base de conhecimentos). Sabe-se que algumas das tcnicas descritas no Quadro 1 podem estar includas em outras. Um exemplo a categoria chamada aqui Sistemas Inteligentes que comporta

57 sistemas de categorizao automtica que podem utilizar algoritmos probabilsticos. Um classificador automtico tambm pode contar com recursos lingusticos de PLN (dicionrios, lematizadores, analisadores morfossintticos), podendo se enquadrar na categoria (PLN + Sistemas Inteligentes). O levantamento dos grupos de pesquisa de universidades brasileiras que se dedicam ao estudo da indexao automtica foi feito por consulta Base Corrente do Diretrio dos Grupos de Pesquisa no Brasil do Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq). Para a busca foram utilizadas as expresses indexao automtica, classificao automtica e categorizao automtica. A princpio, considerou-se apenas os grupos de Cincia da Informao, todavia, foram includos grupos de Cincias da Computao que realizam estudos e desenvolvem tecnologias na rea de Processamento de Linguagem Natural (PLN), Minerao de Texto, Aprendizado de Mquina, voltados para o tratamento de documentos textuais. Para a definio dos mtodos de indexao automtica estudados pelos grupos de pesquisa, quando este no estava explcito na descrio do grupo ou em alguma linha pesquisa dele, recorreu-se ao Currculo Lattes do lder para verificao de sua rea de atuao, bem como dos trabalhos que tenha publicado recentemente. Os grupos identificados foram: o o Laboratrio de Lingustica Computacional LaLiC Modelagem Conceitual para Organizao Hipertextual de Documentos MHTX o o o Ncleo Interinstitucional de Lingustica Computacional NILC Recuperao Inteligente da Informao Representao do Conhecimento, Ontologias e Linguagem

58 So detalhadas, a seguir, as caractersticas de cada grupo.

9.1 LABORATRIO DE LINGUSTICA COMPUTACIONAL (LALIC) O LaLiC (Laboratrio de Lingustica Computacional) um grupo de pesquisa do Departamento de Computao, Centro de Cincias Exatas e de Tecnologia, Universidade Federal de So Carlos (UFSCar), cuja rea principal Cincias da Computao. Formado em 2006, o grupo conta com a lider Lucia Helena Machado Rino, e se dedica a tcnicas de PLN na sumarizao automtica e traduo automtica. O grupo trabalha com uma equipe multidisciplinar de linguistas e cientistas da computao, envolvendo pesquisadores colaboradores, bolsistas de projetos e estudantes dos departamentos de Computao e Letras da UFSCar. Importante ressaltar que o grupo colabora com outro que ser descrito adiante, o Ncleo Interinstitucional de Lingustica Computacional (NILC) em projetos de sumarizao automtica. Linhas de Pesquisa: o Construo de Recursos Lingusticos e Computacionais para o PLN o Gerao Automtica de Textos o Minerao de textos o Modelagem do discurso para o projeto e desenvolvimento de sistemas de PLN o Sumarizao Automtica o Traduo Automtica Observando as linhas de pesquisa do grupo, pesquisadores e estudantes de Cincia da Informao poderiam ser parceiros deste grupo com o intuito de troca de informaes para a pesquisa e desenvolvimento de tecnologias para tratamento e recuperao de informaes. Sumarizao automtica, tcnicas de PLN aplicadas a essa rea, Minerao de Texto e

59 Traduo automtica so exemplos de linhas que seriam muito importantes e teis aos grupos de pesquisa em organizao da informao. Classificou-se o grupo como de tendncia a um modelo de PLN com Sistemas Inteligentes, dada a sua participao no grupo NILC, no desenvolvimento de sumarizadores automticos.

9.2 MODELAGEM CONCEITUAL PARA ORGANIZAO HIPERTEXTUAL DE DOCUMENTOS (MHTX) Grupo do Departamento de Organizao e Tratamento da Informao da Escola de Cincia da Informao, Universidade Federal de Minas Gerais (UFMG) formado em 2004. O MHTX tem como rea predominante a Cincia da Informao, tendo como lder a professora Prof Dr Gercina ngela Borm de Oliveira Lima, da rea de Biblioteconomia. O grupo faz pesquisas sobre o MHTX (Modelo Hipertextual para Organizao de Documentos), sistema proposto em 2004 na tese da lder do grupo, hoje estudado para melhoria dos processos de tratamento e organizao de informao. O sistema um Mapa semntico Conceitual e Sumrio Expandido, ao qual so acrescidos pontos de acesso. Foi instalado em uma base de dados digital de teses e dissertaes em texto completo, pertencente Biblioteca de Teses e Dissertaes do Programa de Ps-Graduao em Cincia da Informao da UFMG. Apesar de no haver nenhuma meno pesquisa em indexao automtica na descrio do grupo, o mesmo foi selecionado para este estudo porque em publicao recente (BORGES, MACULAN e LIMA, 2008) os participantes relataram as bases tericas para o desenvolvimento de um sistema de indexao automtica para fazer parte do prottipo do MHTX. Essa publicao revela uma tendncia do grupo a seguir a linha de Processamento de Linguagem Natural (PLN), todavia sem vinculao com Sistemas Inteligentes, pois a pesquisa

60 do grupo, at onde se pde verificar, no chega a contar com recursos de Aprendizado de Mquina, como o uso de uma base de conhecimentos construda com base em referenciais de PLN. Linha de Pesquisa: o Organizao e Uso da Informao (OIU)

9.3 NCLEO INTERINSTITUCIONAL DE LINGUSTICA COMPUTACIONAL (NILC) O Ncleo Interinstitucional de Lingustica Computacional (NILC) um grupo do Departamento de Cincias da Computao e Estatstica, do Instituto de Cincias Matemticas e de Computao So Carlos da Universidade de So Paulo (USP), em atuao desde 1993, sob a liderana da Prof. Dr. Maria das Graas Volpe Nunes. Tem como rea predominante a Cincia da Computao e, apesar de no ser diretamente ligado ao desenvolvimento de pesquisas em Indexao Automtica, foi selecionado por trabalhar com PLN e referenciais de Aprendizado de Mquina. O NILC conta uma equipe multidisciplinar, de linguistas e cientistas da computao para o Processamento de Linguagem Natural (PLN) em portugus. Alm de pesquisadores da USP de So Carlos, o grupo trabalha em parceria com pesquisadores da Universidade Federal de So Carlos (UFSCar) e Universidade Estadual Paulista (Unesp). Em mais de quinze anos de atuao, o grupo j desenvolveu tecnologias para o processamento de textos em lngua portuguesa, como analisadores de discurso, lematizadores, sumarizadores, dicionrios etc, que esto disponveis na pgina do NILC

(http://www.nilc.icmc.usp.br/nilc/). Algumas iniciativas so destacadas aqui devido possibilidade de seu uso em pesquisas em tratamento e organizao de informao:

61 - Stemmer programa que converte as palavras em lngua portuguesa para sua raiz, retirando as terminaes (flexes de nmero etc). - Unitex-PB projeto que visou construo de recursos lingusticocomputacionais para um sistema de processamento de corpus em lngua portuguesa. Dentre os recursos desenvolvidos esto um dicionrio e uma gramtica para resoluo de ambiguidades. - CURUPIRA parser desenvolvido para procesamento morfossinttico de texto em lngua portuguesa. - DiZer-PBr analisador automtico de discurso. Inclui corpus em lngua portuguesa j anotado (RHETALHO) e um segmentador de textos em sentenas (SENTER). - GistSumm programa que prodruz resumos automticos por meio da identificao automtica das principais ideias do texto para a construo do resumo. - Lcio-Web projeto desenvolvido pelo NILC em parceria com a Faculdade de Filosofia, Letras e Cincias Humanas (FFLCH) da USP, cujo objetivo divulgar e disponibilizar na Internet: corpus do portugus brasileiro escrito contemporneo, representando bancos de textos adequadamente compilados, catalogados e codificados em um padro que possibilite fcil intercmbio, navegao e anlise; e ferramentas lingusticocomputacionais, tais como contadores de frequncia, concordanciadores e etiquetadores morfossintticos. O Ncleo desenvolveu tambm outro projeto: Recursos e Ferramentas para a Recuperao de Informao em Bases Textuais em Portugus do Brasil (PLN-BR)* que contava, alm das atuais instituies participantes do NILC, com pesquisadores da PUC-RS, Unisinos e Mackenzie e possua sub-grupos nas linhas Categorizao de Textos (mais alinhada com Aprendizado de Mquina) e Sumarizao Automtica e Recuperao da Informao Textual.

http://www.nilc.icmc.usp.br/plnbr/index.htm

62 O grupo LaLiC (Laboratrio de Lingustica Computacional) da UFSCar, tambm descrito neste estudo, contribui com o NILC nas pesquisas relativas sumarizao automtica. Linhas de Pesquisa: o Aprendizado de Mquina e PLN o Construo de Recursos Lingusticos e Computacionais para PLN o Extrao de Informao o Ferramentas de Auxlio Escrita o Ferramentas de Avaliao da Proficincia em Lnguas No Nativas o Gerao de Textos e Sumarizao Automtica o Lingustica de Corpus o Redes Complexas e PLN o Reviso Gramatical Automtica do Portugus do Brasil o Simplificao Textual o Termintica o Text Mining o Textos Paralelos e Bilingues o Traduo Automtica Percebeu-se que muito foi desenvolvido pelo grupo, principalmente na rea de desenvolvimento de Corpora e tecnologias para Processamento de Linguagem Natural. Caracterizando-se o grupo em uma tendncia de PLN e Sistemas Inteligentes. Algumas linhas de pesquisa como Aprendizado de Mquina e PLN, Extrao de Informao, Gerao de Textos e Sumarizao Automtica, Text mining e Traduo Automtica poderiam contar com profissionais da Cincia da Informao para o desenvolvimento de tecnologias para tratamento e recuperao de informao.

63 A unio das tecnologias j produzidas pelo grupo, somada contribuio da Cincia da Informao na rea de tratamento e recuperao de informao, poderia resultar em uma base de conhecimentos para sistemas de indexao automtica de documentos em lngua portuguesa.

9.4 RECUPERAO INTELIGENTE DA INFORMAO Recuperao Inteligente da Informao um grupo formado em 2004, tendo como rea predominante a Cincia da Informao. Formado por pesquisadores e estudantes da rea de Cincias da Informao e Cincias da Computao do Departamento de Cincia da Informao do Centro de Cincias Jurdicas e Econmicas da Universidade Federal do Esprito Santo (UFES), o grupo realiza pesquisas em classificao automtica de documentos, baseada em tcnicas de Inteligncia Artificial, o que pode ser percebido pelas publicaes e formao do lder do grupo o Prof. Dr. Elias Silva de Oliveira, bem como pelo perfil das linhas de pesquisa do grupo, pois sistemas inteligentes de classificao automtica apoiam-se, geralmemte, em algoritmos de Aprendizado de Mquina. Linhas de Pesquisa: o Bibliotecas Digitais o Classificao Automtica de Documentos o Ferramentas para Apoio ao Ensino o Visualizao da informao Pela descrio do grupo e perfil das publicaes do lder, o que se pde constatar foi a ausncia de pesquisas relativas ao Processamento de Linguagem Natural. Todavia, o grupo j se utiliza de tcnicas de Aprendizado de Mquina, podendo ser classificado em uma abordagem de Sistemas Inteligentes.

64 9.5 REPRESENTAO DO CONHECIMENTO, ONTOLOGIAS E LINGUAGEM Grupo do Departamento de Organizao e Tratamento da Informao da Escola de Cincia da Informao da Universidade Federal de Minas Gerais (UFMG), formado em 2004, cujos lderes so os Prof. Dr. Renato Rocha Souza e o Prof. Dr. Maurcio Barcellos Almeida. Sua rea predominante a Cincia da Informao e o grupo tem uma orientao para a pesquisa, dentre outros tpicos, para a indexao automtica associada ao Processamento de Linguagem Natural. Linhas de Pesquisa: o Gesto de Contedo e Portais Semnticos o Instrumentos de Representao do Conhecimento e Ontologias o Organizao e Uso da Informao o Processamento de Linguagem Natural e Indexao Automtica O grupo j apresenta uma aproximao da indexao automtica com o PLN, mas pela descrio do grupo e produo do lder, no foi identificada relao com pesquisas em Sistemas Inteligentes, sendo enquadrado o grupo dentro da categoria de PLN.

9.6 CONSIDERAES GERAIS SOBRE OS GRUPOS DE PESQUISA De maneira geral, os grupos analisados concentram as pesquisas na rea de Processamento de Linguagem Natural ou j procuram uma abordagem de Sistemas Inteligentes ou Processamento de Linguagem Natural associado a Sistemas Inteligentes, indicando que h grupos que acompanham as tendncias atuais em indexao automtica, como pode ser visto no quadro resumo a seguir:

65 Quadro 2: Grupos de Pesquisa do Brasil e Modelos de Indexao Automtica GRUPO Laboratrio de Lingustica Computacional (LaLiC) Modelagem Conceitual Para Organizao Hipertextual De Documentos (MHTX) Ncleo Interinstitucional de Lingustica Computacional (NILC) Recuperao Inteligente da Informao Representao do Conhecimento, Ontologias e Linguagem INSTITUIO REA UFScar Cincia da Computao UFMG Cincia da Informao MTODO PLN+Sistemas Inteligentes PLN

USP/So Carlos

Cincia da Computao Cincia da Informao Cincia da Informao

PLN+ Sistemas Inteligentes Sistemas Inteligentes PLN

UFES UFMG

Grupos de pesquisa que se baseiam predominantemente em modelos de sistemas no lingusticos no foram encontrados. Cabe ressaltar que iniciativas que j tm algum software disponvel so aquelas voltadas para o processamento de textos em portugus dos grupos de Cincia da Computao, mais destinadas ao estudo da lngua portuguesa do que recuperao de informao. Percebeu-se, pelas linhas de pesquisa dos grupos de Cincia da Informao descritas, a preocupao com o tratamento da informao tambm da Internet, j pensando a questo das bibliotecas digitais, os hipertextos, a classificao automtica, ontologias, taxonomias etc. Como visto na literatura, a interdisciplinaridade uma caracterstica inerente Indexao Automtica. O desenvolvimento de pesquisas e de softwares de indexao automtica de documentos textuais em lngua portuguesa poderia ser realizado por meio de parcerias entre os grupos estudados. Os grupos, de uma maneira geral, so constitudos de pesquisadores da Cincia da Computao e da Cincia da Informao ou da Lingustica, todavia uma maior multidisciplinaridade das equipes, considerando tambm profissionais da Matemtica, mais

66 profissionais da Lingustica, profissionais da rea de Cincia da Informao nos grupos de Cincia da Computao, bem como a manuteno de uma porta sempre aberta a novas contribuies, podem levar a experincias mais enriquecedoras.

67

10 CONSIDERAES FINAIS

A difuso da informao a um determinado pblico pode ser considerada a principal misso da Cincia da Informao. No esforo de cumpr-la, os profissionais valemse de tcnicas e intrumentos para o tratamento e organizao da informao. Dentre os instrumentos e tcnicas esto aqueles relacionados representao do contedo de documentos por meios automticos: os mtodos de indexao automtica. A indexao automtica, atualmente, tanto na Internet como em servios de informao tradicionais, conta com os mais variados modelos. Apesar de no ter sido possvel distinguir os mtodos especificamente aplicados em bases de dados daqueles aplicados somente na Internet, questo que merece estudos complementares futuros, pde-se perceber uma tendncia ao desenvolvimento de sistemas que combinam tcnicas de Processamento de Linguagem Natural (PLN) com Sistemas Inteligentes, resultando em ferramentas dotadas de conhecimento que permitem busca em linguagem natural. Outro fator importante a interdisciplinaridade da rea. Para o desenvolvimento de tecnologias de indexao automtica parece ser necessrio que a Cincia da Informao busque apoio em outras reas, compondo grupos de pesquisas interdisciplinares para a realizao de projetos conjuntos. O bibliotecrio pode participar de projetos de indexao automtica

principalmente nas reas de desenvolvimento, gerenciamento e avaliao dos sistemas, bem como na construo de linguagens documentrias para sistemas que utilizem essa abordagem. Para verificao do modelo de indexao automtica seguido pelos grupos analisados, tentou-se seguir uma organizao evolutiva baseada nas caractersticas dos sistemas atuais identificados na literatura, elaborando-se um quadro geral de modelos. Conclui-se que a maioria dos grupos analisados concentram-se ou em pesquisas na rea de Processamento de Linguagem Natural (PLN) ou j procuram uma abordagem de Sistemas

68 Inteligentes ou PLN com Sistemas Inteligentes. Isso indica que j h grupos que acompanham as tendncias atuais em indexao automtica, no sendo identificados grupos que se baseiam somente em modelos no lingusticos. Apenas as inciativas voltadas para o processamento de textos em portugus nos grupos de Cincias da Computao j possuem softwares disponveis, mas verifica-se a possibilidade de um trabalho conjunto para a explorao desses sistemas para tratamento e recuperao de informao. A formao de parcerias entre os grupos estudados para o desenvolvimento de pesquisas e de softwares de indexao automtica de documentos textuais em lngua portuguesa poderia ser uma boa oportunidade para troca de experincias e unio de recursos e foras para o avano das pesquisas na rea.

69

REFERNCIAS

ALMEIDA, Maurcio Barcellos. Uma introduo ao XML, sua utilizao na Internet e alguns conceitos complementares. Cincia da Informao, Braslia, v. 31, n. 2, p.5-13, 2002. Disponvel em: < http://revista.ibict.br/ciinf/index.php/ciinf/article/view/140/120 >. Acesso em: 15 out. 2008. ANDERSON, J. D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval: Part 1: Research, and the nature of human indexing. Information Processing and Management, v. 37, n. 2, p.231-254, Mar. 2001a. ______. The nature of indexing: how humans and machines analyze messages and texts for retrieval. Part 2: Machine indexing, and the allocation of human versus machine effort. Information Processing and Management, v. 37, n. 2, p.255-277, Mar. 2001b. ANDREEWSKI, Alexandre; RUAS, Vitoriano. Indexao automtica baseada em mtodos lingusticos e estatsticos e sua aplicabilidade lngua portuguesa. Cincia da Informao, Braslia, v. 12, n. 1, p. 61-73, 1983. Disponvel em: < http://revista.ibict.br/index.php/ciinf/article/view/1550/1167 >. ARAJO JNIOR, Rogrio Henrique de; TARAPANOFF, Kira. Preciso no processo de busca e recuperao da informao: uso da minerao de textos. Cincia da Informao, Braslia, v. 35, n. 3, p.236-247, 2006. Disponvel em: < http://revista.ibict.br/index.php/ciinf/article/view/786/643 >. AUTOMATIZAR. In: DICIONRIO Houaiss da Lngua Portuguesa. [s.l]:[Instituto Antonio Houaiss], [2009?]. Edio eletrnica para assinantes Uol. Disponvel em: < http://houaiss.uol.com.br/busca.jhtm?verbete=automatizar&stype=k >. Acesso em: 12 dez. 2008. BAX, Marcello Peixoto. Introduo s linguagens de marcas. Cincia da Informao, Braslia, v. 30, n. 1, p. 32-38, jan./abr. 2001. Disponvel em: < http://revista.ibict.br/ciinf/index.php/ciinf/article/view/221/196 >. Acesso em: 15 out. 2008. BIREME CENTRO LATINO-AMERICANO E DO CARIBE DE INFORMAO EM CINCIAS DA SADE. IAHx: recuperao de informao baseada em clusters. [So Paulo], 2008. Disponvel em: < http://wiki.reddes.bvsalud.org/index.php/IAHx__Recupera%C3%A7%C3%A3o_de_informa%C3%A7%C3%A3o_baseada_em_clusters >. Acesso em: 10 dez. 2008. BORGES, Graciane Silva Bruzinga; MACULAN, Benildes Coura Moreira dos Santos; LIMA, Gercina Angela Borem de Oliveira. Indexao automtica e semntica: estudo da anlise do contedo de teses e dissertaes. Informao & Sociedade: Estudos, v. 18, n. 2, p.181-193, 2008. Disponvel em: < http://www.ies.ufpb.br/ojs2/index.php/ies/article/download/1759/2129 >. Acesso em: 15 fev. 2009. CAMPOS, Maria Luiza de Almeida; GOMES, Hagar Espanha. Taxonomia e Classificao: o princpio de categorizao. DataGramaZero: Revista de Cincia da Informao, v. 9, n. 4, ago. 2008. Disponvel em: < http://dgz.org.br/ago08/F_I_art.htm >. Acesso em: 2 mar. 2009.

70 CINTRA, Anna Maria Marques et al. Para entender as linguagens documentrias. 2. ed. rev. ampl., 1. reimp. So Paulo: Polis, 2005. 92 p. (Coleo Palavra-Chave, 4). CLEVELAND, Donald B.; CLEVELAND, Ana D. Introduction to indexing and abstracting. 2nd. ed. Englewood:Libraries Unlimited, 1990. 329 p. CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTFICO E TECNOLGICO. Diretrio dos Grupos de Pesquisa no Brasil [base de dados]. [Braslia], 2009. Disponvel em: < http://dgp.cnpq.br/buscaoperacional/ >. Acesso em: 30 jun. 2009. FARMER, Linda. Automatic categorization: what's it all about?. Serials Librarian, v. 51, n. 2, p.91-101, 2006. GIL LEIVA, I.; RODRGUEZ MUOZ, J. V. Tendencias en los sistemas de indizacin automtica: estudio evolutivo. Revista Espaola de Documentacin Cientfica, 1996, v. 19, n. 3, p 273-291. GIL LEIVA, Isidoro. A indexao na Internet. Brazilian Journal of Information Science, v.1, n.2, p.47-68, jul./dez. 2007. Disponvel em: < http://www.bjis.unesp.br/pt/include/getdoc.php?id=72&article=21&mode=pdf >. Acesso em: 20 out. 2008. GIL LEIVA, Isidoro. La automatizacin de la indizacin de documentos. Gijn (Astrias): Eciciones Trea, 1999. 220 p. GOLUB, Koraljka. Automated subject classification of textual Web pages, for browsing. Lund: Lund University, Department of Information Technology, 2005. 139 p. Disponvel em: < http://www.it.lth.se/koraljka/Lund/publ/LicE.pdf >. Acesso em: 15 jan. 2009. HJRLAND, Birger. Automatic Indexing. In: ______. Lifeboat for Knowledge Organization. [s.l.]:[s.n.], 2008. Disponvel em: < http://www.db.dk/bh/lifeboat_ko/CONCEPTS/automatic_indexing.htm >. Acesso em: 5 dez. 2008. ______. Core Concepts in Library and Information Science (LIS). [s.l.]:[s.n.], 2005. Disponvel em:< http://www.db.dk/bh/Core%20Concepts%20in%20LIS/home.htm >. Acesso em: 5 dez. 2008. HLAVA, Marjorie M. K. NewsIndexer: machine-aided indexing customized for the news industry. In: SCHROEDER, Sandi (Ed.). Software for indexing. Medford, NJ: American Society of Indexers, 2003. p.253-261. INDRA DEVI, M.; RAJARAM, R.; SELVAKUBERAN, K. Generating best features for Web page classification. Webology, v. 5 n. 1, article 52, mar. 2008. Disponvel em: < http://www.webology.ir/2008/v5n1/a52.html >. Acesso em: 15 out. 2008. KURAMOTO, Hlio. Uma abordagem alternativa para o tratamento e a recuperao de informao textual: os sintagmas nominais. Cincia da Informao, Braslia, v. 25, n. 2, p.118, 1996. Disponvel em: < http://revista.ibict.br/index.php/ciinf/article/view/435/393 >. Acesso em: 15 abr. 2009.

71 LAMARCA LAPUENTE, Mara Jess. Indizacin automtica. In:______. Hipertexto: El nuevo concepto de documento en la cultura de la imagen. Tesis doctoral - Universidad Complutense de Madrid, 2007. Disponvel em: < http://www.hipertexto.info/documentos/indiz_automat.htm >. Acesso em: 27 out. 2007. LANCASTER, F. W. Indexao e resumos: teoria e prtica. 2. ed. Braslia: Briquet de Lemos, 2004. LARA, Marilda Lopes Ginez de. Algumas contribuies da semiologia e da semitica para anlise das linguagens documentrias. Cincia da Informao, Braslia, v. 22, n. 3, p. 223226, set./dez. 1993. Disponvel em: < http://revista.ibict.br/ciinf/index.php/ciinf/article/download/1129/778 >. Acesso em: 26 set. 2008. MNDEZ RODRGUEZ, Eva M.; MOREIRO GONZLEZ, Jos A. Lenguaje natural e indizacin automatizada. Ciencias de la Informacin, v. 30 , n. 3, p.1-23, sept. 1999. Disponvel em: < http://www.bib.uc3m.es/~mendez/publicaciones/articulos/indizacion99.pdf >. Acesso em: 15 maio 2008. MOENS, Marie-Francine. Automatic indexing and abstracting of document texts. Boston : Kluwer Academic Publishers, c2000. 265 p. (The Kluwer international series on information retrieval, 6). Disponvel em: < http://site.ebrary.com/lib/usp/Doc?id=10046957 >. Acesso em: 2 mar. 2009. MOREIRO GONZLEZ, Jos Antonio. Aplicaciones al anlisis automtico del contenido provenientes de la teora matemtica de la informacin. Anales de documentacin, n. 5, p.273-286, 2002. Disponvel em: < http://revistas.um.es/analesdoc/article/viewFile/2101/2091 >. Acesso em: 15 maio 2009. PONG, Joanna Yi-Hang et al. A comparative study of two automatic document classification methods in a library setting. Journal of Information Science, v. 34, n. 2, p. 213-230. REDMOND-NEAL, Alice. NewsIndexer: machine-aided indexing customized for the news industry. SCHROEDER, Sandi (Ed.). Software for indexing. Medford, NJ: American Society of Indexers, 2003. p.247-251. RODRIGUEZ PEROJO, K.; RONDA LEON, R. Organizacin y recuperacin de la informacin: un enfoque desde la perspectiva de la automatizacin. ACIMED, Habana, v. 14, n. 1, ene./feb., 2006. Disponvel em: < http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S102494352006000100004&lng=es&nrm=iso&tlng=es >. Acesso em: 15 maio 2008. SEBASTIANI, F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, v. 34, n. 1, p.1-47, 2002. Disponvel em: < http://citeseer.ist.psu.edu/article/sebastiani99machine.html >. Acesso em: 15 maio 2008. SILVA, M. R. da; FUJITA, M. S. L. A prtica de indexao: anlise da evoluo e tendncias tericas e metodolgica. TransInformao, Campinas, v. 16, n. 2, p.133-161, 2004. Disponvel em: < http://revistas.puccampinas.edu.br/transinfo/include/getdoc.php?id=196&article=65&mode=pdf&OJSSID=3bc d6d818e45ebfecdcb30215f9b0c5b >. Acesso em: 15 jan. 2009.

72 SOUZA, Renato Rocha . Uma proposta de metodologia para indexao automtica utilizando sintagmas nominais. Encontros Bibli: Revista Eletrnica de Biblioteconomia e Cincia da Informao, Florianpolis, n. esp, p.42-59, 1. sem. 2006. Disponvel em: < http://www.periodicos.ufsc.br/index.php/eb/article/view/329/385 >. Acesso em: 15 abr. 2009. VIEIRA, Simone Bastos. Indexao automtica e manual: reviso de literatura. Cincia da Informao, Braslia, v. 17, n. 1, p.43-57, jan./jun. 1988. Disponvel em: < http://revista.ibict.br/index.php/ciinf/article/viewPDFInterstitial/1391/1017 >. Acesso em: 20 abr. 2009. WORLD HEALTH ORGANIZATION. International Classification of Diseases (ICD). [s.l.], [2009?]. Disponvel em: < http://www.who.int/classifications/icd/en/ >. Acesso em: 25 maio 2009.

You might also like