DataGramaZero - Revista de Cincia da Informao - v.3 n.1 fev/02 ARTIGO 05
A Ambiqidade na Recuperao da Informao Ambiguity in information retrieval por Marisa Brscher Resumo: Discutem-se questes relativas extrao de informaes contidas em textos completos e posterior recuperao, por meio de mtodos de tratamento automtico da linguagem natural. Alm da extrao de palavras do texto, procura-se manter as relaes de significado que estas palavras possuem no contexto do discurso em que ocorrem. Assim, defende-se o tratamento de determinados fenmenos lingsticos que afetam a qualidade da recuperao, como o da ambigidade. Como referencial terico- metodolgico para efetuar a anlise e organizao sinttico-semntica de contedos, utilizam-se a Gramtica de Valncias de Borba e a teoria de Grficos Conceituais de Sowa. Emprega-se um sistema de tratamento automtico da linguagem natural o Zstation em um corpus constitudo de documentos oficiais do Mercosul, para testes de desambiguao. Conclui-se que um sistema de recuperao da informao em linguagem natural pode solucionar determinados tipos de ambigidades quando dispe de informaes relativas valncia sinttico-semntica das unidades lexicais que compem um enunciado. Os resultados obtidos demonstram ser possvel introduzir procedimentos automticos de soluo de ambigidades em sistemas de tratamento da linguagem natural. Palavras-chave: Recuperao da Informao; Tratamento Automtico da Linguagem Natural; Ambigidade; Valncia Sinttico-Semntica; Grficos Conceituais Abstract: TIssues relative to information extraction from complete texts and subsequent retrieval by means of automatic natural language treatment methods are discussed. Besides extracting words from the text, the relationship of significance that these words have in the context of the speech in which they occur is attempted to be preserved. An information retrieval system using natural language should be able to treat given linguistic phenomena that affect the quality of information, such as, for instance, the issues of ambiguity. The Valence Grammar and the Conceptual Graphics are used as theoretical and methodological. An automatic natural language treatment system Zstation is utilized, as well as a pool of official documents concerning the Mercosul, for the ambiguity solutions tests. The conclusion is reached that a natural language treatment system can solve certain types of ambiguities when information is available regarding the syntactic-semantic valence of the lexical units that compose an enunciation. The results obtained show that it is possible to introduce automatic procedures for solving ambiguities in a natural language treatment system. Keywords: Information Retrieval; Document Analysis; Natural Language Processing; Ambiguity; Valence Grammar; Conceptual Graphs
INTRODUO As tecnologias da informao vm provocando mudanas profundas nos processos tradicionais http://www.dgz.org.br/fev02/Art_05.htm (1 de 28)20/7/2005 08:00:57 Artigo 05 de comunicao cientfica, quase que eliminando o espao de tempo entre a produo e a disseminao dos textos cientficos. Essas mudanas, conseqentemente, afetam os processos de tratamento da informao utilizados pela Cincia da Informao. Observa-se hoje uma tendncia ao desenvolvimento de mecanismos que possibilitam a disponibilizao dos documentos no momento de sua produo, em muitos casos pelo prprio autor. Como exemplo desta tendncia podem ser citados a Biblioteca Digital de Teses e Dissertaes Eletrnicas, da Virginia Tech [i] e os Arquivos Abertos [ii]. Ambos fornecem aos autores padres e ferramentas para produo e submisso eletrnica de documentos, possibilitando a disseminao imediata das informaes disponibilizadas nestes repositrios. Apesar das mudanas ocorridas nos processos de produo, tratamento e disseminao de informao, alguns problemas enfrentados pelos sistemas tradicionais de recuperao da informao continuam presentes nas ferramentas de busca atuais e ganham maior amplitude e complexidade. Como ressalta Chen [iii] isto de deve a diferentes fatores: variaes nas estruturas e formatos de bases de dados, diferentes formas de documentos disponibilizados (texto, audio e vdeo) e abundncia de contedos multilnges nas aplicaes da Web. Acrescente-se, ainda, a estes aspectos, a multidisciplinaridade dos contedos disseminados na rede. Considerando estes fatores e o contexto atual de produo e disseminao eletrnica de documentos, as pesquisas realizadas na rea de recuperao da informao concentram-se, de maneira geral, no desenvolvimento de ferramentas que possibilitem a extrao do contedo diretamente dos textos completos dos documentos disponibilizados eletronicamente. No entanto, ferramentas de busca que utilizam palavras como pontos de acesso ao contedo tm se mostrado ineficientes, fato este observado pela quantidade de informao irrelevante recuperada por motores de busca da Web. Assim, os trabalhos mais recentes na rea baseiam-se na premisssa de que ferramentas de busca, ao fazerem uso da linguagem natural, necessitam de conhecimento sobre o significado das expresses que so tratadas e das relaes que se estabelecem entre elas. Essas ferramentas devem, ainda, ser capazes de tratar determinados fenmenos lingsticos que afetam a qualidade da recuperao, como o da ambigidade, a qual tratada no mbito deste trabalho.
WEB SEMNTICA A necessidade de recuperao de informaes armazenadas em grandes repositrios de informao disponveis na Internet e de responder com maior preciso s buscas realizadas diretamente pelos usurios finais, tm levado a um esforo no sentido de adicionar informao semntica s pginas Web. Procura-se, desta forma, como afirma Cranefield [iv], aumentar a eficincia e a seletividade dos motores de busca e de outros tipos de ferramentas de processamento automtico de documentos. http://www.dgz.org.br/fev02/Art_05.htm (2 de 28)20/7/2005 08:00:57 Artigo 05 As propostas de incorporao de informao semntica em sistemas de busca aplicam abordagens distintas, enfatizando um ou outro aspecto da anlise lingstica e utilizando diferentes mtodos de organizao de bases de conhecimento [cf. v]. Doerr [vi] e Hunter [vii] defende o uso de tesauros, que organizam termos e associam conceitos em redes semnticas, como uma ferramenta importante para a busca de informao eletrnica, ressaltam, no entanto, a necessidade de tratar problemas relativos interoperabilidade semntica entre diferentes tesauros e a necessidade de desenvolvimento de metavocabulrios (metadata vocabularies) para permitir o intercmbio e a busca de informao em diferentes aplicaes e domnios. Nas pesquisas realizadas no mbito do projeto Digital Libraries Iniciative (DLI) [iii] procura-se recuperar os avanos em diversas reas, tais como reconhecimento, segmentao e indexao de objetos; anlise semntica em sistemas de tratamento automtico da linguagem natural; representao do conhecimento e interao homem-mquina, tendo como principal objetivo tornar possvel a interoperabilidade semntica nas bibliotecas digitais. A questo da interoperabilidade semntica torna-se importante no mbito das pesquisas relacionadas busca na Internet, uma vez que os diferentes repositrios de informao eletrnica (bibliotecas digitais, bases de dados, etc.) utilizam sistemas prprios de organizao semntica das informaes. O desafio que se coloca neste sentido, como afirmam Berners-Lee et al [viii] fornecer uma linguagem que expresse dados e regras para raciocnio sobre esses dados de forma que as regras de qualquer sistema de representao do conhecimento possam ser exportadas para a Web. Esta a proposta da Web Semntica, que visa fornecer uma estrutura de contedo significativo para as pginas Web, criando um ambiente onde os softwares agents possam realizar tarefas sofisticadas para os usurios. A Web Semntica utiliza-se da flexibilidade da estrutura RDF (Resource Description Framework), na qual possvel descrever o contedo da informao disseminada na rede, fazendo-se afirmaes sobre determinado objeto e identificando suas propriedades e valores. Cada objeto ou assunto identificado por um Identificador Universal de Registro (URI) que assegura que as palavras na Web estejam relacionadas a apenas uma definio. [viii] A Web semntica utiliza-se ainda das ontologias para possibilitar a recuperao de conceitos. Uma ontologia na Web Semntica possui uma taxonomia e um conjunto de regras de inferncia. A taxonomia define as classes de objetos e as relaes que se estabelecem entre eles. Forma-se assim uma estrutura onde propriedades so atribudas a determinadas classes e os objetos que pertencem a esta classe herdam suas caractersticas. A soluo de ambigidades e a obteno de maior preciso na recuperao de informaes disponveis na Web constitui-se numa das principais preocupaes dos estudos da Web Semntica. Berners-Lee et al [viii] afirmam que a ambigidade pode ser solucionada atribuindo- se diferentes URIs para cada conceito de uma palavra. Assim, os motores de busca podero encontrar pginas que se refiram a conceitos especficos e no todas as pginas nas quais a http://www.dgz.org.br/fev02/Art_05.htm (3 de 28)20/7/2005 08:00:57 Artigo 05 palavra ambgua utilizada. Outros tipos de ambigidades, no entanto, podem ocorrer no contedo de documentos disponveis na Web, interferindo tambm na preciso da recuperao da informao.
AMBIGIDADE Entende-se ambigidade como uma expresso da lngua (palavra ou frase) que possui vrios significados distintos, podendo, conseqentemente, ser compreendida de diferentes maneiras por um receptor. [ix; x] A ambigidade ocorre quando palavras ou frases podem gerar mais de uma interpretao de seu significado, como nos seguintes exemplos:
Ex.1: na frase O arquivo est precisando de manuteno, a ambigidade latente da palavra arquivo induz interpretao de um arquivo como mvel, um arquivo como conjunto de documentos ou de um arquivo como instituio. Ex. 2 - na fraseologia Neutralizao de contaminao com leite , a ambigidade permite interpretar que a neutralizao feita com leite ou que a contaminao causada pelo leite. A ambigidade causa rudo na recuperao da informao, pois, sob um mesmo termo, o usurio encontrar informao relevante e irrelevante. No exemplo 1, o usurio recuperar informao sobre manuteno de arquivo em trs direes semnticas distintas: conjunto de documentos, instituio e mvel. Qual desses significados respondem sua pergunta? No exemplo 2, a ambigidade sinttica no permite, num sistema de recuperao, decidir entre os assuntos neutralizao de contaminao e neutralizao com leite. Ao encontrar diferentes significados possveis de serem extrados de uma frase ou palavra, o sistema de recuperao necessita distinguir um destes significados, determinando, segundo o contexto, qual o significado a ser aplicado, obtendo, dessa maneira, maior preciso na resposta dada ao usurio. A ambigidade pode ser ocasionada por diversos fatores[1]: polissemia, homografia, policategorizao, relao contextual e estrutura sinttica das frases. Segundo o fator que a ocasiona, a ambigidade pode ser classificada em diferentes tipos. Pela sistematicidade e clareza com que distingue os tipos de ambigidades, adota-se, neste estudo, a classificao de Fuchs [x], sintetizada a seguir. I) Ambigidade morfolgica: ocorre quando no possvel classificar determinada forma quanto categoria gramatical. Este tipo de ambigidade ocasionado pela policategorizao em que palavras pertencem a mais de uma categoria gramatical, como proposta , que pode ser ou http://www.dgz.org.br/fev02/Art_05.htm (4 de 28)20/7/2005 08:00:57 Artigo 05 substantivo, ou adjetivo ou verbo. II) Ambigidade lexical: ocorre quando h mais de uma interpretao possvel do significado de uma unidade lexical. Este tipo de ambigidade provocado por : homografia : ocorre por meio da coliso acidental entre as formas de dois signos lingsticos distintos . [x; p.9]. Ex.: cobre (metal) ; cobre (do verbo cobrir) polissemia : ocorre quando uma s e mesma expresso envolve significados distintos, sendo um nico signo lingstico; a prpria expresso que ambgua, medida que possui uma forma qual corresponde uma pluralidade de significados. [x]. Ex.: arquivo (mvel, instituio, conjunto de documentos). III) Ambigidade sinttica : ocorre na estruturao da frase em constituintes hierarquizados, quando se definem as ligaes que se estabelecem entre os sintagmas. As frases preposicionais so uma das fontes mais freqentes de ambigidade sinttica. Alguns exemplos ilustram este tipo de ambigidade:
Ex. 3: Eu li a notcia sobre a greve na universidade. (ou eu li a notcia e eu estava na universidade, ou a greve ocorre na universidade) Ex. 4: A professora de dana espanhola. (ou a professora espanhola, ou a dana espanhola) IV) Ambigidade predicativa : ocorre na interpretao das relaes temticas que articulam predicado, argumentos e participantes. Exemplos :
Ex. 5: A crtica deste autor. (autor = ou objeto da crtica, ou agente da crtica) Ex. 6: Eu a deixei feliz. (feliz = ou atributo do sujeito ou atributo do objeto) V) Ambigidade semntica : ocorre quando h mais de uma interpretao possvel para o relacionamento dos termos na frase, como, por exemplo, no clculo dos operadores de negao e de quantificao :
Ex. 7: Ela no chora mais porque ele partiu. (ou ela chorava porque ele havia partido, ou ela parou de chorar uma vez que ele j foi embora) http://www.dgz.org.br/fev02/Art_05.htm (5 de 28)20/7/2005 08:00:57 Artigo 05 Ex. 8: Um rio corre atravs de cada pas europeu. (ou um nico rio corre atravs de todos os pases, ou diferentes rios correm atravs de diferentes pases) VI) Ambigidade pragmtica : relaciona-se ao clculo dos valores enunciativos, reconstruo destes valores, que esto ligados situao do falante no momento da enunciao, como por exemplo :
Ex. 9: Os pssaros voam. (referncia geral ou especfica?) Ex. 10: Paulo vai escola. (ele estudante ou ele est indo escola neste momento?) Como demonstram esses exemplos, a ambigidade pode ser ocasionada por diferentes fenmenos lingsticos situados nos nveis morfolgico, lexical, sinttico, semntico e pragmtico. A soluo destes problemas depende do objetivo de um sistema de recuperao da informao e das bases de conhecimento disponveis neste sistema.
DESAMBIGUAO NA RECUPERAO DA INFORMAO Denomina-se desambiguao[2] o processo pelo qual uma ambigidade solucionada. Este processo exige diferentes nveis de conhecimentos lingsticos e extralingsticos. A ambigidade morfolgica, causada por policategorizao, por exemplo, pode ser solucionada pela anlise do co-texto imediato que circunda a palavra policategorial, recorrendo-se apenas a conhecimento morfossinttico (categoria gramatical, concordncia e combinaes sintticas entre constituintes da frase, entre outros). Na frase O governo aumentou o imposto, governo e imposto, por estarem precedidos do determinante, so interpretados corretamente pelo sistema como substantivos e no como verbos (formas flexionadas dos verbos governar e impor). Certos casos de polissemia so solucionados por meio de conhecimento semntico. Ao dispor das informaes: * comprar uma ao que exige objeto comercializvel ; * mveis so objetos que podem ser comprados ; e * arquivo um tipo de mvel ; um sistema recuperao em linguagem natural pode atribuir corretamente o significado mvel a arquivo na frase Maria comprou um arquivo para seu escritrio[3] http://www.dgz.org.br/fev02/Art_05.htm (6 de 28)20/7/2005 08:00:57 Artigo 05 Algumas ambigidades predicativas so solucionadas pela introduo de traos semnticos que restringem os papis temticos desempenhados pelos argumentos de um predicado. Como exemplifica Borba [xi], o sintagma nominal A observao da criana ambguo, mas A observao do quadro no, uma vez que, pelo trao -humano, quadro no estabelece uma relao agente de observar. Existem, portanto, determinados tipos de ambigidades que podem ser solucionadas automaticamente, pois os conhecimentos necessrios para desambigu-las so passveis de modelizao aplicando-se mtodos de tratamento automtico da linguagem natural. A soluo de ambigidades em sistemas de recuperao em linguagem natural tem por objetivo determinar que escolhas so mais adequadas considerando-se o contexto onde ocorre a ambigidade. Como afirma Fuchs [x], toda forma qual podem ser associados vrios significados virtualmente ambgua (ambigidade virtual) quando considerada isoladamente, fora de todo contexto de uso. Quando esta forma analisada num contexto, ela pode se tornar unvoca, ou pode ser considerada efetivamente ambgua (ambigidade efetiva). Sistemas desenvolvidos para desambiguar aplicam diferentes tcnicas de tratamento automtico da linguagem natural e aplicam regras formais segundo a abordagem lingstica e o modelo de representao do conhecimento adotados pelo sistema. A complexidade das regras utilizadas varia em funo do tipo de ambigidade que se visa solucionar. O processo de desambiguao automtica mais complexo que o de soluo de ambigidades realizado por um receptor humano. O recurso ao contexto em sistemas de recuperao de informao em linguagem natural restrito, uma vez que o contexto constitui-se no conjunto de conhecimentos que o sistema possui num determinado momento da anlise. Nem todo tipo de informao contextual pode ser representado formalmente e, portanto, nem todo tipo de ambigidade pode ser resolvido nesses sistemas. A pesquisa relatada neste artigo trata de diferentes tipos de ambigidades e prope a desambigao por meio de tratamento sinttico-semntico, utilizando grficos conceituais como estrutura de representao de conhecimento.
GRFICOS CONCEITUAIS COMO MODELO DE REPRESENTAO DE CONHECIMENTO A teoria dos grficos conceituais (GCs) comeou a ser desenvolvida por Sowa em 1968, quando escreveu um trabalho de final de curso para Minsky. Neste trabalho, Sowa aplicou a idia de fluxogramas para criar um modelo de representao de conhecimento em Inteligncia Artificial que se utiliza de caixas e crculos para gerar Grficos Conceituais (GCs). Na dcada de 70, Sowa inicia um trabalho de pesquisa sobre grficos conceituais como linguagem de representao do http://www.dgz.org.br/fev02/Art_05.htm (7 de 28)20/7/2005 08:00:57 Artigo 05 conhecimento no Systems Research Institute da IBM. O resultado deste trabalho publicado, em 1976, no IBM Journal of Research and Development. Oito anos aps, Sowa [xii] publica seu livro Conceptual Structures, apresentando a teoria de GCs como hoje conhecida. [xiii] Como modelo de representao do conhecimento que utiliza uma notao em grficos, os GCs so, para Sowa [xii; p. 7] uma sntese dos grficos existenciais de Peirce, dos grficos de dependncia de Tesnire e das redes semnticas da Inteligncia Artificial. Os GCs formam uma linguagem de representao do conhecimento e so constitudos por grficos que possuem dois tipos de ns :
a) os conceitos, representados por retngulos ou por colchetes [CONCEITO], correspondem a contedos de pensamento ; representam entidades, aes ou estados que possam ser descritos em termos de linguagem; e b) as relaes, representadas por crculos com uma flecha de entrada e outra de sada ou entre parnteses => (RELAO) =>, simbolizam as ligaes existentes entre os conceitos e demonstram os papis que cada entidade desenrola. Para Sowa [xii; p.20], os grficos conceituais formam uma base semntica da linguagem natural e representam modelos do mundo real ou de um mundo possvel. No esquema da figura 1, demonstra-se como funciona o mecanismo implcito no tringulo do conceito, com os GCs servindo de ligao entre o referente e o significante, onde:
a) as regras de sintaxe mapeam grficos para sentenas em LN e mapeam sentenas para grficos. b) os arcos dos grficos correspondem funo da palavra e a casos relacionais da LN. No exemplo da figura 1, EST e LOC so, respectivamente smbolos das relaes estado e local c) os ns dos grficos so conceitos intensionais de indivduos que devem existir no mundo real ou em algum mundo hipottico. O mesmo grfico, gerado a partir de um processo de percepo, serve de representao para as frases expressas nas duas lnguas - portugus e francs. Os GCs constituem-se, portanto, numa linguagem universal e independente, no nvel da estrutura profunda.
http://www.dgz.org.br/fev02/Art_05.htm (8 de 28)20/7/2005 08:00:57 Artigo 05 CONCEITOS NOS GCS Nos grficos conceituais, um conceito um objeto que possui um tipo e um referente que especifica exatamente que espcie do tipo precedente o conceito representa. O tipo do conceito no necessariamente muito distante (do ponto de vista semntico) do conceito representado. Por exemplo, o tipo do conceito gato GATO[4] e no MAMFERO, apesar de gato ter como hipernimo mamfero. Esta relao de hiperonmia encontra-se representada por uma rede, chamada treillis de conceitos, na qual estabelecida a hierarquia entre tipos. A relao representada nessa hierarquia uma relao de ordem de grandeza que se estabelece entre tipos de conceitos e no entre conceitos individuais. Existem, assim, diversas famlias de conceitos, isto , conjuntos de conceitos que tm o mesmo hipernimo. Esses conceitos so ditos do mesmo tipo. Tomando-se como exemplo o tipo FRUTA, pode-se dizer que laranja, pra e banana so do tipo FRUTA - fruta um hipernimo de laranja, pra e banana. A hierarquia de tipos um ordenamento parcial definido a partir de um conjunto de etiquetas de tipo. O smbolo <= determina a ordem hierrquica. Os termos subtipo e supertipo so utilizados para designar a posio dos conceitos na hierarquia, como abaixo : Se X < Y, ento : X um subtipo de Y, e Y um supertipo de X. Se X <= Y e X < = Z, ento : X um subtipo comum de Y e Z. Se X >= Y e X >= Z, ento : X um supertipo comum de Y e Z. Na hierarquia de tipos, assim como em outras estruturas hierrquicas gnero/espcie baseadas em Aristteles, os subtipos herdam as propriedades de seus supertipos. Um treillis de conceitos deve ter supertipos e subtipos comuns. Para indicar os tipos de conceitos de forma linear, utiliza-se a seguinte notao : [<tipo> :<referente>] Ex. : [INSTITUIO : Embratel] RELAES NOS GCS As relaes conceituais definem o papel de cada conceito num GC. So as ligaes que se estabelecem entre os conceitos do grfico. Podem ter um nmero qualquer de arcos, sendo que a relao mais comum dade[5]. http://www.dgz.org.br/fev02/Art_05.htm (9 de 28)20/7/2005 08:00:57 Artigo 05 A representao em diagramas no fcil de ser construda quando se estabelecem vrias relaes entre os conceitos do GC. Dessa forma, Sowa [xii] prope uma notao linear que substitui os diagramas, escolhendo como cabea o conceito ao qual se ligam maior nmero de arcos. O grfico conceitual
representado linearmente assim :
[VENDER]- (AGNT) => [BRASIL] (OBJ) => [AUCAR] (RCPT) => [ARGENTINA] Os GCs devem ser lidos de acordo com o sentido das flechas. No exemplo dado, l-se : VENDER tem por agente BRASIL, por objeto ACAR e por receptor ARGENTINA. Esse tipo de representao segue uma sintaxe prpria, como o emprego do hfen aps a caixa do conceito VENDER no exemplo acima, para indicar que as relaes que se estabelecem com este conceito esto listadas nas linhas subseqentes. A sintaxe completa utilizada nessa notao descrita por Sowa [xii], no apndice A6 de seu livro. As duas notaes - a linear e a em grfico - so exatamente equivalentes e podem ser traduzidas automaticamente para outras formas de lgica ou de representao do conhecimento. Para evitar falsas combinaes entre conceitos e relaes num grfico conceitual, Sowa [xii] introduziu o conceito de grfico cannico. Diz-se que um grfico cannico quando representa situaes reais ou possveis num mundo externo. [xii; p.91] A construo de um conjunto coerente de GCs que formam uma base de conhecimento feita a partir dos Grficos Conceituais Cannicos (GCCs) que exprimem as restries semnticas do domnio representado. Os grficos cannicos so utilizados num analisador semntico para orientar a escolha de certas combinaes entre relaes e conceitos. Como afirma Sowa [xii; p.222], eles fornecem preferncias semnticas para certas combinaes e reforam restries que bloqueiam outras combinaes. Esse tipo de orientao auxilia na soluo de casos de ambigidade sinttica, porque as restries semnticas levam escolha da interpretao correta da frase.
http://www.dgz.org.br/fev02/Art_05.htm (10 de 28)20/7/2005 08:00:57 Artigo 05 BASES DE CONHECIMENTO PARA TRATAMENTO SINTTICO-SEMNTICO DE AMBIGIDADES Neste artigo, descreve-se, de forma resumida, pesquisa realizada por Brscher [xiv], na qual se utiliza conhecimentos sinttico-semnticos organizados com base na gramtica de valncias de Borba [xi] para soluo de ambigidades em textos de lngua portuguesa. Estes conhecimentos constituem-se, basicamente de :
a) conhecimento sinttico : caractersticas morfossintticas dos elementos que representam, na estrutura superficial, uma relao predicado/argumento; funo sinttica destes elementos e como eles organizam-se sintaticamente; b) conhecimento semntico : caractersticas dos conceitos (traos semnticos); relaes semnticas (hiperonmia, sinonmia, p.ex.) e relaes temticas (agente, ao, objeto, entre outras). Essas informaes sinttico-semnticas encontram-se armazenadas em bases de conhecimento de acordo com o formalismo adotado no sistema Zstation [xv]. O Zstation constitui-se num sistema de tratamento automtico da linguagem natural, cuja idia bsica que, para desempenhar uma tarefa, como analisar uma sentena, faz-se necessrio coletar toda informao sobre esta sentena, quanto a propriedades semnticas e morfolgicas das palavras, possveis grupos de palavras e frases, e conexes possveis entre eles, at que o conhecimento coletado permita propor uma ou vrias interpretaes. Os mdulos especialistas deste sistema so responsveis por tarefas especficas. Cada mdulo tem acesso a uma base de conhecimento em forma declarativa. Os mdulos especialistas so os seguintes:
I) Gerao morfossinttica Constri formas corretas a partir de lemas[6] de acordo com variveis morfossintticas (nmero, tempo, etc.), extradas de uma gramtica morfolgica que descreve como as formas so geradas. O programa de gerao morfossinttica procura primeiramente a qual modelo morfolgico - prottipo de palavra - um lema morfolgico associado. Depois ele procura pela gramtica de gerao associada a esse modelo e aplica a gramtica ao lema, gerando as diversas formas possveis. Duas fontes de conhecimento so necessrias: a gramtica morfolgica e a base de dados que associa lemas a modelos, ambas so programadas usando formalismo declarativo. II) Anlise morfossinttica http://www.dgz.org.br/fev02/Art_05.htm (11 de 28)20/7/2005 08:00:57 Artigo 05 Encontra o lema morfolgico correspondente para cada forma no texto, e sua categoria morfossinttica (substantivo, verbo, pronome, adjetivo, Tc). Sua tarefa reduz-se a consultar uma base de dados que contm todos os lemas do dicionrio de lemas. III) Anlise sintagmtica Extrai todos os tipos de grupos necessrios para a anlise sinttica da sentena ou de unidades de texto maiores. H uma diferena importante entre anlise sintagmtica e anlise sinttica. O programa de anlise sintagmtica basicamente extrai tipos especficos de grupos (grupo nominal, preposicional, verbal, adverbial, etc.). Na anlise sinttica, o objetivo identificar as ligaes entre grupos ou frases, definindo os papis destes grupos na frase: sujeito, objeto1, objeto2, etc. IV) Anlise semntica Procura, previamente, todos os conceitos que podem ser associados a um lema morfolgico, para, ento, obter as informaes semnticas necessrias anlise semntica. Num segundo estgio, o mdulo determina todas as restries semnticas que so associadas a determinado conceito. Os parmetros semnticos so definidos sob forma de traos individuais e de traos de classe e so estruturados em redes semnticas. Nestas redes os conceitos constituem-se em ns aos quais podem ser ligados atributos semnticos e outros conceitos hierarquicamente relacionados.
O clculo das ligaes entre grupos um processo complexo para o qual tanto a informao sintagmtica quanto a semntica so requeridas. Os conhecimentos lingsticos relativos anlise sinttica so formulados de maneira a considerar o conjunto de parmetros sintticos e semnticos que podem ser atribudos a um lema especfico. Dessa maneira, a cada lema morfolgico podem ser associados um ou vrios conceitos. Para efetuar cada tipo de anlise, o Zstation utiliza diferentes tipos de ferramentas lingsticas que so definidas e construdas pelo usurio do sistema. Essas ferramentas so baseadas em formalismo de ampla aplicao de maneira que possvel construir dicionrios e gramticas para diferentes lnguas, como francs, italiano, portugus, espanhol, ingls e alemo.
DICIONRIO AUTOMTICO Um dicionrio no Zstation constitudo de um conjunto de lemas e de dados lingsticos referentes a eles, como ilustrado no exemplo a seguir :
brasileiro {CPT=brasileiro0 http://www.dgz.org.br/fev02/Art_05.htm (12 de 28)20/7/2005 08:00:57 Artigo 05 MOD=amigo VSM= VGR= APD= } {CPT=brasileiro0 MOD=belo VSM= VGR= APD=$qual arg(0,rel=CHRC,cat=adj,fonct=modSub,conds=[ ]) } Para cada registro so previstos, no dicionrio de base, os seguintes dados lingsticos :
a) Identificador do conceito (CPT) : conjunto de caracteres que simbolizam o conceito representado pelo lema. No formalismo adotado, o conceito representado adicionando-se o smbolo 0 ao final da cadeia de caracteres escolhida para representar o conceito. O CPT possibilita a localizao de um conceito numa Ontologia e utilizado em qualquer anlise automtica efetuada pelo sistema que aplique o conceito como varivel. No exemplo dado, brasileiro0 representa o conceito do lema brasileiro. b) Modelo morfolgico (MOD) : lema escolhido para representar uma classe de lemas que, pertencendo a uma mesma categoria, sofre a mesma flexo quanto ao tempo, ao modo e pessoa, para verbos, e quanto ao gnero e ao nmero para as demais categorias. No exemplo, amigo o modelo morfolgico do lema brasileiro na condio de substantivo e belo na condio de adjetivo. c) Argumentos (APD) : contm parmetros sinttico-semnticos relacionados ao lema de entrada. Constituem-se numa srie de enunciados que estabelecem condies sinttico- semnticas a serem observadas no momento da anlise. Os argumentos so definidos com base na valncia sinttica e semntica do lema. Cada argumento estruturado da seguinte maneira : (Code, rel=R,cat=C,fonct= F,conds=[r(...)], em que: Code = cdigo de prioridade que pode ser 0 para um argumento facultativo ;1 para argumento obrigatrio representado em termos de relao conceitual ; 2 para argumento obrigatrio que no passvel de representao em relao conceitual e 3 para argumento proibido (regra de bloqueio). rel = relao temtica estabelecida com o conceito do lema na Ontologia. http://www.dgz.org.br/fev02/Art_05.htm (13 de 28)20/7/2005 08:00:57 Artigo 05 cat = categoria morfossinttica do argumento. fonct = funo sinttica do argumento. conds = condies de validao intralingsticas, que no podem ser deduzidas da Ontologia utilizada. So definidas em forma de relaes conceituais. Um lema pode ter um ou vrios blocos de dados, de acordo com as categorias gramaticais s quais pertence. Os blocos so delimitados por colchetes. O lema brasileiro possui dois blocos de dados, um para cada uma das categorias gramaticais s quais pertence. O primeiro bloco registra o substantivo, atribuindo ao lema o modelo morfolgico amigo, o segundo indica que o lema pode tambm ser um adjetivo, para o qual se aplica o modelo belo. Os dados descritos em a, b e c, foram utilizados nos dicionrios construdos no curso da pesquisa realizada. Alm destes, podem ser registrados nos dicionrios do Zstation : variveis semnticas intralingsticas (VSM) e variveis gramaticais intralingsticas (VGR), que so variveis prprias determinada lngua que est sendo tratada. Esses dados so utilizados sobretudo em pesquisas multilnges. No exemplo de entrada do lema ao, ilustra-se uma entrada completa no dicionrio. Este lema monocategorial porque sempre um substantivo, portanto, seu modelo morfolgico o mesmo em todos os blocos de dados. Porm, por ser polissmico, so-lhes atribudos vrios conceitos. Para cada conceito existem restries sinttico-semnticas que so definidas nos diferentes argumentos.
ao {CPT=praticarao0 MOD=ao VSM= VGR= APD= arg(0,rel=FIN,cat=sub_de,fonct=modN,conds=[ ]) } {CPT=titcred0 MOD=ao VSM= VGR= APD= arg(0,rel=ORIG,cat=sub_de,fonct=modN,conds=[ ]) } {CPT=convpojur0 MOD=ao VSM= VGR= APD= arg(0,rel=AGNT,cat=sub_de,fonct=Spsagt,conds=[ ]) http://www.dgz.org.br/fev02/Art_05.htm (14 de 28)20/7/2005 08:00:57 Artigo 05 arg(0,rel=OBJ,cat=sub_contra,fonct=Spcomp1,conds=[ ]) O argumento atribudo atividade0 indica que um conceito representado por substantivo precedido da preposio de (sub_de) possui uma relao finalidade com o conceito de atividade0 do lema ao. Este substantivo um modificador de N (N o lema de entrada), pois indica uma caracterstica de N. Em titcred0 (ttulo de crdito), o conceito expresso pelo sub_de indica a origem (ORIG) do ttulo e constitui-se num modificador do nome ao. No sentido de convocar poder jurisdicional (convpojur0), ao, possui outra estrutura argumental :
a) um agente (AGNT) representado por um sub_de, que est em relao subjetiva com o predicado (fonct=Spsagt) ; b) um objeto (OBJ) do ato de convocar, indicado por sub_contra, que se constitui no primeiro e nico complemento. O argumento de convpojur0 informa tambm que um substantivo precedido da preposio para (cat=sub_para) indica com que finalidade (rel=FIN) convoca-se o poder jurisdicional. Este substantivo funciona como modificador, no sendo parte da matriz valencial. Nos argumentos, as condies sinttico-semntica so enunciadas. O detalhamento dos parmetros sintticos feito na Gramtica de Variveis, e dos parmetros semnticos, na Ontologia.
GRAMTICA MORFOLGICA As gramticas morfolgicas no Zstation renem o conjunto de lemas selecionados como modelos morfolgicos para os demais lemas includos num dicionrio de base. Cada entrada de uma gramtica inclui : o modelo morfolgico, a categoria gramatical, as variveis (pessoa e tempo para verbos e gnero e nmero para demais categorias aos quais se aplicam) e a regra morfolgica a ser aplicada. O modelo amigo exemplifica uma entrada da Gramtica Morfolgica Portuguesa criada no mbito da pesquisa:
amigo CAT=sub VARS=[masc,sing] REGS=[ ] CAT=sub VARS=[masc,plur] REGS=[+s] http://www.dgz.org.br/fev02/Art_05.htm (15 de 28)20/7/2005 08:00:57 Artigo 05 CAT=sub VARS=[fem,sing] REGS=[-o,+a] CAT=sub VARS=[fem,plur] REGS=[-o,+as] Na gramtica morfolgica, CAT identifica a categoria gramatical do modelo, VARS as variveis morfolgicas e REGS a regra a ser aplicada segundo a variao definida. No exemplo, o lema amigo constitui o modelo morfolgico de todos os substantivos que formam o masculino/plural com acrscimo do s ; o feminino com a substituio do o pelo a, e o feminino/plural com a troca do o pelo as. A aplicao automtica do modelo morfolgico adequado a cada lema do dicionrio permite que outros programas do Zstation identifiquem, nos textos que esto sendo analisados automaticamente, todas as formas possveis de determinado lema. A utilizao do modelo morfolgico reduz o nmero de entradas de um dicionrio automtico. Faz-se necessria apenas uma entrada para cada lema, as demais formas so geradas e reconhecidas automaticamente.
GRAMTICA DE ARGUMENTOS Esta gramtica especifica como se efetuam as ligaes entre os constituintes relacionados a determinada funo sinttica. As regras so enunciadas segundo a sintaxe do Zstation, como descrito a seguir:
r(X,Cat,Fonct,F,Ops), em que: X = forma a ser encontrada Cat = categoria associada X Fonct = funo associada X F = forma de referncia Ops = operaes lingsticas As regras da gramtica de argumentos possibilitam que o sistema identifique e analise, nos enunciados do corpus, as seqncias que devem ser interpretadas segundo os parmetros estabelecidos nos argumentos. A interpretao dos enunciados recorre tambm s informaes semnticas descritas na Ontologia. As regras estabelecidas para o argumento convpojur0 do exemplo 2, demonstram o uso da gramtica :
Regra 1 : r(X,sub_de,Spsagt,F[match(F,de,X)]) http://www.dgz.org.br/fev02/Art_05.htm (16 de 28)20/7/2005 08:00:57 Artigo 05 Regra2 : r(X,sub_contra,Spcomp1,F[match(F,contra,X)]) Na primeira parte da regra, que est fora do parnteses, encontram-se as variveis a serem interpretadas. As informaes includas nos parnteses orientam o sistema a interpretar as variveis estabelecidas. A regra 1, por exemplo, determina que, encontrando uma seqncia F + de + substantivo, o sistema deve interpretar de + substantivo como sintagma preposicional em relao de sujeito agente (Spsagt). Da mesma maneira ser interpretada a regra 2: ao encontrar as seqncias indicadas pelo comando match, o sistema dever interpret-las como sintagma preposicional em relao de complemento (Spcomp1). A interpretao dos enunciados recorre tambm s informaes semnticas descritas na Ontologia.
ONTOLOGIA A relao temtica definida num argumento especificada na Ontologia, que se constitui numa representao linear dos grficos conceituais. A Ontologia representa objetos e relaes de um domnio especfico. Cada conceito uma entrada na Ontologia, sendo acompanhado dos tipos de relaes que podem ser com ele estabelecidas. As relaes podem indicar uma propriedade do conceito (relao ISA) ou as relaes que este possui com outros conceitos ou classes de conceitos. Os conceitos definidos para o lema ao, no dicionrio, foram registrados da seguinte maneira na Ontologia :
praticao0 r(0,isa,+abstrato0) r(0,FIN,+aes0) titcred0 r(0,isa,+produto comercivel0) r(0,ORIG,+instifin0) r(0,POSS,+animado0) convpojur0 r(0,ISA,ao-processo) r(0,AGNT,+animado0) r(0,OBJ,+animado0) http://www.dgz.org.br/fev02/Art_05.htm (17 de 28)20/7/2005 08:00:57 Artigo 05 A cada relao podem ser especificadas, se necessrio, as caractersticas ou categorias conceituais que delimitam os tipos de conceitos com os quais esta relao pode ser estabelecida. Cada relao contm trs tipos de informao :
a) um cdigo que indica se uma declarao obrigatria (1) ou facultativa (0) ; b) um identificador de relao temtica; e c) um conceito, caracterstica ou classe de conceito com o qual se estabelece a relao temtica. O smbolo + indica os que so aceitos, aqueles com os quais a relao pode ser estabelecida, e o smbolo - informa os que no so aceitos. Os conceitos indicados nas relaes devem ser tambm includos na Ontologia, at se chegar s classes mais genricas da cadeia hierrquica, cujo supertipo U. A Ontologia forma um treillis de conceitos estabelecendo-se, portanto, um mecanismo de hereditariedade. Os subtipos herdam as propriedades de seus supertipos. Indicando-se na Ontologia que banco uma instfin0 (instituio financeira), este conceito ser aceito para a relao ORIG do conceito titcred0. O conceito instfin0 um subtipo de instituio0, que, por sua vez, um subtipo de entidades animadas. Segundo esta cadeia hierrquica, qualquer conceito do tipo instituio0 aceito na relao AGNT de convpojur0. Na pesquisa realizada, as caractersticas eleitas para se estabelecer a Ontologia levaram em conta as reas de assunto do Mercosul, tema do corpus de pesquisa.
DESAMBIGUAO APLICANDO TRATAMENTO SINTTICO-SEMNTICO O conjunto de dados registrados no Dicionrio, na Gramtica Morfolgica, na Gramtica de Argumentos e na Ontologia foram utilizados para efetuar-se o tratamento sinttico-semntico de enunciados do corpus de pesquisa, verificando a ocorrncia de ambigidades e se estas foram solucionadas ou no pelo sistema Zstation. Fornecendo o enunciado : A empresa vende produtos ao consumidor, o sistema gera o seguinte Grfico Conceitual:
[VENDER]- (AGNT) => [EMPRESA] http://www.dgz.org.br/fev02/Art_05.htm (18 de 28)20/7/2005 08:00:57 Artigo 05 (OBJ) => [PRODUTOS] (BEN) => [CONSUMIDOR] Aplicando as regras de formao de grficos conceituais, o Zstation capaz de analisar, tambm, os seguintes enunciados :
Venda de gs ao consumidor. O Brasil vender caf ao Paraguai. O exportador vendeu vinho loja. Como gs, caf e vinho so tipos de produtos, so aceitos como argumento da relao objeto (OBJ) de vender; Brasil e exportador so aceitos como agentes (AGNT) de vender e consumidor, Paraguai e loja pelo trao +animado, so tambm aceitos como argumentos da relao beneficirio (BEN) de vender. O sistema analisar corretamente estes enunciados pois:
a) dispe da informao, no Dicionrio de Formas, de que vender e vendeu so formas do lema vender, e as reconhece como verbos; b) reconhece tambm as categorias gramaticais das demais formas do enunciado, uma vez que estas se encontram indicadas pelos modelos morfolgicos informados para cada lema no Dicionrio de Base; c) interpreta os papis temticos e as funes sintticas desempenhadas por cada palavra que compe os enunciados, com base nos argumentos indicados no Dicionrio; nas estruturas sintticas descritas na Gramtica de Argumentos e nas relaes e nos traos semnticos informados na Ontologia. A anlise em GCs realizada pelo sistema permite testar e avaliar se as restries sinttico- semnticas, registradas nas bases de conhecimento, so suficientes para solucionar casos de ambigidades ocasionados por homografias e polissemias. As seqncias constitudas de nome abstrato de ao[7] + sintagmas preposicionais (Sprep), extradas automaticamente do corpus pelo sistema Zstation, so utilizadas como massa de teste de soluo de ambigidades por meio de tratamento sinttico-semntico. Pelos resultados da anlise em GCs, possvel verificar se ocorre ou no ambigidade. Em caso afirmativo, realiza-se o teste de desambigao, aplicando restries sinttico-semnticas. Dessa http://www.dgz.org.br/fev02/Art_05.htm (19 de 28)20/7/2005 08:00:57 Artigo 05 forma, possvel concluir se o sistema capaz de selecionar um significado entre as alternativas de interpretao possveis. Os grficos cannicos a e b informam, respectivamente, que vender exige como objeto (OBJ) um produto comercivel e que ao um objeto comercivel, um tipo de ao ou um efeito. O nome ao, portanto, polissmico, mas, dispondo das informaes contidas nos grficos, o Zstation capaz de escolher o significado valor financeiro para esta forma, no enunciado regras de preferncia para os casos de venda de aes e aumento do capital social.
a) [VENDER]- (OBJ) => [PRODUTO COMERCIVEL] b) [AO]- (ISA) => [PRODUTO COMERCIVEL] (ISA) => [AGIR] (ISA) => [EFEITO] Os testes realizados demonstraram que outros tipos de ambigidades tambm podem ser solucionadas por meio de tratamento sinttico-semntico, como exemplificado a seguir.
Ambiguidade predicativa Este tipo de ambigidade ocorre quando mais de um tipo de relao temtica pode ser estabelecido entre predicado e argumentos. Os nomes abstratos de ao que indicam ao- processo e que possuem os argumentos objeto e agente introduzidos pela preposio de podem apresentar ambigidade predicativa. Quando o argumento no possui o trao +animado, no ocorre ambigidade, sendo corretamente interpretado como objeto, uma vez que um inanimado no pode funcionar como agente. Resta, portanto, apenas uma interpretao, como em aprovao da tarifa, avaliao da proposta e regulamentao das normas. No entanto, quando o argumento possui o trao +animado, ocorre dupla interpretao. O argumento pode ser interpretado como agente ou objeto, como em administrao dos estados, aprovao da comisso, designao do diretor e regulamentao do estado. Nestes casos, duas anlises em GCs so possveis, como no exemplo de designar, em que a primeira interpretao equivale a o diretor designa algum e a segunda a algum designa o diretor.
DESIGNAR- http://www.dgz.org.br/fev02/Art_05.htm (20 de 28)20/7/2005 08:00:57 Artigo 05 (AGNT) - [DIRETOR] (OBJ) - [+ANIMADO] DESIGNAR (AGNT) - [+ANIMADO] (OBJ) - [+DIRETOR] Segundo Borba [xi], este tipo de ambigidade ocorre porque o sintagma preposicional em relao subjetiva pode se tornar contguo ao nome abstrato, passando a ser introduzido por de, por causa do apagamento[8] do sintagma preposicional em relao objetiva e, ainda, devido possibilidade de apagamento do sintagma preposicional em relao subjetiva. Quando no h apagamento, no ocorre ambigidade predicativa, como em aprovao pelo Organismo Executor do relatrio final.
APROVAR (AGNT) - [ORGANISMO EXECUTOR] (OBJ) - [RELATRIO FINAL] Com base nos testes realizados em ocorncias do corpus de pesquisa, possvel afirmar que a ambigidade predicativa pode ser solucionada, por meio de tratamento sinttico-semntico, quando outros elementos do contexto oferecem restries que orientem a escolha da interpretao correta.
Polissemia A polissemia dos verbos subjacentes tambm ocasiona polissemia nos nomes abstratos de ao correspondentes, como no caso do verbo determinar, que pode significar estabelecer, fixar e ordenar. Pela anlise da valncia, observa-se que a natureza dos argumentos pode, em certos contextos, solucionar a ambigidade do nome determinao, como nos exemplos a seguir:
a) trao semntico +princpios permite atribuir o significado estabelecer em determinao de requisitos; b) trao semntico +valor permite atribuir o significado fixar em determinao do montante; e http://www.dgz.org.br/fev02/Art_05.htm (21 de 28)20/7/2005 08:00:57 Artigo 05 c) trao semntico +ao permite atribuir o significado ordenar em determinao da cessao; Estes traos so considerados pelo sistema no momento da anlise em GCs, permitindo a interpretao correta do significado do nome abstrato de ao. Ocorre tambm polissemia entre o conceito do verbo subjacente e o de uma entidade concreta ou abstrata envolvida na ao como o agente, o objeto, o resultado ou o instrumento utilizado na ao. Os nomes notificao (ao ou resultado de notificar?), pedido (ao ou resultado de pedir?) e administrao (ao ou agente de administrar?), exemplificam este tipo de polissemia. Nestes casos, o trao semntico do argumento ou a valncia de outro elemento do contexto permitem a desambigao, como nos exemplos a seguir:
a) A Presidncia Pro Tempore da Comisso remeter aos demais Estados-Parte cpia das notificaes referidas no art... O argumento objeto (OBJ) de copiar representado, na estrutura superficial do nome abstrato de ao, por um substantivo precedido da preposio de (sub_de). Este argumento preenchido por um conceito do tipo documento. Com base nestes dados, o sistema decidiu corretamente pela interpretao documento (resultado da ao) para o nome notificao.
b) Os resultados da investigao devero ser comunicados s autoridades do pas importador em um prazo no superior a quarenta e cinco (45) dias corrigidos, contados a partir da data de recebimento do pedido. Como a ao de receber exige um argumento objeto com o trao +concreto, o sistema decidiu corretamente pelo significado documento, para o nome pedido, descartando o significado ao de pedir.
c) As informaes fornecidas administrao aduaneira ou por esta obtida... Os argumentos do conceito fornecer0 permitiram a soluo da polissemia de administrao, no contexto exemplificado acima. A preposio a introduz o constituinte que preenche o argumento beneficirio. Este argumento exige um conceito com o trao +animado. Dessa maneira, o http://www.dgz.org.br/fev02/Art_05.htm (22 de 28)20/7/2005 08:00:57 Artigo 05 significado instituio foi o escolhido pelo sistema. Nos casos exemplificados, assim como em outros analisados, o sistema pde escolher uma nica interpretao. Isto foi possvel pois a valncia sinttico-semntica dos constituintes que precederam ou sucederam os nomes forneceram parmetros sinttico-semnticos que restringiram o tipo de conceito que pode preencher seus argumentos. Em outros contextos, porm, os constituintes no ofereceram elementos para a desambiguao, como nos exemplos d, e, f:
d) As mercadorias somente podero ser descarregadas ou transportadas mediante autorizao da autoridade aduaneira... e) inutilizar ou dificultar a operao de equipamento... f) Para suas comunicaes oficiais, a Secretaria dispor de facilidades no menos favorveis que as outorgadas pela Repblica s misses diplomticas... No exemplo d, as duas interpretaes so possveis : +documento e +ao. No entanto, a relao que ocorre entre a autorizao e autoridade aduaneira permanece sendo a mesma : a autoridade aduaneira quem concedeu a autorizao. No exemplo e , a ambigidade causada pela ocorrncia de polissemia nos dois nomes - operao e equipamento. O nome operao, no sentido de manobrar exige um argumento com o trao +equipamento e, no sentido de efetuar operao, um argumento com o trao +ao. Neste caso, as duas interpretaes so possveis, uma vez que a forma equipamento admite os dois traos. O nome comunicao, no exemplo f, admite tanto a interpretao dinmica (ao da Secretaria se comunicar) quanto a esttica (documentos do tipo comunicao elaborados pela Secretaria). A soluo deste tipo de ambigidade s possvel quando outros elementos do contexto oferecem parmetros sinttico-semnticos que favorecem uma ou outra interpretao. Na frase No sero objeto de censura a correspondncia e outras comunicaes oficiais da Secretaria. , o nome censura favorece a interpretao documento para comunicaes.
Homografia Quando no ocorre relao semntica entre as entidades e as aes representadas pelo nome abstrato de ao, estes foram classificados como homgrafos, como no caso do nome ao, que http://www.dgz.org.br/fev02/Art_05.htm (23 de 28)20/7/2005 08:00:57 Artigo 05 pode significar ttulo de crdito (ex.: venda de aes); praticar ao (ex.: ao de articulao); convocar o poder jurisdicional (ex.: ao administrativa ou judicial) ou efeito (ex.: substncia de ao hormonal) Nos testes efetuados, o nome ao foi desambiguado pelo sistema nas seguintes situaes : a) quando o argumento do prprio nome introduzido pela preposio de possua o trao +aes [9], como em aes de apoio ; aes de articulao. Nestes casos o conceito praticar ao foi selecionado pelo sistema ; b) quando este nome se constitua num argumento ou especificador de outro elemento predicador, como em :
i) venda de aes ; transferncia de aes. Os nomes venda e transferncia admitem como argumento apenas o conceito de ttulo de crdito ; ii) os pases-membros realizaro aes necessrias. Entre os diferentes conceitos de ao, o verbo realizar admite o conceito praticar ao ; iii) substncia de ao hormonal. Como caracterstica do nome substncia, apenas o conceito efeito aceito para o nome ao. No foi possvel solucionar a ambigidade quando o argumento de ao possua o trao + animado, como em aes do estado. Neste caso, o sistema admitiu as seguintes interpretaes :
[TTULO DE CRDITO]- (POSS) - [ESTADO] [TTULO DE CRDITO]- (ORIG) - [ESTADO] [PRATICAR AO] (AGNT) - [ESTADO] [CONVOCAR PODER JURISDICIONAL] (AGNT) - [ESTADO] Para todos os tipos de ambigidades identificados nos testes realizados, a desambiguao foi possvel quando a valncia sinttica e semntica do nome ou de outros constituintes presentes no contexto, bem como os traos semnticos de seus argumentos, forneceram restries que orientaram a escolha de uma entre as possveis interpretaes. http://www.dgz.org.br/fev02/Art_05.htm (24 de 28)20/7/2005 08:00:57 Artigo 05
CONCLUSO Os avanos tecnolgicos influenciam a rea de informao e conduzem ao surgimento de novas tcnicas de representao e recuperao de contedo. No contexto tecnolgico atual, h tendncia para o desenvolvimento de sistemas inteligentes de recuperao de informao com base em processamento de linguagem natural, em funo da disponibilidade de textos completos em mquina e da necessidade de interfaces voltadas para o usurio final. Os sistemas de recuperao exigem, para isso, modelos de representao do conhecimento que possibilitem contextualizar os significados expressos nos textos armazenados. fato que os sistemas de recuperao da informao evoluram com a utilizao de novas tecnologias. No entanto, os resultados so mais visveis nas interfaces inteligentes e na disponibilizao da informao para o usurio final atravs de redes de comunicao. Em relao ao tratamento do contedo, as pesquisas encontram-se ainda em nvel experimental. Mesmo assim, so primordiais, uma vez que o tratamento de contedo constitui-se no corao do sistema de recuperao da informao. De nada adiantam interfaces inteligentes se elas conduzem recuperao de documentos irrelevantes, ocasionada por problemas de tratamento de contedo. H consenso de que quanto mais conhecimento lingstico/cognitivo for incorporado ao sistema, maior preciso obter-se- na recuperao, mas, por sua vez, maior complexidade de implementao e de manuteno. Deve ser considerado, no entanto, que a busca de informao traz implcito o conceito de seletividade e, para isso, o preo pago esforo, tempo e dinheiro, ou os trs juntos, como afirma Meadow [xvi]. Sistemas de recuperao que adotam extrao de palavras por meio de mtodos estatsticos e aqueles que aplicam anlise sinttica para extrao de sintagmas exigem menor esforo do que os sistemas que incorporam tratamento semntico. Apesar disso, no so capazes de solucionar problemas lingsticos como a ambigidade e a sinonmia, tratadas nos sistemas tradicionais que utilizam linguagens documentrias. Um sistema de recuperao em linguagem natural pode tratar determinados tipos de ambigidade quando dispe de informaes relativas valncia sinttico-semntica das unidades lexicais que compem um enunciado, como demonstram os resultados dos testes de desambiguao exemplificados neste artigo. A utilizao de Grficos Conceituais como modelo de representao interna de sistemas de recuperao em linguagem natural pode se constituir em alternativa de soluo de ambigidades que interferem no grau de preciso desses sistemas. A experincia dos sistemas Dr-Link [xvii] e Elen [xviii] demonstram este potencial ao transformar o contedo dos documentos e das perguntas dos usurios numa representao em Grficos Conceituais. http://www.dgz.org.br/fev02/Art_05.htm (25 de 28)20/7/2005 08:00:57 Artigo 05 Num modelo desta natureza, a comparao entre o contedo dos documentos e da pergunta do usurio efetua-se em nvel de conceito - estrutura profunda - e no de forma estrutura superficial. Como os GCs operam com base em dados sinttico-semnticos, possibilitam a interpretao unvoca de formas polissmicas ou homgrafas. Esquemas de representaes do conhecimento desenvolvidos em outras disciplinas, como Inteligncia Artificial, Psicologia e Lingstica, tm despertado interesse crescente na criao de bases de conhecimento que possam ser usadas em recuperao da informao. Cabe aos pesquisadores da rea de Cincia da Informao acompanhar os desenvolvimentos dessas reas e avaliar a possibilidade de aplicao e a adequao de novos mtodos e tcnicas recuperao de informao.
NOTAS [1] A lngua oral no objeto de estudo neste trabalho. Por este motivo, exclui-se aqui a ambigidade causada por homofonia. [2] Neologismo sugerido pela Prof. Dra. Enilde Faulstich, orientadora da pesquisa realizada. [3] Arquivos, no sentido de conjunto de documentos podem ser objeto de compra, mas em contextos muito restritos. Mesmo considerando-se este fator, seria possvel desambiguar a frase exemplificada pela anlise da relao finalidade, introduzida pela preposio para. [4] Na teoria dos GCs, as etiquetas de tipo so escritas em letras maisculas para diferenci-las do conceito em si mesmo. [5] Segundo o nmero de arcos, as relaes conceituais so denominadas por Sowa como monoades (um arco) ; dades (dois arcos) ; trades (trs arcos)...n-ades (n arcos). [6] Lema: unidade de coleta na sua forma gramatical neutra, i.e., sem conjugao, sem flexo, etc. [7] Os deverbais, nomes formados a partir de radicais verbais, so denominados por Borba [xi] de nomes abstratos de ao. [8] O apagamento uma operao sinttica que consiste do cancelamento de um constituinte.[xi]. [9] Aes no sentido de classe conceitual da Ontologia.
REFERNCIAS BIBLIOGRFICAS http://www.dgz.org.br/fev02/Art_05.htm (26 de 28)20/7/2005 08:00:57 Artigo 05 [i] NETWORK Digital Library Thesis and Dissertations.Diponvel em:<http://www.ndltd.org> [ii] OPEN archives initiative. Disponvel em:< http://www.openarchives.org > [iii] CHEN, Hsinchun. Semantic research for digital libraries. D-Lib Magazine, v.5, n. 10 out.1999. Disponvel em : <http://www.dlib.org/dlib/october99/chen/10chen.html. > Acesso em: 19 abr. 2001. [iv] CRANEFIELD, Stephen. Networked knowledge representation and exchange using UML and RDF. Journal of Digital Information, Southampton, v. 1, n. 8, fev. 2001. Disponvel em: <http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Cranefield/>. Acesso em: 12 mar. 2001. [v] PROCEEDINGS of the workshop on the semantic web: models, architectures and management, Fourth European Conference on Research and Advanced Technology for digital libraries (ECDL 2000). < http://www.ics.forth.gr/proj/isst/SemWeb/proceedins > [vi] DOERR, Martin. Semantic problems of thesaurus mapping. Journal of Digital Information, Southampton, v. 1, n. 8, mar. 2001. Disponvel em: <http://jodi.ecs.soton.ac.uk/Articles/v01/i08/ Doerr/>. Acesso em: 12 mar. 2001. [vii] HUNTER, Jane. MetaNet: a metadata term thesaurus to enable semantic interoperability between metadata domains. Journal of Digital Information, Southampton, v. 1, n. 8, fev. 2001. Disponvel em: < http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Hunter/>. Acesso em: 12 mar. 2001. [viii] BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web. Scientific American, mai. 2001. Disponvel em: <http://www.ciam.com/2001/0501issue/0501berners-lee. html >. Acesso em: 19 abr. 2001. [ix] FUCHS, C. Lambigut et la paraphrase en linguistique. In : FUCHS, C., ed. Lambigut et la paraphrase : operations linguistiques, processus cognitifs, traitements automatiss. Caen : Centre de Publications de LUniversit de Caen, 1987. p.9 - 20. [x] FUCHS, C. Les ambiguts du franais. Paris : Orphys, 1996. 183p. [xi] BORBA, F. S. Uma gramtica de valncias para o portugus. So Paulo : tica, 1996. 199p. [xii] SOWA, J. F. Conceptual Structures : information processing in mind and machine. Massachusetts : Addison-Wesley, 1984. 435 p. [xiii] WAY, C. E. Conceptual graphs past, present and future. In : INTERNATIONAL http://www.dgz.org.br/fev02/Art_05.htm (27 de 28)20/7/2005 08:00:57 Artigo 05 CONFERENCE ON CONCEPTUAL STRUCTURES ICCS94, 2. August 1993, Maryland. Proceedings... p. 11-29. (Lectures Notes in Artificial Intelligence, 835). [xiv] BRSCHER, M. Tratamento automtico de ambigidades na recuperao da informao. 1999. 286p. Tese (Doutorado em Cincia da Informao) Universidade de Braslia. [xv] ZINGL, H. La modelisation des langues naturelles: aspects thoriques et pratiques. Travaux du LILLA, numro spcial, 1999. 151p. [xvi] MEADOW, C. T. Text information retrieval systems. San Diego : Academic Press, 1992. 302p. [xvii] CHEVALLET, J.-P. Un modle logique de recherche dinformations appliqus au formalisme des graphes conceptuels : le prototype ELEN et son exprimentation sur un corpus de composants logiciels. 1992. Tese (Doutorado) Universit Joseph Fourrier. [xviii] MYAENG, S. H. ; LI, M. Linguistic processing of text for a large-scale conceptual information retrieval system. In: INTERNATIONAL CONFERENCE ON CONCEPTUAL STRUCTURES ICCS94, 2. , August 1994, Maryland. Proceedings...p. 69-83. (Lectures Notes in Artificial Intelligence, 835).
Sobre a autora / About the Author: Marisa Brscher marisa@ibict.br Doutora em Cincia da Informao pela Universidade de Braslia Coordenadora Geral de Projetos Especiais do IBICT
http://www.dgz.org.br/fev02/Art_05.htm (28 de 28)20/7/2005 08:00:57
De Tijolo em Tijolo - A Construção de Uma Proposta de Expografia Como Ferramenta de Difusão Da Informação Do Sebo Cultural A Partir Do Seu Acervo Fotográfico