Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009
99 Diferenas entre tesauros e ontologias Rodrigo de Sales Mestre em Cincia da Informao - UFSC. Bacharel em Biblioteconomia - UFSC. Editor da revista Texto Digital; Membro do Ncleo de Pesquisa em Informtica, Literatura e Lingstica (NUPILL/UFSC). Lgia Caf 1
Doutora em Lingstica - Universit Laval, U.L., Canad. Professora do Departamento de Cincia da Informao e Programa de Ps-Graduao em Cincia da Informao da Universidade Federal de Santa Catarina. Tesauros e ontologias so modelos de representao do conhecimento baseados no controle terminolgico de domnios especficos. Este artigo relata parte de uma pesquisa de Mestrado em Cincia da Informao desenvolvida na Universidade Federal de Santa Catarina e foca as diferenas existentes entre aqueles dois modelos de representao. Foi empregado, no plano metodolgico, o Mtodo de Anlise de Contedo. No plano terico, a pesquisa foi subsidiada pela Teoria Comunicativa da Terminologia (TCT). A constatao de que ambos os modelos apresentam diferenas no tocante aos termos, conceitos e objetivos permite um entendimento mais profundo desses instrumentos, to imprescindveis comunicao tcnica e cientfica. Palavras-Chave: Tesauro; Ontologia; Representao do conhecimento; Teoria comunicativa da terminologia. Differences between thesauri and ontologies Thesauri and ontologies are models of knowledge representation based on the terminological control of specific domains. This article describes a research project
1 Artigo baseado em Dissertao de Mestrado desenvolvida no Programa de Ps-Graduao em Cincia da Informao da Universidade Federal de Santa Catarina, com auxlio financeiro da CAPES.
Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 100 developed at the Universidade Federal de Santa Catarina as part of a Masters degree in Information Science and it focusses on the current differences between these two models of representation. The Content Analysis Method was used as the methodology, and the theory was supported by the Communicative Terminology Theory. The discovery that both models exhibit differences regarding terms, concepts and objectives allows a deeper understanding of these tools which are considered as vital to technical and scientific communications. Keywords: Thesaurus; Ontology; Knowledge representation; Communicative theory of terminology Recebido em 14.04.2008 Aceito em 12.03.2009 1 Introduo A comunicao cientfica e profissional se manifesta por meio de linguagens especializadas, codificadas e decodificadas por especialistas de uma determinada rea do conhecimento ou de uma determinada rea profissional. Essas linguagens especializadas, tambm chamadas de linguagens de especialidade, so constitudas por terminologias prprias, que por sua vez so responsveis pela transmisso do conhecimento especializado. As terminologias tambm pertencem linguagem natural (linguagem como um todo, usada para a comunicao e expresso humanas) utilizada por um sujeito-falante comum, pois, antes de um indivduo ser um especialista em determinado assunto ele um sujeito- falante natural. Melhor dizendo, a terminologia pertence a uma linguagem especializada, que por sua vez pertence linguagem natural. Com isso, constata-se que uma lngua de especialidade uma sublinguagem pertencente linguagem natural. Tal fato leva considerao de que a comunicao tcnico-cientfica nada mais (de uma maneira geral) do que uma comunicao natural ocorrida dentro dos campos especializados. Uma particularidade das linguagens utilizadas por especialistas a impretervel preciso da informao comunicada. Para que tal preciso seja consolidada so necessrios instrumentos que zelem pela no- ambigidade do discurso especializado. As linguagens documentrias so instrumentos que visam a representao da informao com o objetivo de recuperar contedos informacionais em ambientes especficos. importante um esclarecimento a respeito de qual o sentido empregado para o termo `representao do conhecimento neste trabalho. Recorrendo etimologia da palavra latina repraesentare (representar), tm-se como significados: "fazer presente, "apresentar novamente, "trazer memria. Nesse sentido, comum encontrar na literatura corrente o uso do termo `representao do conhecimento para nomear o processo de tornar presente, por meio de termos, o contedo de uma Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 101 informao. Porm, cabe frisar que o processo de tornar presente contedos informacionais uma atividade que diz respeito `representao da informao, que por sua vez se instrumentaliza por meio de modelos de representao do conhecimento. Melhor dizendo, a representao do conhecimento um processo mental (campo das idias) responsvel pela organizao do conhecimento. Desta organizao surgem os sistemas de representao do conhecimento, Knowledge Organization Systems (KOS), tambm chamados de modelos de representao do conhecimento ou linguagens documentrias, que servem de ferramentas para a atividade de representao da informao. Com isso, afirma-se que os modelos de representao do conhecimento, como os tesauros e as ontologias, que representam uma parte do mundo das idias (representao do conhecimento), so aplicados nas atividades de representao da informao. Cabe ainda esclarecer que o termo representao do conhecimento empregado distintamente pelas reas da Cincia da Informao (CI) e Cincia da Computao (CC). Para a CI, o referido termo utilizado, como exposto acima, para designar a organizao mental dos conceitos, pois, para esta cincia, o conhecimento e sua organizao dizem respeito aos processos desenvolvidos e compreendidos na mente humana. J para a CC, a representao do conhecimento diz respeito, segundo Branchman e Levesque (2004), rea da Inteligncia Artificial (IA), dedicada ao estudo das formas de representar e manipular simbolicamente o conhecimento de maneira automtica, por meio de raciocnio de programas informticos. De uma maneira geral, a representao do conhecimento para a CI reside no campo das idias e articulado pelos processos mentais, enquanto que para a CC reside no campo informtico e articulado pelos programas de raciocnio lgico que alimentam as bases de conhecimento. No mbito terminolgico da representao do conhecimento, os tesauros e as ontologias so modelos principais abordados pela Cincia da Informao. O tesauro uma linguagem documentria caracterizada pela complexidade existente no relacionamento entre os termos que comunicam o conhecimento especializado. A ontologia um modelo de representao do conhecimento, por vezes empregado como linguagem documentria, que, a exemplo do tesauro, utilizada para representar e recuperar informao por meio de estruturas conceituais. As ontologias possibilitam compartilhar uma viso de determinado campo de conhecimento, compartilhar uma forma de pensar de determinado assunto, proporcionando um mapa semntico e uma estrutura conceitual de um domnio especfico por meio de um vocabulrio comum. O presente artigo relata parte de uma pesquisa de Mestrado, desenvolvida no Programa de Ps-Graduao em Cincia da Informao da Universidade Federal de Santa Catarina, que consiste, sobretudo, na identificao e na discusso de aspectos que aproximam e distanciam os fundamentos dos tesauros aos das ontologias. Neste artigo, somente as diferenas entre eles so abordadas. O intuito ajudar a suprir uma carncia da literatura correspondente, j que so raros os estudos que lanam mo de rigor terico e metodolgico para comparar esses dois Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 102 modelos de representao, fato que inibe uma definio de suas diferenas fundamentais. Na esfera terica, a pesquisa foi subsidiada pelos fundamentos da Teoria Comunicativa da Terminologia (TCT), criada por Maria Teresa Cabr da Universitat Pompeu Fabra (Barcelona). No quadro metodolgico, a Anlise de Contedo, definida por Laurence Bardin, conduziu todo o processo de coleta e tratamento das informaes, bem como as interpretaes dos resultados obtidos. O texto est estruturado com algumas definies significativas correspondentes aos tesauros e s ontologias, com uma apresentao em linhas gerais das idias da TCT, e com a descrio metodolgica da pesquisa, alm, obviamente, das afirmaes conclusivas a respeito dos resultados encontrados na investigao. 2 Definies sobre tesauros e ontologias Tesauros so vocabulrios controlados formados por termos- descritores semanticamente relacionados, e atuam como instrumentos de controle terminolgico. Os tesauros podem estar estruturados hierarquicamente (gnero-espcie e todo-parte) e associativamente (aproximao semntica), e so utilizados principalmente para indexar e recuperar informaes por meio de seu contedo. Cabr (1993) afirma que os tesauros so `recopilaes de termos relacionados semanticamente, que servem como ferramenta para organizar e recuperar informao. Segundo as diretrizes para a construo de tesauros descritas no Padro Norte-Americano, a thesaurus is a controlled vocabulary arranged in a known order and structured so that equivalence, homographic, hierarchical, and associative relationships among terms are displayed clearly and identified by standardized relationship indicators that are employed reciprocally 2 (AMERICAN, 2003, p.?).
O Padro ressalta ainda que os tesauros no so utilizados somente pelos especialistas da informao, no momento da indexao, mas tambm por usurios da informao, no momento da busca de documentos. Essa afirmao enaltecida por Moreira (2003), que, alm de concordar que o tesauro o elo entre a linguagem utilizada pelos indexadores e pelos usurios, afirma que os termos e as relaes dos termos contidos nos tesauros fazem deles instrumentos essenciais para que ambos (indexador e usurio) busquem o melhor termo (ou termos) em um sistema de informao.
2 Um tesauro um vocabulrio controlado organizado em uma ordem preestabelecida e estruturado de modo a que os relacionamentos de equivalncia, de homografia, de hierarquia, e de associao entre termos sejam indicados claramente e identificados por indicadores de relacionamento padronizados empregados reciprocamente (Traduo nossa). Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 103 As ontologias so aparatos desenvolvidos pela engenharia computacional, e consistem em especificaes formais que visam descrever estruturas conceituais de domnios especficos. Para Gruber (1993a), ontologias so esquemas conceituais em sistemas de bancos de dados. Um esquema conceitual fornece uma descrio lgica de dados compartilhados, permitindo programas de aplicao e interoperabilidade entre os bancos de dados. Uma ontologia define o vocabulrio usado para compor expresses complexas. O objetivo da ontologia viabilizar um acordo no uso do vocabulrio compartilhado de uma maneira coerente e consistente. A definio mais difundida para ontologia no mbito da representao do conhecimento a de Gruber (1993b), na qual o autor afirma que uma ontologia uma especificao formal e explcita de uma conceitualizao compartilhada. No entendimento do autor, `conceitualizao se refere a um modelo abstrato dos fenmenos no mundo, identificando os conceitos relevantes daqueles fenmenos. O termo `formal se refere ao fato de que a ontologia deve ser legvel por mquina; `explcito se justifica porque os tipos de conceitos usados e suas restries de uso so definidos explicitamente; e `compartilhado reflete que a ontologia deve capturar o conhecimento consensual aceito pelas comunidades. Guarino e Giaretta (1995) afirmam ser problemtico o fato de Gruber (1993b) considerar que a conceitualizao reside no nvel das relaes extensionais, descrevendo um estado particular das coisas. Para eles, a conceitualizao reside no nvel das relaes intensionais, e descreve os vrios estados das coisas. Guarino e Giaretta (1995) ressaltam que ontologia uma teoria lgica que fornece um relato explcito e parcial de uma conceitualizao, e afirmam tambm que ontologia pode ser considerada sinnimo de conceitualizao, ou seja, uma estrutura semntica intensional que codifica as regras implcitas, legitimando uma estrutura de uma parte da realidade. Guarino (1998) expe que o termo `ontologia denota o resultado da atividade de anlise conceitual, que modela um domnio, realizada por meio de metodologias padro. Ding e Foo (2001) afirmam ser ontologia uma estrutura de termos que possibilita o compartilhamento de informaes de determinado domnio do conhecimento, sendo que domnio pode tambm ser entendido como uma tarefa especfica. Segundo Noy e McGuinness (2005), uma ontologia uma descrio explcita e formal de: a) conceitos em um domnio de discurso; b) propriedades de cada conceito, descrevendo as caractersticas e atributos do conceito; e c) restries sobre as propriedades. Em artigo que visa esclarecer questes referentes construo e ao compartilhamento de ontologias, Sowa (1999) afirma que Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 104 Ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D. The types in the ontology represent the predicates, word senses, or concept and relation types of the language L when used to discuss topics in the domain D 3 (SOWA, 1999, p. 1-2).
As definies aqui apresentadas afirmam essencialmente que a ontologia proporciona um vocabulrio formal e comum baseado em uma estrutura de conceitos especficos de um dado domnio. As diferenas entre tesauros e ontologias no ficam muito evidentes com uma simples observao em suas definies. Por isso, buscaram-se, na Teoria Comunicativa da Terminologia, parmetros para investigar mais detidamente o que h de comum entre esses instrumentos. 3 Teoria Comunicativa da Terminologia (TCT) Dentre as teorias modernas da Terminologia que ancoram os estudos mais recentes de organizao e representao do conhecimento, merecem destaque, sem pormenorizar as diferenas de abordagens, a Teoria Geral da Terminologia (TGT) de Eugen Wster, a Teoria da Socioterminologia de Franois Gaudin e a Teoria Comunicativa da Terminologia (TCT) de Maria Teresa Cabr. Definida no final da dcada de 1990, a TCT uma teoria descritiva de base lingstica e perspectiva funcionalista, focada no carter comunicativo do termo. Cabr (1999) definiu uma teoria generalizada, levando em considerao que a Terminologia interdisciplinar (integrando aspectos da Lingstica, das Cincias Cognitivas e das Cincias Sociais) e transdisciplinar (atua em todas as disciplinas). Segundo a autora, a TCT no considera os termos como unidades isoladas que constituem seu prprio sistema, mas sim, considera-os como unidades que se incorporam no lxico de um falante, no momento em que este adquire o know how de especialista por meio da aprendizagem do conhecimento especializado. Bem como toda teoria terminolgica, a teoria de Cabr direciona sua luz s implicaes que dizem respeito ao termo e ao conceito. Mas a lente concebida pela TCT permite visionar o termo de uma maneira diferente. Dando nfase ao exame da estrutura e do funcionamento terminolgico, e levando em conta o aspecto da variao, o termo visto na teoria de Cabr como uma unidade denominativo-conceitual, como uma unidade de conhecimento. Assim, com base em orientaes epistemolgicas voltadas dimenso comunicativa das lnguas naturais, a TCT visualiza o termo como uma unidade de conhecimento, composta por uma forma e um
3 Ontologia um catlogo dos tipos de coisas que se admite existir em um domnio do interesse D da perspectiva de uma pessoa que use uma lngua L com a finalidade de falar sobre D. Os tipos na ontologia representam os predicados, os sentidos da palavra [termo], ou os tipos de conceito e relao da lngua L quando usados para discutir tpicos no domnio D (Traduo nossa). Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 105 contedo, sendo a forma a unidade lexical que denomina o conceito (contedo). Com base nos fundamentos da TCT, foram extrados os seguintes elementos de observao para a anlise: a) o termo, considerando seu carter de unidade de conhecimento pertencente linguagem natural e as distintas funes deste no contexto discursivo. Considerando tambm sua caracterstica pragmtica inserida no discurso e sua simultaneidade quanto forma e ao contedo; b) o conceito e seus diferentes tipos de relaes, formadores da estrutura conceitual; e c) os objetivos (tericos e prticos) atribudos aos modelos em questo. 4 Metodologia A pesquisa aqui relatada qualitativa do ponto de vista da abordagem do problema, pois est pautada em anlises e interpretaes de contedos. Na tica dos procedimentos tcnicos, trata-se de uma pesquisa documental, que empregou tcnicas da Anlise de Contedo para o levantamento, tratamento e anlise das informaes. Conforme a determinao do mtodo de Anlise de Contedo, definido por Bardin (2003), a anlise foi dividida em trs fases: a) Pr- anlise; b) Explorao do material; e c) Resultados e interpretaes; 4.1 Pr-anlise O conjunto documental da investigao foi constitudo por relatrios de pesquisas da rea Cincia da Informao e Cincia da Computao, localizados nas bases de dados da Library and Information Science Abstracts (LISA), da Wilson Library Literature and Information Science Full Text, e da Biblioteca Digital de Teses e Dissertaes do IBICT (INSTITUTO..., 2007). Os documentos no disponveis on-line foram solicitados pela comutao bibliogrfica por meio do sistema COMUT. O perodo de abrangncia foi de 1998 a 2007, e os idiomas foram delimitados em portugus, ingls e espanhol. O Corpus de Anlise foi construdo seguindo as regras de exaustividade, representatividade, homogeneidade e pertinncia, postuladas por Bardin (2003). Foi composto por 34 documentos, sendo 33 artigos tcnico-cientficos e uma Tese. Dos 34 documentos selecionados para o Corpus de Anlise, 17 correspondem ao tema `tesauro, sendo 16 artigos e a tese, 16 artigos so relativos ao tema `ontologia, e um artigo cobre ambos os temas. Acatando as orientaes concebidas pela Anlise de Contedo, foram determinadas as seguintes categorias de anlise:
1. Termo: registra uma sntese contendo a perspectiva apresentada no documento com relao aos termos do modelo de representao do conhecimento em questo. 2. Conceito: registra uma sntese contendo a perspectiva apresentada no documento com relao aos conceitos e Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 106 estruturas conceituais do modelo de representao do conhecimento em questo. 3. Objetivo: registra uma sntese contendo a abordagem apresentada no documento com relao aos objetivos (tericos e prticos) do modelo de representao do conhecimento em questo.
O registro dos elementos correspondentes s categorias focou os seguintes parmetros baseados na TCT: a) Categoria Termo - as funes das unidades terminolgicas, a relao forma-contedo do termo e os nveis de relacionamento entre os termos; b) Categoria Conceito - a relao com a designao do termo e a relao entre os prprios conceitos e; c) Categoria Objetivo - finalidades das linguagens documentrias em questo. 4.2 Explorao do Material A explorao do material foi realizada por meio da tcnica de fichamento de textos e auxiliada por uma base de dados criada no Microsoft Access 2003. A leitura de cada documento foi devidamente fichada, com base nas categorias descritas acima, e registrada na referida base de dados. Para cada texto analisado foi elaborada uma ficha contendo registros relativos s unidades de registro Referncia, Tema, Resumo e Observaes, e s categorias Termo, Conceito e Objetivo. A FIG. 1 mostra a ficha de registro de um dos textos analisados. Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 107
FIGURA1 - Interface da Base de Dados Criada para o Fichamento
Com o auxlio da base Microsoft Access, aps o fichamento do material analisado, foi possvel gerar relatrios de acordo com a necessidade do analista. Foram gerados relatrios contendo a descrio de todas as informaes registradas no processo de coleta de informaes: Referncia, Tema, Resumo, Termo, Conceito, Objetivo e Observaes. E tambm um relatrio contendo a descrio apenas das informaes referentes s categorias de anlise Termo, Conceito e Objetivo, com o fim de uma anlise mais detida dos pontos de observao central. 4.3 Tratamento dos resultados e interpretaes Para direcionar a anlise, foram determinadas variveis de inferncia. Essas variveis foram escolhidas de acordo com a percepo, ocorrida durante todos os processos anteriores, sobretudo durante a leitura e o fichamento dos textos, de elementos recorrentes na grande maioria dos documentos analisados. Tais elementos foram identificados e considerados como variveis de inferncia inseridas nas categorias da anlise, a saber: a) Categoria Termo - definio/funo, tipos, relao entre termos e relao com os conceitos; b) Categoria Conceito - Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 108 definio/funo, organizao dos conceitos, relao entre conceitos e relao com os termos; e c) Categoria Objetivo - terico (relativo terminologia em geral) e prtico (relativo aos sistemas de informao). Com o intudo de facilitar a comparao dos aspectos que caracterizam os tesauros e as ontologias, foram elaborados um Quadro A, que descreve o contedo concernente aos documentos relativos aos tesauros, e um Quadro B, que descreve o contedo referente aos documentos relativos s ontologias. Ambos os quadros foram orientados pelas categorias de anlise e variveis de inferncia. O quadro abaixo (QUADRO 1) ilustra o modelo dos quadros A e B da pesquisa, que no so expostos neste artigo devido sua grande extenso.
QUADRO 1- Modelo dos Quadros Utilizados para Anlise de Contedo CATEGORIA DE ANLISE VARIVEL DE INFERNCIA CONTEDO Termo Definio/funo Tipos de termos Relao entre termos Relao com o conceito Conceito Definio/funo Organizao dos conceitos Relao entre conceitos Relao com o termo Objetivo Terico (relacionado com a terminologia em geral)
Prtico (relacionado com os sistemas de informao)
Fonte: Elaborado pelos autores.
Com as caractersticas dos tesauros e das ontologias devidamente registradas, o passo seguinte foi o cruzamento dos contedos dos Quadros A e B, com o fim de identificar as diferenas existentes entre ambos os modelos de representao do conhecimento. 4.3.1 As diferenas No que diz respeito ao termo, as diferenas encontradas nos textos residem predominantemente na funo exercida por eles. Os textos relativos s ontologias focam mais as funes desempenhadas pelos termos, sem se (pre)ocuparem em defini-los, ficando apenas notria a idia de que um termo uma etiqueta que se refere a um conceito. A literatura relativa aos tesauros atribui aos termos a funo de evitar ou diminuir a flexibilidade da linguagem e descrever um conceito de maneira Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 109 unvoca em um sistema de informao, ao passo que a literatura relativa s ontologias atribui aos termos a funo de definir formalmente coisas em um domnio de interesse e viabilizar a consulta a um sistema de informao fazendo uso de conceitos pr-estabelecidos por especialistas. As funes dos termos atribudas pelos textos referentes ao tesauro so funes de carter terminolgico e conceitual, ao passo que os outros textos atribuem aos termos funes mais prticas em ambientes de aplicao especializados. Na parte do corpus que representa os tesauros, foram encontrados nove tipos de termos no identificados nos textos correspondentes s ontologias: Termo Simples, Termo Composto, Termo Equivalente, Termo Preferido, Termo Proibido, Termo Relacionado, Termos Polissmicos, Identificador e Termo Qualificado. No que diz respeito s ontologias, foi identificada apenas uma classificao de termo que se distancia dos tipos encontrados nos tesauros, a saber: a Entidade (termo que mostra uma substncia). Nos documentos correspondentes s ontologias so definidas apenas duas informaes a respeito da relao entre os termos. A primeira afirma que a relao semntica est diretamente ligada apresentao sinttica em um discurso; a segunda expe que o relacionamento entre os termos realizado pelos especialistas, ou seja, d-se por meio do consenso em um determinado domnio. J a literatura referente aos tesauros apresenta trs tipos de relaes entre os termos (diferentes das ontologias): a) Equivalncia - quando um termo apresenta uma relao de sinonmia com outro, e, neste caso, o termo adotado pelo tesauro (termo preferido), tambm conhecido como descritor, determinado na elaborao do tesauro lanando mo da sigla UP (Usado Para). O termo preterido marcado pela sigla USE (que o remete para o descritor correspondente); b) Associativo - apresenta relao semntica no hierrquica; c) Nota Explicativa - orientao que elucida o emprego de determinado termo, fornecendo informaes como a definio do termo e sua relao com outros termos. Com relao ao conceito, a literatura voltada aos tesauros o considera como o conjunto formado pelas caractersticas de um objeto, que por sua vez so sintetizadas por um termo, definio pautada na Teoria do Conceito. Para os estudos de ontologias, os conceitos so unidades de um vocabulrio especializado que representam classes, entidades, atributos e processos. possvel identificar que, no mbito dos tesauros, o conceito abordado sob uma tica mais terica (abstrata), como uma unidade representante de um objeto. No mbito das ontologias, embora o conceito tambm seja uma unidade representante de um objeto, o conceito tratado sob uma tica mais aplicada. Essa diferena de vises reflete a diferena de abordagens das reas de conhecimento que cobrem os estudos aqui analisados. A rea da Cincia da Informao, que predominantemente cobre os estudos de tesauros, objetiva uma investigao de cunho mais reflexivo, mapeando todo um campo terico-conceitual, em busca de embasamentos e entendimentos tericos e metodolgicos referentes a aplicaes passadas e futuras. A Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 110 rea da Cincia da Computao, responsvel pela maioria dos estudos de ontologias, no negligenciando as reflexes tericas, mas sim priorizando a construo dos aparatos informticos, centra suas investigaes no desenvolvimento e na aplicao de seus produtos (nesse caso as ontologias). Isso explica a diferente maneira com que os artigos relativos aos tesauros abordam o assunto, se comparado com os textos relativos s ontologias. Com base na anlise do corpus, ao imaginar um ciclo de desenvolvimento cientfico para este caso, possvel visualizar a pesquisa da Cincia da Informao alimentando e sendo alimentada pela pesquisa da Cincia da Computao, e vice-versa. Obviamente, ambas as pesquisas, alm de se complementarem, perpassam por outras reas (como a Lingstica, por exemplo) para fortalecerem este ciclo. Os textos relativos ao tesauro no fazem uso da expresso `organizao de conceitos, ao passo que os textos relativos s ontologias, nesse aspecto, distinguem os conceitos concretos principais, que so aqueles que apresentam propriedades do domnio, bem como seus relacionamentos, dos conceitos abstratos, que so as caractersticas. Os tesauros apresentam dois tipos de relacionamento entre conceitos que no foram identificados na literatura referente s ontologias: o relacionamento ontolgico, que diz respeito proximidade situacional dos elementos na realidade (contigidade dos conceitos no espao), e que considerado a relao entre conceito e realidade; e o relacionamento de equivalncia, que ocorre quando um conceito representado por mais de uma forma. Enquanto os textos relativos s ontologias relatam que interligaes entre conceitos mais refinados e conceitos mais perifricos formam as relaes adicionais, os textos voltados aos tesauros apresentam relacionamentos dos tipos: descendncia, instrumental, causa e efeito, benefcio, prejuzo, material, aparncia, processo e estado. Finalizando a questo dos tipos de relaes possveis entre os conceitos contidos em um tesauro, afirma-se que essa relao determinada pelo uso que o domnio faz dos conceitos, alm das caractersticas prprias do respectivo domnio. Por outro lado, na literatura das ontologias mencionada a seguinte informao a respeito do relacionamento entre conceitos atrelados ao domnio: as relaes conceituais, que se do no nvel intensional, so definidas em um espao do domnio, e podem ser representadas em grupos de mundos possveis (conjunto de coisas, estados e relaes de coisas que so convencionalmente determinados como possveis, mas que esto sob a gide de um conjunto de regras tambm determinado). Tal informao pode no caracterizar uma diferena, mas evidencia uma funo que transcende as possibilidades de relacionamento conceitual dos tesauros. Outra particularidade do relacionamento entre conceitos, possvel somente nas ontologias, a relao concebida por meio de axiomas, os quais definem a interpretao pretendida. Embora os textos referentes aos tesauros enumerem uma quantidade maior de tipos de relacionamentos entre conceitos, a flexibilidade do relacionamento por meio de axiomas, viabilizada pelo formalismo informtico das ontologias, Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 111 proporciona maior dinamicidade no tangente ao relacionamento conceitual. Ao que se refere aos objetivos tericos, a anlise de contedo identificou como meta dos tesauros auxiliar a inter-relao entre linguagem natural e linguagem artificial, fornecendo um sistema de smbolos lingsticos para agrupar e relacionar informaes de uma temtica. Do lado das ontologias, foram identificados como objetivos fornecer um mapa semntico aos campos individuais e o relacionamento entre os campos, servindo como uma ferramenta que crie uma estrutura lgica, uma filosofia, uma classificao em um domnio. Enquanto os tesauros almejam orientar qual o termo mais adequado para representar um conceito, as ontologias visam esclarecer o significado pretendido de um vocabulrio por meio de axiomas. Com isso, fica evidente que, embora ambos tenham (em teoria) o objetivo de servir como uma ferramenta de referncia para a representao de assuntos especializados, os tesauros esto voltados ao elo que une a linguagem do usurio com a linguagem utilizada pelos sistemas de informao, preocupando-se em conceder um sistema simblico que esclarea a relao entre os termos e os conceitos. J as ontologias transcendem esta meta de padronizar a linguagem utilizada na indexao e na recuperao da informao, propondo ser um mapa semntico, uma estrutura formal para um dado domnio, ou at mesmo servir como ferramenta capital para a elaborao de bases de conhecimento. Para Noy e McGuinness (2005), a linha que define onde termina uma ontologia e onde comea uma base de conhecimento muito tnue. Segundo as autoras, uma ontologia, somada a um conjunto de instncias individuais de classes, formam uma base de conhecimento. Na rea da Cincia da Computao, o termo `base de conhecimento definido como uma ferramenta de suporte para o atendimento a dvidas, usada para definir bases de dados ou conhecimento acumulado sobre um determinado assunto. Pode ser utilizada na soluo de problemas, por meio do uso de ferramentas de Inteligncia Artificial (IA). De uma maneira geral, base de conhecimento pode ser considerada uma coleo de informao que opera com base em ontologias. Partindo para o mbito das aplicaes dos modelos de representao do conhecimento, fica evidente que os objetivos dos tesauros so a padronizao e a normalizao terminolgica das atividades de indexao e recuperao nos sistemas informacionais. J as ontologias, devido ao seu formalismo informtico, vo em busca de uma estrutura de conceitos com alto nvel de dinamicidade no que diz respeito aos modelos de representao do conhecimento. Enquanto os tesauros pretendem servir como pontes que ligam as necessidades de informao aos sistemas de recuperao da informao, as ontologias pretendem ajudar a responder perguntas em um corpo de informao, no apenas relacionando os conceitos aos termos e os definindo, mas, tambm, esclarecendo-os e contextualizando-os em uma classificao, baseando-se nas disciplinas, nas lnguas e nas culturas. Enquanto os tesauros se voltam atividade de indexao baseada em linguagem natural, as Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 112 ontologias servem como uma espcie de dicionrio que usado tanto por humano quanto por base de conhecimento (mquina) para processar linguagem natural. As ontologias no visam `traduo de linguagens naturais para linguagens especializadas e vice-versa, mas, sim, atuam no prprio processamento dessas linguagens. O uso da palavra `dicionrio torna evidente que as ontologias vo alm de propor uma estrutura conceitual por meio do relacionamento controlado de termos, pois os dicionrios tm como caracterstica apresentar definies de palavras. Os tesauros almejam ser um vocabulrio oficial para a indexao e recuperao de documentos, deixando explcita sua funo de controle terminolgico para as respectivas atividades, ao passo que as ontologias visam a um entendimento comum e compartilhado de um determinado domnio, deixando claro que uma de suas funes possibilitar que bases de conhecimento respondam perguntas solicitadas. Assim como os tesauros esto voltados para a normalizao terminolgica de um sistema de informao, as ontologias esto voltadas para a `identificao e definio dos `conceitos relevantes que caracterizam um domnio. Nota-se que, assim como a literatura aponta, como objetivo dos tesauros, propor um conjunto estruturado de termos sob a base de um sistema de conceitos aptos a organizar contedos, auxiliando a representao desse contedo e evitando as ambigidades lingsticas, aponta tambm, como objetivo das ontologias, possibilitar por meio de aplicaes lgicas a construo de modelos computacionais para um determinado domnio de aplicao. Embora isto no evidencie uma oposio direta com caractersticas prprias dos tesauros, denota mais uma vez que os recursos informticos possibilitam que os objetivos das ontologias vo alm daqueles almejados pelos tesauros. Devido a esse fato, de as ontologias serem criadas e desenvolvidas no meio informtico, so inmeros os objetivos atribudos a elas que transbordam a esfera de atuao dos tesauros. Dentre eles: a) interoperabilizar sistemas; b) proporcionar a interoperabilidade dos servios ofertados na web, potencializando os nveis de servios ofertados; ou seja, sustentar a web semntica; c) propiciar benefcios na engenharia de sistemas (reusabilidade, confiabilidade e especificao); d) fornecer base conceitual para projetos de pesquisa e execuo; e) melhorar a comunicao e o aprendizado, assistindo a escritores e leitores, fornecendo estruturas conceituais que sustentem o ensino; f) possibilitar servios baseados em operacionalizaes semnticas; g) ligar parte do conhecimento humano aos processamentos computacionais; h) descrever a semntica de um domnio de modo que seja compreensvel por homens e mquinas; i) melhorar a consistncia e o reuso da informao e o compartilhamento do conhecimento; j) recuperao da informao e raciocnio automtico de um dado domnio; k) capturar significados e relaes entre os significados; l) servir como um catlogo dos tipos de coisas que existem em um domnio D, da perspectiva de uma pessoa que usa uma lngua L, com a finalidade de falar sobre D; m) representar os predicados, os sentidos das palavras ou os tipos de conceitos e relaes da lngua L, quando usados para discutir tpicos no Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 113 domnio D; n) na web semntica, serve para fornecer uma conceitualizao parcial de um dado domnio de forma compartilhada entre usurios comuns e que seja formalmente definida por uma linguagem processada por mquinas; o) oferecer meios concisos e sistemticos para definir a semntica dos recursos web e; p) proporcionar regras de inferncia e dedues racionais para que sistemas sejam inteligveis e processados automaticamente por meio das vrias linguagens de marcao. Fica subentendido que as ontologias transcendem a questo da simples representao de contedos documentais, mais frequentemente atribuda aos tesauros, para assumir um papel de ferramenta elementar para os sistemas de informao automatizados, para as bases de conhecimento e os servios ofertados pela web, sobretudo no tocante web semntica. Isso no significa que ontologias no cumpram o papel de representar contedos de informao, pelo contrrio, significa que a representao da informao proporcionada por uma ontologia vai alm das tradicionais descries simblicas de contedos de documentos. As diferenas descritas acima, bem como as caractersticas que, embora no apresentem uma distino direta, demonstram peculiaridades dos modelos, tornam evidente que o distanciamento entre tesauros e ontologias mais bem esclarecido na esfera das aplicaes, haja vista que as diferenas de ordem conceitual, muitas vezes, correspondem a pontos de vista. Claro est o fato de que a literatura que trata dos tesauros fortalece seus argumentos na questo do controle terminolgico necessrio para as atividades de indexao e recuperao de informao, e no elo entre o usurio e a informao. Por outro lado, o foco argumentativo da literatura das ontologias est na concepo de uma estrutura conceitual formal e compartilhada, que conceda uma viso de parte de mundos especializados. 5 Concluses A pesquisa relatada parcialmente neste artigo foi fruto de um processo de Anlise de Contedo. Portanto, os resultados aqui alcanados so fruto de inferncias extradas dos documentos analisados, ou seja, so os resultados de uma interpretao controlada por variveis julgadas como relevantes para este estudo. Torna-se, portanto, inevitvel o esclarecimento de que esses resultados pertencem a uma investigao que deu vazo subjetividade do analista. No entanto, essa subjetividade no significa uma falta de rigor cientfico quanto anlise do contedo dos documentos, mas, sim, representa que o objetivo aqui alcanado teve uma interferncia `controlada do sujeito em relao ao objeto observado. Isso leva considerao de que as caractersticas que distanciam tesauros e ontologias, identificadas neste estudo, no so ltimas e acabadas, mas, sim, caractersticas significativas que possibilitam afirmaes importantes ao estudo da diferena entre tesauros e ontologias. A quantidade de caractersticas diferentes entre os modelos de representao do conhecimento por ora analisados reflete algo que j Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 114 poderia ter sido previsto pelo fato de ambos pertencerem genuinamente a reas de conhecimento distintas (tesauro - disciplinas da Cincia da Informao; ontologia - disciplinas da Cincia da Computao). Porm, o emprego de ambos os modelos como linguagens documentrias para o universo da informao os tornam passveis de anlises como esta, que os colocam como modelos afins localizados em espaos similares. Embora ambos os modelos de representao do conhecimento sejam utilizados em situaes similares e com funes por vezes concomitantes, seria uma reduo afirmar que ontologias so linguagens documentrias que visam o controle terminolgico nas atividades de indexao e recuperao da informao, bem como seria, tambm, uma incoerncia afirmar que tesauros so especificaes comuns e compartilhadas de uma conceitualizao. A simples afirmao de que ontologias so linguagens documentrias j se evidencia como uma incoerncia. Embora as ontologias possam cumprir papis desempenhados pelas linguagens documentrias, j foi enfatizado neste trabalho que linguagens documentrias so instrumentos que auxiliam o processo de classificao, indexao e recuperao de documentos por assunto, uma definio muito aqum das possibilidades de execuo de uma ontologia. As diferenas apontadas neste estudo no so indicadores de vantagens e desvantagens de um modelo em relao ao outro, mas sim ndices que apontam para a evoluo dos modelos de representao do conhecimento que, ao longo da histria, caminharam da classificao filosfica e bibliogrfica de assuntos para a construo de uma estrutura conceitual, uma estrutura de pensamento comum. Servidas pelos aparatos informticos, e toda a potencialidade que eles concedem, as ontologias so hoje o exemplo de sofisticao no que tange representao do conhecimento. Avanando um pouco mais o assunto, e trazendo para esta reflexo as idias funcionalistas da Teoria Comunicativa da Terminologia (TCT), possvel ousar a seguinte afirmao: a ontologia a potencial concretizao dos postulados da TCT. Tal afirmao se constri com base no seguinte raciocnio: se a TCT persegue uma Terminologia baseada em uma linguagem natural (embora contida de especificidade) e real (efetivamente usada nos ambientes especializados), e se as ontologias concebem uma especificao comum e compartilhada de uma conceitualizao - o que permite a especialistas compartilharem do mesmo vocabulrio -, tem-se que as ontologias so capazes de formalizar (no no sentido de padronizar, mas sim no sentido de legitimar uma estrutura) uma terminologia efetivamente utilizada e compartilhada entre especialistas. Obviamente que a ousadia de tal afirmao surge mais como uma `hiptese a ser investigada do que uma `tese a ser defendida. Porm, sua presena neste trabalho se justifica no fato de ser uma reflexo resultante da anlise que buscou estudar os modelos de representao do conhecimento com base na viso comunicativa da terminologia. A contribuio principal da presente investigao est na identificao, devidamente comentada, das diferenas existentes entre os Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 115 tesauros e as ontologias, assunto pouco tratado na literatura corrente. Tal contribuio traz ao universo da Cincia da Informao, dedicado, dentre outros esforos, ao fluxo informacional nos ambientes cientficos e profissionais, alicerces para melhor compreender essas ferramentas de representao do conhecimento que, em se tratando de controle terminolgico, so as principais da rea da Cincia da Informao. Referncias AMERICAN NATIONAL STANDARDS INSTITUTE. Guidelines for the Construction, format and management of monolingual thesauri. Bethesda, USA: American National Standards Institute, 2003. (ANSI Z39.19-2003). Disponvel em: <http://www.niso.org/standards/index.html>. Acesso em: 30 ago. 2005. BARDIN, L. L analyse du contenu. 7me. Paris: PUF, 2003. 296 p. (Le Psychologue, 69). INSTITUTO BRASILEIRO DE INFORMAO EM CINCIA E TECNOLOGIA - IBCT. Biblioteca Digital de Teses e Dissertaes. Disponvel em: <http://bdtd.ibict.br/>. Acesso em: 25 abr. 2007. BRANCHMAN, R. J; LEVESQUE, H. J. Knowledge representation and reasoning. San Francisco: Morgan Kaufmann, 2004. 381p.CABR, M. T. La terminologa: representacin y comunicacin. Barcelona: Institut Universitari de Lingstica Aplicada, 1999. 369 p. ______. La terminologia: teora, metodologa, aplicaciones. Traduccin castellana de Carles Teb. Barcelona: Editorial Antrtida/ Empries, 1993. 526 p. DING, Y.; FOO, S. A review of ontology generation. In: ONTOLOGY RESEARCH AND DEVELOPMENT. Parte 1. 2001. Disponvel em: <http://homepage.uibk.ac.at/~c703205/dowload/01jis01_final_revision.p df>. Acesso em: 13 mar. 2006. GUARINO, N. Formal ontology and information systems. In: FOIS98, 1998, Trento, Italy. Proceedings. Trento, Italy. Disponvel em: <http://www.loa-cnr.it/Papers/FOIS98.pdf>. Acesso em: 05 fev. 2007. GUARINO, N.; GIARETTA, P. Ontologies and knowledge bases: towards a terminological clarification. 1995. Disponel em: <http://www.loa- cnr.it/Papers/FOIS98.pdf>. Acess em: 12 jan. 2007. GRUBER, T. R. A translation approach to portable ontology specifications. Knowledge Acquisition, v. 5, n. 2, p.199-220, 1993a. Disponvel em: <http://tomgruber.org/writing/ontolingua-kaj-1993.pdf>. Acessado em: 07.fev.2007. ______. Toward principles for the design of ontologies used for knowledge sharing. 1993b. Disponvel em: <http://tomgruber.org/writing/onto- design.pdf>. Acesso em: 13 jan. 2007. Diferenas entre tesauros e ontologias Rodrigo de Sales; Lgia Caf
Perspectivas em Cincia da Informao, v.14, n.1, p.99-116, jan./abr. 2009 116 LISA: Library and Information Science Abstracts. Disponvel em <http://www.csa.com/factsheets/lisa-set-c.php>. Acesso em: 25.abr.2007. MOREIRA, A. Tesauros e ontologias: estudo de definies presentes na literatura das reas das Cincias da Computao e da Informao, utilizando-se o mtodo analtico-sinttico. Belo Horizonte, 2003. 150 f. Dissertao (Mestrado em Cincia da Informao) - Escola de Cincia da Informao, Universidade Federal de Minas Gerais, 2003. Disponvel em <http://opus.grude.ufmg.br/opus/opusanexos.nsf/4d078acf4b397b3f8325 6e86004d9d55/915f0db8ceb5bb3583256fb0006a1d5e/$FILE/mestrado%2 0-%20Alexandra%20Moreira.pdf>. Acesso em: 16 abr. 2006. NOY, N. F.; McGUINNESS, D. L. Desarrollo de ontologas - 101: gua para crear tu primera ontologa. 2005. 29 p. Disponvel em <http://protege.stanford.edu/publications/ontology_development/ontolog y101-es.pdf>. Acesso em: 06 nov. 2007. SOWA, J. F. Building, sharing and merging ontologies. Tutorial. [S. 1. : s. n.], 1999. Disponvel em: <http://users.bestweb.net/~sowa/ontology/ontoshar.htm>. Acesso em: 16 jan. 007. WILSON Library literature and Information Science full text. Disponvel em <http://www.ovid.com/site/catalog/DataBase/203.jsp?top=2&mid=3&bott om=7&subsection=10>. Acesso em: 26 abr. 2007.