Uso Da Ferramenta PreText para Mineração de Textos 2009

Uso da ferramenta PreText para minerao de textos
extrados do NCBI para estudo epistemolgico da Informtica

em Sade
Eliane Colepcolo1
Edson Takashi Matsubara2
Alex Esteves Jaccoud Falco1
Ivan Torres Pisa1
Resumo: Este artigo apresenta a utilizao da ferramenta PreText como tcnica auxiliar
a uma pesquisa sobre epistemologia da Informtica em Sade (IS), que visa inferir se a
IS se caracteriza como cincia, tecnologia, tecnocincia ou arte. O PreText tem por
objetivo realizar pr-processamento de textos, transformando-os em um formato
estruturado, usando a abordagem bag-of-words, e foi aplicado aos metadados de
437.289 resumos de artigos cientficos extrados da base PubMed Central. Os
resultados do processamento foram exportados para uma base de dados e relacionados a
um coleo de termos de um tesauro especializado em IS construdo pelos autores,
denominado EpistemIS, e aos metadados dos artigos para gerao de estatsticas. Tais
relaes possibilitaram compreender a epistemologia da IS, inferindo que esta uma
tecnocincia interdisciplinar que atua nos domnios das Cincias da Vida, Cincias da
Sade e Cuidado em Sade.
Abstract: This article presents the PreText tool as auxiliary technique to a research on
Health Informatics (HI) epistemology, which aim to understand, through text mining,
among other methods and techniques, if the HI is characterized as science, technology,
tecnoscience, or art. The PreText is used to execute texts preprocessing, transforming
these texts in structured format using a bag-of-words approach. It was applied in
437,289 abstracts of articles extracted from PubMed Central database. The results were
exported to a database and related to a terms collection from a specialized thesaurus in
Medical Informatics built by the authors, dubbed EpistemIS, and to the articles
metadata for statistics generation. These relations make possible a HIs epistemological
study, concluding that this is an interdisciplinary technoscience in Biological Sciences,
Health Sciences, and Health Care domains.
1 DIS/UNIFESP. Rua Botucatu, 864 Vila Clementino - So Paulo/SP - Brasil

{colepicolo-pg@dis.epm.br; falcao-pg@dis.epm.br,ivan.pisa@unifesp.br}
2 ICMC/USP. Av Carlos Botelho Cid. Universitria - So Carlos/SP - Brasil
{edsontm@icmc.usp.br}
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Introduo
A Inteligncia Artificial (IA), como subrea da Cincia da Computao, vem sendo

largamente utilizada em uma srie de aplicaes cientficas, tecnolgicas, industriais e at
mesmo no comrcio e servios. A IA pode ser definida como a cincia e engenharia de
construo de mquinas inteligentes, e em particular, de programas de computadores
inteligentes [1]. Podemos dizer que normalmente um computador programado para emular
um tipo de inteligncia, e no muitos, pois um programa de IA desenvolvido ad hoc, ou
seja, para resolver problemas especficos de um domnio tambm especfico [2]. Para a IA,
no existem problemas, nem solues tpicas, mas existem tcnicas que permitem definir o
tipo de sistema que se deseja desenvolver. Um dessas tcnicas o Processamento de
Linguagem Natural (PLN), cujo principal objetivo transformar a linguagem natural em
linguagem artificial.
A linguagem definida [3] como a faculdade natural de usar uma lngua, ao passo
que a lngua constitui algo adquirido e convencional, um sistema de signos distintos
correspondentes a idias distintas. A linguagem artificial surge como uma forma de
transformar a linguagem natural legvel por computador, o qual est vinculado Lingstica
Computacional. O PLN tem por objetivo desenvolver uma teoria computacional da
linguagem, usando notaes de algoritmos, estruturas de dados e tcnicas da Cincia da
Computao [4].
Neste artigo utilizamos a minerao de textos, que utiliza recursos de PLN e lida com
a extrao de conhecimento e informao em bases textuais [5]. H vrios tipos de
minerao de textos, entre eles: sumarizao, para resumo de artigos; clustering, para
agrupamentos de documentos; classificao de ou associao entre dados, informao,
conhecimento e documentos. Para que ocorra a minerao de textos, h uma etapa de
recuperao de informao, que envolve a coleta dos textos a serem minerados, cujo
conjunto denominado corpus. A busca estratgica para construo deste corpus pode
envolver o uso de operadores lgicos e de proximidade, mas torna-se mais eficaz se baseada
em tesauros [6], que podem ser definidos como vocabulrios controlados que representam
hierarquias, relaes de equivalncia, pertinncia e associaes entre os termos. Existem
muitos softwares para minerao de textos disponveis no mercado, entre eles, o PreText,
ferramenta desenvolvida pelo pesquisador Edson T. Matsubara, no Laboratrio de
Inteligncia Computacional (LABIC), do Instituto de Cincias Matemticas e Computao
da Universidade de So Paulo [7]. O PreText vem sendo utilizado em outros trabalhos
cientficos como ferramenta para minerao de textos, tais como os desenvolvidos por
Martins [8] e por Matsubara [9].
Neste trabalho, a minerao de textos com PreText foi utilizada como tcnica auxiliar
a uma pesquisa que resultou em uma dissertao de mestrado [10] sobre a epistemologia da
Informtica em Sade (IS). A epistemologia o ramo da filosofia da cincia que trata da
cientificidade de uma rea do conhecimento, a cincia da cincia [11]. Assim, a pesquisa
10
RITA Volume XVI Nmero 1 2009
Informtica em Sade
teve como objetivo compreender se IS se comporta como cincia, tecnologia, tecnocincia

ou arte, utilizando um conjunto de mtodos integrados. O objetivo da minerao com
PreText na pesquisa foi identificar em um corpus de artigos cientficos associados a um
tesauro especializado em IS os termos pertinentes rea de IS, cujos resultados
possibilitaram inferncias sobre a epistemologia da IS. Este artigo apresenta descrio sobre
o uso do PreText e os resultados obtidos na pesquisa.
Materiais e Mtodos
Os materiais (Figura 1) envolvidos na minerao de textos da pesquisa sobre a

epistemologia da IS foram os seguintes: a) corpus de anlise de metadados de artigos
cientficos da rea no idioma ingls; b) ngramas1 de resumos destes artigos, aps a minerao
de textos; c) um tesauro especializado em IS, denominado EpistemIS, construdo por
Colepcolo, Falco e Pisa [10]. Os mtodos utilizados foram: 1) a minerao de resumos dos
artigos do corpus, usando PreText, que resultou no conjunto de ngramas dos termos dos
resumos; 2) a aplicao do algoritmo de Porter [12] ao conjunto de termos do tesauro, que
resultou no conjunto de ngramas dos termos do tesauro; 3) a elaborao de estatsticas
envolvendo os ngramas dos resumos, os ngramas do tesauro e os metadados dos artigos do
corpus, as quais permitiram inferncias sobre a epistemologia da IS.
Figura 1 Materiais e mtodos.
nGramas so seqncias de n termos ou radicais de termos (stems) consecutivos utilizados

em minerao de texto para encontrar termos coincidentes em conjuntos de dados diferentes.
11
Informtica em Sade
Corpus de Anlise
Para o corpus de anlise foi selecionado um conjunto de 437.289 artigos cientficos,
provenientes da base de dados PubMed Central [13], disponvel no National Center
Biotechnology Information (NCBI), um portal da National Library of Medicine (NLM), do
perodo de 1997 e 2006. A pesquisa bibliogrfica que resultou no corpus foi realizada a partir
de uma estratgia de busca com 2.538 termos de Medical Subject Headings (MeSH) [14]
(Quadro 1), provenientes das categorias consideradas prximas ao tema IS, utilizando o
operador booleano OR, com objetivo de recuperar todo texto indexado por qualquer um
dos termos selecionados.
Quadro 1 Categorias MeSH utilizadas na pesquisa.
A coleta do corpus envolveu a extrao de metadados dos artigos em XML e

converso destes para uma base de dados relacional, utilizando algoritmos e cdigos de
programao em linguagem PHP. A extrao dos metadados dos artigos foi feita por meio de
um utilitrio, chamado efetch, disponvel no site do NCBI, prprio para obteno de grandes
quantidades de registros de suas bases de dados [15]. O utilitrio (Quadro 2) consiste em
uma URL base a qual podem ser aplicados parmetros especficos para recuperao de
registros das bases NCBI, a partir de seus respectivos PMIDs, ou seja, os cdigos
identificados nicos de cada artigo no sistema. A seguir, os metadados foram exportados
para uma base de dados relacional.
Quadro 2 Utilitrio efetch do NCBI.
Um dos metadados dos artigos do corpus o resumo, ao qual foi aplicada a minerao
de textos usando a ferramenta PreText, que resultou nos ngramas de todos os termos
compostos por 1, 2 e 3 palavras dos resumos do corpus.
12
Informtica em Sade
Tesauro EpistemIS
Foi desenvolvido um tesauro especializado em IS, denominado EpistemIS, com base
no cabealho MeSH [14] transformado em tesauro MeSH [16] e integrado a conceitos e
definies da literatura em IS. O tesauro EpistemIS contm uma srie de atributos, entre os
quais a classificao de cada um dos termos do tesauro em cincia, tecnologia, tecnocincia
ou arte (Figura 3). Por ser baseado no MeSH, tesauro validado por especialistas da NLM, e
baseado em conceitos e definies provenientes da literatura especializada em IS, entende-se
que estes critrios por si s, j asseguram a validao do tesauro EpistemIS.
As principais obras utilizadas para a extrao de conceitos e definies da Informtica
em Sade foram o Handbook of Medical Informatics de Van Bemmel, publicada em 1999
[17] e o Biomedical Informatics: computer Applications in Health Care and Biomedicine
de Shortliffe & Cimino, publicada em 2006 [18].
Para a classificao dos termos do EpistemIS, tomamos como base definies de
cincia, tecnologia, tecnocincia ou arte, denominados Metaconceitos da Ao e do
Pensamento Humanos (MAPHs), baseadas em estudo epistemolgico apresentado na
dissertao de Colepcolo [10] (Figura 2):
Figura 2 Definies dos MAPHs.

Tambm foram feiras classificaes dos conceitos de cada termo do tesauro
EpistemIS quanto base conceitual, tipo conceitual, funo e objetivo conceituais e quanto
ao tipo de conceitos tericos, com base no referencial terico de Mrio Bunge [19, 20].
13
Informtica em Sade
Figura 3 Tela do programa de consulta ao tesauro EpistemIS.

A associao entre o corpus e o tesauro EpistemIS foi feita por meio de ngramas que
possibilitaram identificar termos coincidentes entre os ngramas dos resumos e os ngramas
dos termos do tesauro. Com o corpus e o tesauro EpistemIS disponveis, foi possvel iniciar o
processo de minerao de textos usando o software PreTexT.
Minerao de Textos com PreText
O PreTexT uma ferramenta computacional para minerao de textos desenvolvida
na linguagem de programao Perl, que tem por objetivo realizar pr-processamento de
textos, transformando estes textos em um formato estruturado legvel por algoritmos de
Aprendizado de Mquina, entre outras aplicaes. Este pr-processamento baseia-se na
abordagem bag-of-words, que transforma dados em um formato no estruturado para um
formato estruturado, usando o recurso de tabela atributo-valor, na qual cada documento
representado como um vetor das palavras que ocorrem no documento ou como frases ou
sentenas [7, 9].
No caso do PreText, foi proposta uma nova mtrica para avaliar a relevncia de um
termo dentro de um documento, semelhante tfidf, denominada term frequency linear
(tflinear) [7, 9], baseada na mtrica term frequency inverse document frequency. Na
tflinear, o fator de ponderao linear e no logartmico, variando entre 0 e 1, ou seja:
tflinear (t,d) = freq (t,d) * linear (t),
sendo que linear (t) = 1 d(t) / N, na qual a varivel N
representa o nmero de documentos da coleo.
14
Informtica em Sade
Alm disso, foi proposta uma nova medida denominado smooth, que ativada quando
o fator de ponderao igual a zero, ou seja, quando um termo aparece em todos os
documentos. Quando ativado, ele aumenta temporariamente em 10%; desse modo, o fator
no pode ser igual a zero. Maiores detalhes sobre as tcnicas de minerao utilizadas no
PreText podem ser encontradas na dissertao de mestrado de Matsubara [9].
Um dos problemas encontrados na minerao de textos a dimensionalidade dos
atributos de um corpus, ou seja, a relao entre o nmero de documentos da coleo, a
quantidade de termos que aparece no total da coleo e a quantidade de termos que aparece
em cada documento, que pode resultar numa matriz esparsa. Para resolver este problema, o
PreText utiliza 3 tcnicas de reduo da dimensionalidade dos atributos, que so: algoritmos
de Stemming, Lei de Zipf e os cortes de Luhn [7]. A Figura 4 mostra um exemplo de
parmetros e resultados obtidos com a execuo do PreText. Os arquivos resultantes da
minerao com PreText foram convertidos para formato de banco de dados relacional.
Figura 4 Parmetros e resultados da execuo do PreText.

Aplicao do Algoritmo de Porter ao Tesauro EpistemIS
Para tornar possvel a associao entre os termos do tesauro EpistemIS e os termos
obtidos dos resumos dos artigos do corpus foi aplicado o algoritmo de Porter [12] sobre os
termos do tesauro EpistemIS, transformando-os em ngramas no padro PreText (Figura 5).
Este algoritmo costuma ser utilizado para termos em ingls, como o caso dos termos do
tesauro e do corpus utilizados neste trabalho.
Figura 5 Exemplos de ngramas de conceitos do tesauro EpistemIS.
15
Informtica em Sade
Com a minerao dos resumos e importao dos seus respectivos ngramas e a criao
dos ngramas do tesauro EpistemIS foi possvel fazer a associao entre ngramas de resumos
e de termos EpistemIS para gerao de estatsticas sobre a epistemologia da IS (Figura 6),
utilizando-se ferramenta de banco de dados relacional, relacionando-se os ngramas do
tesauro aos ngramas do corpus.
Figura 6 - Relacionamento entre objetos da base de dados para Estatsticas
Resultados
O uso dos mtodos de minerao de resumos do corpus e aplicao do algoritmo de

Porter ao tesauro EpistemIS resultou em um grande conjunto de dados armazenados em
banco de dados relacional que foram relacionados, agrupados e classificados, resultando em
uma srie de estatsticas. Apenas resultados mais relevantes para analisar a epistemologia da
Informtica em Sade so apresentados neste artigo, especialmente quanto classificao
dos conceitos do tesauro em arte, cincia, tecnologia ou tecnocincia.
Os grficos de evoluo da base conceitual (Figura 7) e do objetivo conceitual (Figura
8) dos termos do tesauro EpistemIS em relao aos aspectos arte, cincia, tecnologia e
tecnocincia mostram que a IS utiliza a pesquisa cientfica e o desenvolvimento tecnolgico
interdisciplinares para gerar solues de aplicao prprias para fins prticos. A partir destas
solues, a rea cria seu prprio corpo de conhecimento, mas com objetivos utilitrios.
A base especfica ou interdisciplinar da IS cientfica (Figura 7, grfico 1), enquanto
seu corpo de conhecimento tecnocientfico (Figura 7, grfico 2). Os objetos e fatos de
domnio da rea so tecnolgicos e cientficos (Figura 7, grficos 1 e 3) e a sua problemtica
tecnolgica (Figura 7, grfico 3). Os conceitos cientficos da IS tm objetivo metalgico,
bsico e interpretativo (Figura 8, grfico 1), mostrando o carter interdisciplinar e
normalizado da rea, enquanto os conceitos tecnolgicos (Figura 8, grfico 3) e artsticos
(Figura 8, grfico 4) tm objetivo bsico e descritivo. Nota-se que h preocupao da
comunidade cientfica em IS em definir suas tecnologias e os passos envolvidos no
desenvolvimento de sistemas e das interfaces dos sistemas desenvolvidos. Os conceitos
tecnocientficos (Figura 8, grfico 3) tm objetivo bsico, mostrando a capacidade da IS em
solucionar problemas das Cincias da Sade e Cuidado em Sade na sociedade.
16
Informtica em Sade
Figura 7 Medies da Base conceitual da IS por tipo de conceito: 1) cientficos;

2) tecnocientficos; 3) tecnolgicos; 4) artsticos.
Figura 8 Medies do objetivo conceitual da IS por tipo de conceito: 1) cientficos; 2)

tecnocientficos; 3) tecnolgicos; 4) artsticos.
17
Informtica em Sade
Do cruzamento entre metadados de artigos do corpus, ngramas dos resumos e

ngramas do tesauro EpistemIS obtivemos grficos de artigos publicados por autor individual,
autor coletivo, peridico, idioma, banco de dados gentico e substncias qumicas (Figura 9)
associados aos aspectos cincia, tecnologia, tecnocincia e arte. Por exemplo, o total de
autores individuais que publicam artigos com nfase cientfica de 2.292.569. Os artigos
associados a bancos de dados genticos so na maioria de carter cientfico e tecnolgico, o
que refora a tendncia da IS em se aliar Biologia e Cincias Biomdicas para transformarse em Informtica Biomdica. Notamos nestes grficos um padro no qual prevalece o
aspecto cientfico, seguido pelo tecnolgico e tecnocientfico, sendo o artstico quase
insignificante, o que mostra que na prtica a IS publica mais cincia e tecnologia.
Figura 9 Grficos que relacionam o corpus ao tesauro EpistemIS quanto aos aspectos arte,
cincia, tecnologia e tecnocincia (1).
Tambm so apresentados grficos evolutivos de artigos publicados por ano, pas e
tipo de publicao, e um grfico que relaciona o ano e o pas (Figura 10). Observase que o
perodo de publicao dos artigos do corpus vai de 1997 a 2006 e a evoluo anual das
publicaes contnua, exceto em 2006, possivelmente porque o corpus foi coletado no
incio de 2007, quando provavelmente boa parte dos artigos de 2006 ainda no haviam sido
inseridos na base PubMed. O idioma que mais contm publicaes da IS o ingls, em todos
os aspectos, sucedido pelo espanhol e portugus. Os EUA publicam 10 vezes mais que todos
os outros pases do ranking separadamente.
18
Informtica em Sade
Figura 10 Grficos que relacionam o corpus ao tesauro EpistemIS quanto aos

aspectos arte, cincia, tecnologia e tecnocincia (2).
19
Informtica em Sade
Um ranking de autores individuais (Tabela 1) que mais publicam em IS mostrou que a

maioria dos autores membro do Channing Laboratory, diviso de pesquisa multidisciplinar
do Brigham and Women's Hospital e da Harvard Medical School, do EMGO Institute, VU
University Medical Center Amsterdam e do Department of Ophthalmology and Visual
Sciences da University of Wisconsin-Madison, USA.
Tabela 1 Ranking de autores individuais que mais publicam em IS.
O ranking de autores coletivos (Tabela 2) mostrou que h muitos projetos integrados

entre institutos de ensino e pesquisa e instituies em sade, com nfase em Sade Pblica,
no cuidado em sade e no controle e preveno de doenas, ressaltando o aspecto
tecnocientfico interdisciplinar da IS. H ainda muitos grupos de pesquisa/trabalho,
respectivamente, das reas de Controle e Preveno de Doenas (1.519), Cincias da Sade e
Farmacuticas (241), Oncologia (107), Cardiologia (103), Sade Materno-Infantil (100) e
Cuidado em Sade (93). H uma tendncia de autores coletivos atuarem na IS Pblica.
Tabela 2 Ranking de autores coletivos que mais publicam em IS.
O peridico que mais publica na rea (Tabela 3) o The Journal of Biological

Chemistry (10.399), especializado em Bioqumica. Outras reas representativas no ranking
so: Microbiologia (18.294), Controle e Preveno de Doenas (12.904), a prpria
Informtica em Sade (9.532), Neurocincias (8.376), Radiologia (5.944) e especialidades
20
Informtica em Sade
mdicas, tais como Oncologia (9.384), Cardiologia (7.964), Pediatria (6.611),

Endocrinologia (4.729). Na maioria dos peridicos prevalece o aspecto cientfico, com
tendncia para a Bioinformtica. Os peridicos especializados em IS mais representativos
so o Bioinformatics (Oxford, England) e o BMC Bioinformatics.
Tabela 3 Ranking de peridicos que mais publicam em IS.
Discusso
Pensava-se inicialmente que a IS fosse uma cincia aplicada interdisciplinar,

embasada no mtodo cientfico, que utiliza um corpo de conhecimento de outras disciplinas,
tais como as Cincias da Sade e a Computao. Aps este trabalho, entende-se que a IS
uma cincia aplicada interdisciplinar, o que preferiu-se denominar tecnocincia, a qual se
ocupa da soluo de problemas de um amplo leque de domnios e fatos das Cincias da
Sade e da Vida e da prtica do Cuidado em Sade, por meio da pesquisa cientfica
interdisciplinar e do desenvolvimento de tecnologias prprias para uso na sociedade.
A cincia contida na Informtica em Sade proveniente de sua base interdisciplinar
e o seu corpo de conhecimento composto por objetos e fatos de domnio tecnolgico. A sua
problemtica concentra-se na resoluo de problemas das Cincias da Sade e da Vida,
portanto, tecnocientfica.
Seu aspecto de cincia/tecnologia aplicada pauta-se em um conjunto de padres,
modelos, regras, normas e convenes que norteiam sua pesquisa e desenvolvimento. H
esforo da rea em consolidar-se como cincia independente, mas fortemente composta por
conceitos interdisciplinares provenientes de outras cincias. O conjunto dos conceitos
cientficos da rea que tm funo na formao de suas teorias pequeno, sendo a maioria de
origem interdisciplinar. Seu aspecto artstico mnimo e tambm interdisciplinar.
A IS apresenta desenvolvimento de seu prprio corpo de conhecimento, com nfase
tecnocientfica, tendo quantidade significativa de objetos e fatos de domnio que no lhe so
prprios, mas que so foco da sua problemtica. A rea se ocupa em resolver problemas do
21
Informtica em Sade
seu domnio, o que faz por meio da pesquisa cientfica e do desenvolvimento de tecnologias,
buscando analisar a efetividade de suas solues, usando mtodos e tcnicas de avaliao de
reas interdisciplinares.
Os principais objetos do domnio da Informtica em Sade so os dados, a
informao e o conhecimento em Cincias da Sade e da Vida. A problemtica concentra-se
no desenvolvimento de tecnologias e sistemas que contribuam com a gesto, aquisio,
armazenamento, organizao, recuperao e distribuio de dados, informao e
conhecimento em sade em qualquer suporte para o apoio tomada de deciso na
administrao, educao e cuidado em sade.
A nomenclatura que melhor se adequa para a rea, embora no utilizada, o termo
Informtica em BioSade, que d conta da aplicao da Informtica s Cincia da Vida ou
Biolgicas e s Cincias da Sade.
O fato de a Informtica em Sade basear-se em cincias interdisciplinares no nos
parece nenhum demrito, pois, na tentativa de construir uma cincia prpria, recriando
mtodos que j existem sob algum neologismo para parecer genuna. Enquanto os elementos
cientficos de outras cincias so suficientes para que a IS cumpra seu papel de desenvolver
tecnologias para o auxlio sade. Com esta preocupao a menos, a IS ganha agilidade no
cumprimento de sua funo tecnocientfica, beneficiando as Cincias da Sade e a sociedade.
O fato de a IS ser uma tecnocincia devido ao seu alto desenvolvimento tecnolgico
fundamentado em cincias interdisciplinares tambm no a torna menos benfica ou
essencial. Ao contrrio, amplia seu valor para a sociedade. Alm disso, uma tecnologia est
sempre embasada por uma cincia, e tanto melhor se os fundamentos cientficos da
tecnologia presente na IS sejam provenientes de outras cincias j consolidadas. Afinal, a IS
como rea do conhecimento est apenas nascendo, ento a sua interdisciplinaridade cientfica
o que d sustentao ao seu desenvolvimento tecnolgico, que herda das cincias de
origem o rigor e a disciplina do mtodo.
Concluso
Com base nos resultados, conclumos que a IS uma tecnocincia interdisciplinar que
se ocupa da soluo de problemas de um amplo leque de domnios e fatos das Cincias da
Vida e da Sade e da prtica do Cuidado em Sade, por meio da pesquisa cientfica
proveniente de outras reas do conhecimento e do desenvolvimento de suas prprias
tecnologias para uso na sociedade.
22
Informtica em Sade
Referncias
1. MCCARTHY, J. What is artificial intelligence?. [s.n.]: Stanford University.Computer

Science
Department,
nov./2004.
Disponvel
em:
<http://wwwformal.stanford.edu/jmc/whatisai/ whatisai.html>. Acesso em: 03 de maro de 2007.
2. STERNBERG, RJ. The theory of successful intelligence. In: Interamerican Journal of
Psychology - 2005, Vol. 39, Num. 2 pp. 189-202
3. Saussure, F. Curso de lingstica geral. So Paulo : Cultrix, 1974.
4. ALLEN, J. Natural language understanding. 2.ed. Redwood City : Benjamin/Cummings,
1995.
5. VIEIRA, R. ; Lima, VLS. Lingustica computacional: princpios e aplicaes. Porto
Alegre
:
UNISINOS,
[s.d].
Disponvel
em:
<http://www.inf.unisinos.br/~renata/laboratorio/ publicacoes/jaia12-vf.pdf>. Acesso em:
03 de maro de 2007.
6. Ebecken, NF, Lopes, MCS, Costa, MCA. Minerao de textos. In: Sistemas inteligentes,
Org.: Solange de Oliveira Rezende, Barueri, SP: Manole, 2003. p. 337-370.
7. Matsubara, ET. PreText: an environment for pre-processing text for text mining. ltima
atualizao: 15/jun./2005. Disponvel em: http://www.icmc.usp.br/~edsontm/pretext/
pretext.html. Acesso em: 13 de dezembro de 2006.
8. MARTINS, Cludia A ; MONARD, M. C. ; MATSUBARA, E. T. . Uma metodologia
para auxiliar na seleo de atributos relevantes usados por algoritmos de aprendizado no
processo de minerao de textos. In: Conferencia Latinoamericana de Informatica, 2004,
Arequipa. 30ma Conferencia Latinoamericana de Informtica (CLEI2004). Peru :
Sociedad Peruana de Computacin, 2004. v. 1. p. 21-32.
9. MATSUBARA, ET. O algoritmo de aprendizado semi-supervisionado co-training e sua
aplicao na rotulao de documentos. Dissertao (mestrado) orientada por Maria
Carolina Monard no Instituto de Cincias Matemticas e de Computao (ICMC) da
Universidade
de
So
Paulo.
So
Carlos,
2004.
Disponvel
em:
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19082004-092311. Acesso em: 6
de agosto de 2009.
10. COLEPCOLO, E. Epistemologia da Informtica em Sade: entre a teoria e a prtica.
Dissertao (mestrado) orientada por Ivan Torres Pisa no Departamento de Informtica
em Sade da Universidade Federal de So Paulo. So Paulo, 2007.
11. BUNGE, M. Epistemologia: curso de atualizao. 2.ed. Trad. Claudio Navarra. So
Paulo: T.A.Queiroz, 1987. 246p. (Biblioteca de Cincias Naturais, v. 4)
12. PORTER, M. The Porter stemming algorithm. ltima atualizao: jan. 2006. Disponvel
em: <http://tartarus.org/~martin/PorterStemmer>. Acesso em: 21 out. 2007.
23
Informtica em Sade
13. NIH. PubMed Central: a free archive of life sciences journal. ltima atualizao: 16 apr.
2007. Disponvel em: <http://www.pubmedcentral.nih.gov>. Acesso em: 29 out. 2007.
14. NLM. MeSH: Medical Subject Headings. Washington: NLM, 2007. Disponvel em:
<http://www.nlm.nih.gov/mesh/meshhome.html>. Acesso em: 3 out. 2007.
95. NLM/NIH/NBCI. Entrez Programming Utilities. ltima atualizao: 10 de agosto de
2006. Disponvel em: http://eutils.ncbi.nlm.nih.gov/ entrez/query/static/eutils_help.html.
Acesso em: 6 de agosto de 2009.
16. COLEPCOLO, E; HOLANDA, AJ; RUIZ, EES; WAINER, J; PISA, IT. MESH: de
cabealho de assunto a tesauro. In: Congresso Brasileiro de Informtica em Sade, 10,
2006, Florianpolis/SC. Disponvel em: <http://www.sbis.org.br/cbis/arquivos/994.pdf>.
Acesso em: 6 de agosto de 2009.
17. VAN BEMMEL, J.H. (Ed.). Handbook of Medical Informatics. Rotterdam: Erasmus
University, 1999. ltima atualiao: 25 mar. 1999. Disponvel em: <http://www.
mieur.nl/mihandbook/r_3_3/ handbook/home.htm>. Acesso em: 29 out. 2007.
18. SHORTLIFFE, E.H.; CIMINO, J.J. Biomedical Informatics: computer Applications in
Health Care and Biomedicine. 3.ed. New York: Springer, 2006.
19. BUNGE, M. La investigacin cientfica. Barcelona, Ariel, 1969.
20. BUNGE, M. Cincia e desenvolvimento. Belo Horizonte/So Paulo: Itatiaia/EDUSP,
1980. 135 p.
24

Uso Da Ferramenta PreText para Mineração de Textos 2009

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Uso Da Ferramenta PreText para Mineração de Textos 2009

Uploaded by

Copyright:

Available Formats

Uso da ferramenta PreText para minerao de textos

extrados do NCBI para estudo epistemolgico da Informtica

1 DIS/UNIFESP. Rua Botucatu, 864 Vila Clementino - So Paulo/SP - Brasil

A Inteligncia Artificial (IA), como subrea da Cincia da Computao, vem sendo

RITA Volume XVI Nmero 1 2009

teve como objetivo compreender se IS se comporta como cincia, tecnologia, tecnocincia

Os materiais (Figura 1) envolvidos na minerao de textos da pesquisa sobre a

Figura 1 Materiais e mtodos.

nGramas so seqncias de n termos ou radicais de termos (stems) consecutivos utilizados

RITA Volume XVI Nmero 1 2009

A coleta do corpus envolveu a extrao de metadados dos artigos em XML e

RITA Volume XVI Nmero 1 2009

Figura 2 Definies dos MAPHs.

RITA Volume XVI Nmero 1 2009

Figura 3 Tela do programa de consulta ao tesauro EpistemIS.

RITA Volume XVI Nmero 1 2009

Figura 4 Parmetros e resultados da execuo do PreText.

Figura 5 Exemplos de ngramas de conceitos do tesauro EpistemIS.

RITA Volume XVI Nmero 1 2009

Figura 6 - Relacionamento entre objetos da base de dados para Estatsticas

O uso dos mtodos de minerao de resumos do corpus e aplicao do algoritmo de

RITA Volume XVI Nmero 1 2009

Figura 7 Medies da Base conceitual da IS por tipo de conceito: 1) cientficos;

Figura 8 Medies do objetivo conceitual da IS por tipo de conceito: 1) cientficos; 2)

RITA Volume XVI Nmero 1 2009

Do cruzamento entre metadados de artigos do corpus, ngramas dos resumos e

RITA Volume XVI Nmero 1 2009

Figura 10 Grficos que relacionam o corpus ao tesauro EpistemIS quanto aos

RITA Volume XVI Nmero 1 2009

Um ranking de autores individuais (Tabela 1) que mais publicam em IS mostrou que a

O ranking de autores coletivos (Tabela 2) mostrou que h muitos projetos integrados

O peridico que mais publica na rea (Tabela 3) o The Journal of Biological

RITA Volume XVI Nmero 1 2009

mdicas, tais como Oncologia (9.384), Cardiologia (7.964), Pediatria (6.611),

Pensava-se inicialmente que a IS fosse uma cincia aplicada interdisciplinar,

RITA Volume XVI Nmero 1 2009

RITA Volume XVI Nmero 1 2009

1. MCCARTHY, J. What is artificial intelligence?. [s.n.]: Stanford University.Computer

RITA Volume XVI Nmero 1 2009

RITA Volume XVI Nmero 1 2009

You might also like