Professional Documents
Culture Documents
Resumo: Este artigo apresenta a utilizao da ferramenta PreText como tcnica auxiliar
a uma pesquisa sobre epistemologia da Informtica em Sade (IS), que visa inferir se a
IS se caracteriza como cincia, tecnologia, tecnocincia ou arte. O PreText tem por
objetivo realizar pr-processamento de textos, transformando-os em um formato
estruturado, usando a abordagem bag-of-words, e foi aplicado aos metadados de
437.289 resumos de artigos cientficos extrados da base PubMed Central. Os
resultados do processamento foram exportados para uma base de dados e relacionados a
um coleo de termos de um tesauro especializado em IS construdo pelos autores,
denominado EpistemIS, e aos metadados dos artigos para gerao de estatsticas. Tais
relaes possibilitaram compreender a epistemologia da IS, inferindo que esta uma
tecnocincia interdisciplinar que atua nos domnios das Cincias da Vida, Cincias da
Sade e Cuidado em Sade.
Abstract: This article presents the PreText tool as auxiliary technique to a research on
Health Informatics (HI) epistemology, which aim to understand, through text mining,
among other methods and techniques, if the HI is characterized as science, technology,
tecnoscience, or art. The PreText is used to execute texts preprocessing, transforming
these texts in structured format using a bag-of-words approach. It was applied in
437,289 abstracts of articles extracted from PubMed Central database. The results were
exported to a database and related to a terms collection from a specialized thesaurus in
Medical Informatics built by the authors, dubbed EpistemIS, and to the articles
metadata for statistics generation. These relations make possible a HIs epistemological
study, concluding that this is an interdisciplinary technoscience in Biological Sciences,
Health Sciences, and Health Care domains.
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Introduo
10
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Materiais e Mtodos
11
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Corpus de Anlise
Para o corpus de anlise foi selecionado um conjunto de 437.289 artigos cientficos,
provenientes da base de dados PubMed Central [13], disponvel no National Center
Biotechnology Information (NCBI), um portal da National Library of Medicine (NLM), do
perodo de 1997 e 2006. A pesquisa bibliogrfica que resultou no corpus foi realizada a partir
de uma estratgia de busca com 2.538 termos de Medical Subject Headings (MeSH) [14]
(Quadro 1), provenientes das categorias consideradas prximas ao tema IS, utilizando o
operador booleano OR, com objetivo de recuperar todo texto indexado por qualquer um
dos termos selecionados.
Quadro 1 Categorias MeSH utilizadas na pesquisa.
Um dos metadados dos artigos do corpus o resumo, ao qual foi aplicada a minerao
de textos usando a ferramenta PreText, que resultou nos ngramas de todos os termos
compostos por 1, 2 e 3 palavras dos resumos do corpus.
12
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Tesauro EpistemIS
Foi desenvolvido um tesauro especializado em IS, denominado EpistemIS, com base
no cabealho MeSH [14] transformado em tesauro MeSH [16] e integrado a conceitos e
definies da literatura em IS. O tesauro EpistemIS contm uma srie de atributos, entre os
quais a classificao de cada um dos termos do tesauro em cincia, tecnologia, tecnocincia
ou arte (Figura 3). Por ser baseado no MeSH, tesauro validado por especialistas da NLM, e
baseado em conceitos e definies provenientes da literatura especializada em IS, entende-se
que estes critrios por si s, j asseguram a validao do tesauro EpistemIS.
As principais obras utilizadas para a extrao de conceitos e definies da Informtica
em Sade foram o Handbook of Medical Informatics de Van Bemmel, publicada em 1999
[17] e o Biomedical Informatics: computer Applications in Health Care and Biomedicine
de Shortliffe & Cimino, publicada em 2006 [18].
Para a classificao dos termos do EpistemIS, tomamos como base definies de
cincia, tecnologia, tecnocincia ou arte, denominados Metaconceitos da Ao e do
Pensamento Humanos (MAPHs), baseadas em estudo epistemolgico apresentado na
dissertao de Colepcolo [10] (Figura 2):
13
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
14
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Alm disso, foi proposta uma nova medida denominado smooth, que ativada quando
o fator de ponderao igual a zero, ou seja, quando um termo aparece em todos os
documentos. Quando ativado, ele aumenta temporariamente em 10%; desse modo, o fator
no pode ser igual a zero. Maiores detalhes sobre as tcnicas de minerao utilizadas no
PreText podem ser encontradas na dissertao de mestrado de Matsubara [9].
Um dos problemas encontrados na minerao de textos a dimensionalidade dos
atributos de um corpus, ou seja, a relao entre o nmero de documentos da coleo, a
quantidade de termos que aparece no total da coleo e a quantidade de termos que aparece
em cada documento, que pode resultar numa matriz esparsa. Para resolver este problema, o
PreText utiliza 3 tcnicas de reduo da dimensionalidade dos atributos, que so: algoritmos
de Stemming, Lei de Zipf e os cortes de Luhn [7]. A Figura 4 mostra um exemplo de
parmetros e resultados obtidos com a execuo do PreText. Os arquivos resultantes da
minerao com PreText foram convertidos para formato de banco de dados relacional.
15
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Com a minerao dos resumos e importao dos seus respectivos ngramas e a criao
dos ngramas do tesauro EpistemIS foi possvel fazer a associao entre ngramas de resumos
e de termos EpistemIS para gerao de estatsticas sobre a epistemologia da IS (Figura 6),
utilizando-se ferramenta de banco de dados relacional, relacionando-se os ngramas do
tesauro aos ngramas do corpus.
Resultados
16
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
17
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Figura 9 Grficos que relacionam o corpus ao tesauro EpistemIS quanto aos aspectos arte,
cincia, tecnologia e tecnocincia (1).
Tambm so apresentados grficos evolutivos de artigos publicados por ano, pas e
tipo de publicao, e um grfico que relaciona o ano e o pas (Figura 10). Observase que o
perodo de publicao dos artigos do corpus vai de 1997 a 2006 e a evoluo anual das
publicaes contnua, exceto em 2006, possivelmente porque o corpus foi coletado no
incio de 2007, quando provavelmente boa parte dos artigos de 2006 ainda no haviam sido
inseridos na base PubMed. O idioma que mais contm publicaes da IS o ingls, em todos
os aspectos, sucedido pelo espanhol e portugus. Os EUA publicam 10 vezes mais que todos
os outros pases do ranking separadamente.
18
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
19
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
20
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Discusso
21
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
seu domnio, o que faz por meio da pesquisa cientfica e do desenvolvimento de tecnologias,
buscando analisar a efetividade de suas solues, usando mtodos e tcnicas de avaliao de
reas interdisciplinares.
Os principais objetos do domnio da Informtica em Sade so os dados, a
informao e o conhecimento em Cincias da Sade e da Vida. A problemtica concentra-se
no desenvolvimento de tecnologias e sistemas que contribuam com a gesto, aquisio,
armazenamento, organizao, recuperao e distribuio de dados, informao e
conhecimento em sade em qualquer suporte para o apoio tomada de deciso na
administrao, educao e cuidado em sade.
A nomenclatura que melhor se adequa para a rea, embora no utilizada, o termo
Informtica em BioSade, que d conta da aplicao da Informtica s Cincia da Vida ou
Biolgicas e s Cincias da Sade.
O fato de a Informtica em Sade basear-se em cincias interdisciplinares no nos
parece nenhum demrito, pois, na tentativa de construir uma cincia prpria, recriando
mtodos que j existem sob algum neologismo para parecer genuna. Enquanto os elementos
cientficos de outras cincias so suficientes para que a IS cumpra seu papel de desenvolver
tecnologias para o auxlio sade. Com esta preocupao a menos, a IS ganha agilidade no
cumprimento de sua funo tecnocientfica, beneficiando as Cincias da Sade e a sociedade.
O fato de a IS ser uma tecnocincia devido ao seu alto desenvolvimento tecnolgico
fundamentado em cincias interdisciplinares tambm no a torna menos benfica ou
essencial. Ao contrrio, amplia seu valor para a sociedade. Alm disso, uma tecnologia est
sempre embasada por uma cincia, e tanto melhor se os fundamentos cientficos da
tecnologia presente na IS sejam provenientes de outras cincias j consolidadas. Afinal, a IS
como rea do conhecimento est apenas nascendo, ento a sua interdisciplinaridade cientfica
o que d sustentao ao seu desenvolvimento tecnolgico, que herda das cincias de
origem o rigor e a disciplina do mtodo.
Concluso
Com base nos resultados, conclumos que a IS uma tecnocincia interdisciplinar que
se ocupa da soluo de problemas de um amplo leque de domnios e fatos das Cincias da
Vida e da Sade e da prtica do Cuidado em Sade, por meio da pesquisa cientfica
proveniente de outras reas do conhecimento e do desenvolvimento de suas prprias
tecnologias para uso na sociedade.
22
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
Referncias
23
Uso da ferramenta PreText para minerao de textos extrados do NCBI para estudo epistemolgico da
Informtica em Sade
13. NIH. PubMed Central: a free archive of life sciences journal. ltima atualizao: 16 apr.
2007. Disponvel em: <http://www.pubmedcentral.nih.gov>. Acesso em: 29 out. 2007.
14. NLM. MeSH: Medical Subject Headings. Washington: NLM, 2007. Disponvel em:
<http://www.nlm.nih.gov/mesh/meshhome.html>. Acesso em: 3 out. 2007.
95. NLM/NIH/NBCI. Entrez Programming Utilities. ltima atualizao: 10 de agosto de
2006. Disponvel em: http://eutils.ncbi.nlm.nih.gov/ entrez/query/static/eutils_help.html.
Acesso em: 6 de agosto de 2009.
16. COLEPCOLO, E; HOLANDA, AJ; RUIZ, EES; WAINER, J; PISA, IT. MESH: de
cabealho de assunto a tesauro. In: Congresso Brasileiro de Informtica em Sade, 10,
2006, Florianpolis/SC. Disponvel em: <http://www.sbis.org.br/cbis/arquivos/994.pdf>.
Acesso em: 6 de agosto de 2009.
17. VAN BEMMEL, J.H. (Ed.). Handbook of Medical Informatics. Rotterdam: Erasmus
University, 1999. ltima atualiao: 25 mar. 1999. Disponvel em: <http://www.
mieur.nl/mihandbook/r_3_3/ handbook/home.htm>. Acesso em: 29 out. 2007.
18. SHORTLIFFE, E.H.; CIMINO, J.J. Biomedical Informatics: computer Applications in
Health Care and Biomedicine. 3.ed. New York: Springer, 2006.
19. BUNGE, M. La investigacin cientfica. Barcelona, Ariel, 1969.
20. BUNGE, M. Cincia e desenvolvimento. Belo Horizonte/So Paulo: Itatiaia/EDUSP,
1980. 135 p.
24