Professional Documents
Culture Documents
Ingrid Oliveira de Nunes Drlinton Barbosa Feres Carvalho Carlos Jos Pereira de Lucena Departamento de Informtica
PONTIFCIA UNIVERSIDADE CATLICA DO RIO DE JANEIRO RUA MARQUS DE SO VICENTE, 225 - CEP 22451-900 RIO DE JANEIRO - BRASIL
Monograas em Cincia da Computao, No. 38/09 Editor: Prof. Carlos Jos Pereira de Lucena
Resumo.
volvimento que visa dar suporte ao atendimento pr-natal. Uma de suas funcionalidades apia o processo de referenciamento de gestantes de alto-risco atravs da indicao da unidade para a qual a gestante deve ser referanciada de acordo com sua complicao e localizao. Ambiciona-se fazer uso de casos histricos e algoritmos de aprendizado de Dessa forma, visa-se neste trabalho fazer um estudo mquina para tal funcionalidade.
exploratrio de algoritmos de aprendizado de mquina e ferramentas que possam ser incorporadas no SUAP para resolver o problema. Dado que o sistema ainda no possui um conjunto de dados representativo, foram utilizados
datasets
Concluiu-se que a ferramenta Weka apropriada para a incorporao ao SUAP, e pode ser facilmente parametrizada para a escolha do algoritmo que seja melhor adequado ao problema em questo.
Palavras-chave:
Abstract.
The Prenatal Care Unied System (SUAP) is a system under development One of its functionalities is to support the
referral process of high-risk pregnancy by the indication of which unit a pregnant must be referred to according to her complications and location. Our goal is to use historical cases and machine learning algorithms for such functionality. Thus, in this work we aim at making an exploratory study of machine learning algorithms and tools that may be incorporated in the SUAP to solve our problem. Given that the system does not have a representative dataset yet, we used datasets with similar characteristics. We concluded that the Weka tool is appropriate to be incorporated in the SUAP, and it can be easily parametrized to choose an algorithm that is more adequate to the target problem.
Keywords:
1
ferral Process.
do Brasil e FINEP.
ii
Contents
1 Introduo 1 2 Aprendizado no Sistema Unicado de Assistncia Pr-natal (SUAP) Referenciamento de Gestantes de Alto-risco 1
2.1 2.2 Denio do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3
Datasets
3.1 3.2
3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 5 6 6 6 7
Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
dataset
. . . . . . . . . . . . . . . . . . . . . . . . . . .
Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Metodologia
4.1 4.2 4.3 Algoritmos Congurao Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
8 8 9
9 11 11
iii
Introduo
O SUAP (Carvalho, Choren, Carvalho, Lucena, Condack & de S 2009, de Sa, Carvalho, Moraes, Stein, dos Santos, Carvalho & Lucena 2009) um sistema de software que faz parte do projeto de pesquisa AGENTESGRA nanciado pela Financiadora de Estudos e Projetos (FINEP), em desenvolvimento pelo Laboratrio de Engenharia de Software (LES) da PUC-Rio em associao com ginecologistas e obstetras do Hospital Universitrio Antnio Pedro (HUAP). Ele tem por objetivo apoiar a deciso mdica principalmente em problemas relacionados com a hipertenso na gravidez. Alm da informatizao do acompanhamento pr-natal que hoje feito essencialmente de forma manual o sistema oferece funcionalidades que apresentam um comportamento autnomo, pr-ativo e inteligente, e para isso faz uso das abstraes de agentes de software (Jennings 2001). Uma diferena entre a assistncia pr-natal e o atendimento de pacientes que no primeiro no existe doena a ser tratada, parte-se de uma gestante saudvel que deve ser acompanhada durante a gravidez para evitar possveis complicaes. Por exemplo, uma gestante que apresente edemas e presso alta potencialmente pode evoluir para um quadro de eclmpsia. Assim, identicada uma gravidez de risco, a gestante deve receber um tratamento adequado. O sistema de sade pblica brasileiro possui diversas unidades onde a gestante pode ser atendida. Esse atendimento ocorre inicialmente em unidades primrias, que possuem os recursos necessrios para fazer a realizao de um pr-natal de baixo risco. Caso uma situao de risco seja identicada, ela deve ser referenciada a uma unidade secundria que oferea mais condies para tratamento. As unidades diferenciamse pela localizao (por questes de distribuio das gestantes e importante tambm para as mesmas, visto que as gestantes de baixa renda no possuem recursos para deslocamento) e recursos (tanto materiais como humanos). Assim, de acordo com a situao da gestante, ela deve ser referenciada para uma unidade especca que seja mais adequada. Neste sentido, uma das funcionalidades do SUAP serve para apoiar a deciso no processo de referenciamento de gestantes. O sistema possui dados sobre as unidades de atendimento e casos histricos. Com base no (in)sucesso de casos histricos, nos quais gestantes foram referenciadas e devidamente tratadas, ele deve sugerir para qual unidade novos casos devem ser referenciados. Assim, neste artigo apresentamos uma soluo para o aprendizado de unidades de referenciamento de gestantes de alto-risco. Visto que SUAP ainda encontrase em fase de desenvolvimento e no existe um
corpus
escolheu-se um problema que seja anlogo ao que deve ser resolvido, para que a soluo possa ser posteriormente incorporada ao sistema. O restante deste artigo est organizado como segue. Na Seo 2, detalha-se o problema de referenciamento de gestantes de alto-risco. trabalho. A Seo 2.2 apresenta os objetivos deste A Seo 3 descreve os conjuntos de dados utilizados para o aprendizado de
mquina. A Seo 4 apresenta o algoritmo escolhido para a resoluo do problema, e os resultados so apresentados na Seo 5. O artigo concludo na Seo 6.
Uma gravidez de baixo risco pode ser acompanhada em unidades de sade que possuam recursos sucientes para coletar os seguintes dados: (i) peso, (ii) altura uterina, (iii) presso,
(iv) batimentos cardiofetais e (v) presena de edemas. cada consulta do atendimento pr-natal. gestao.
geralmente no desfrutam de recursos sucientes para lidar com complicaes durante a Quando no-conformidades so detectadas a partir desses dados, ou atravs de algum exame, e a gravidez classicada como de alto risco, e a gestante referenciada para unidades que possuam uma melhor infra-estrutura, em termos de equipamentos e recursos humanos. Esse referenciamento leva em considerao principalmente o local de residncia da gestante, a qual encaminhada para uma unidade secundria dentro do seu municpio. Por exemplo, a cidade de Niteri, localizada no estado do Rio de Janeiro, possui dois hospitais, entre eles o HUAP, que atende gestaes de alto risco. Entretanto, podem ocorrer situaes especiais a serem consideradas no referenciamento. Em primeiro lugar, considerando-se que existe mais de unidade secundria dentro de um mesmo municpio, desejvel se constatar qual das unidades mais apropriada para atender um certo tipo de complicao. Em segundo lugar, em alguns casos a gestante referenciada para uma unidade secundria, mas quando os mdicos desta unidade a avaliam, vericam que o caso pode ser atendido pela unidade primria e a gestante contra-referenciada. Assim, o ideal que nesses casos j se conheam as situaes que no precisam de referenciamento. Em terceiro lugar, existem certas complicaes que necessitam de recursos mais adequados. Um exemplo que na cidade do Rio de Janeiro existe um hospital que possui uma infra-estrutura para atender recm-nascidos que nascem com problemas. Dessa forma, mesmo que se tenha uma gestante de Niteri com uma complicao deste tipo, ela ser melhor atendida no Instituto Fernandes Figueira da cidade do Rio de Janeiro. Por m, existem casos em que a gestante reside nos limiares do municpio, ento talvez uma unidade secundria de um municpio vizinho seja mais vivel para ela. A Figura 1 ilustra uma viso cannica do problema de referenciamento de gestantes de alto-risco. Com base nos casos histricos do atendimento pr-natal, ambiciona-se generalizar as excees regra geral (localizao) relacionadas com as questes previamente mencionadas.
Figure 1: Viso Cannica do Problema de Referenciamento Na prxima seo, o problema de referenciamento descrito de forma mais precisa,
corpus
Entretanto, visto que o SUAP ainda est em fase de desenvolvimento e no h um para realizar o aprendizado de mquina, buscou-se problemas anlogos no UCI Ma-
chine Learning Repository, a m de se produzir uma soluo que possa ser posteriormente utilizada no SUAP.
2.2 Objetivos
O objetivo deste trabalho prover uma soluo para o problema de referenciamento de gestantes de alto risco do SUAP. Visto que ainda no existe um sero escolhidos
corpus
corpus
variveis numricas como categricas, tal qual o problema-alvo. Assim, visa-se a elaborao de um suporte para
datasets
framework
Datasets
datasets
do UCI Machine Learning Repository, ambos da rea de
sade, com os pr-requisitos estabelecidos (problema de classicao, com variveis numricas e categricas) para o desenvolvimento do mdio (1473) e outro grande (48842). Estes
framework
cionada. Um deles pequeno (90 instncias), para a realizao dos primeiros testes, um
datasets
3.1
Post-Operative Patient 2
(Pacientes em
Ps-operatrio) determinar para onde pacientes na rea de recuperao ps-operatria devem ser enviados a seguir. Visto que hipotermia uma preocupao signicante depois da cirurgia, os atributos correspondem s medidas da temperatura corporal. Informaes sobre o
dataset
so apresentadas na Tabela 1.
3.1.1 Atributos do
dataset
37),
mdia (
36
37),
baixa (<
36).
Disponvel em
http://archive.ics.uci.edu/ml/datasets/Post-Operative+Patient
Caractersticas do dataset : Nmero de instncias: Caractersticas dos atributos: Nmero de atributos: Tarefas associadas: Valores incompletos? rea:
Table 1: Informaes sobre o
36.5),
mdia
36.5 80
e
35),
baixa (<
35). 98),
boa (
90
< 98),
razovel
< 90),
fraca (<
80). 130/90),
mdia (
130/90
90/70),
baixa (<
90/70).
SURF-STBL (estabilidade da temperatura supercial do paciente): estvel, meioestvel, instvel. CORE-STBL (estabilidade da temperatura central do paciente): estvel, meio-estvel, instvel. BP-STBL (estabilidade da presso sangnea do paciente): instvel. COMFORT (percepo de conforto do paciente na baixa): medido como um inteiro entre estvel, meio-estvel,
20. I
(paciente enviado a Unidade de Trata-
(paciente enviado ao
dataset e atingiu um resultado de 48% de acurcia com a metodologia LERS (LEM2). dataset tambm foi utilizado em outros trabalhos (Owen 1999, Kontkanen, Lahtinen,
Myllymki & Tirri 2000), mas com alteraes. Por exemplo, em (Owen 1999) a varivel de deciso foi reduzida apenas a valores binrios, atravs de excluso das instncias com a classe menos freqente, no total 2 exemplos com a classe I, e das instncias com valores incompletos, tambm 2 exemplos. Neste caso, a taxa de acerto alcanada com o mtodo proposto foi de 62.8%, mas tambm foi reportado que utilizando uma regresso logstica global conseguiu-se 69.8% de acertos. O trabalho (Kontkanen et al. 2000) tambm utiliza este
dataset
3.2
O conjunto de dados
um subconjunto da Pesquisa Nacional da Prevalncia Contraceptiva da Indonsia de 1987. Os exemplos so mulheres casadas que no estavam grvidas ou no sabiam se estavam na poca da entrevista. O problema predizer o mtodo atual escolhido para contracepo (no uso, mtodo de longo-prazo, mtodo de curto-prazo) de uma mulher, baseado nas suas caractersticas demogrcas e scio-econmicas. Tabela 2. Informaes sobre o
dataset
so apresentadas na
Caractersticas do dataset : Nmero de instncias: Caractersticas dos atributos: Nmero de atributos: Tarefas associadas: Valores incompletos? rea:
Table 2: Informaes sobre o
3.2.1 Atributos do
3
dataset
Idade da esposa: numrico. Educao da esposa: categrico (1=baixa, 2, 3, 4=alta). Educao do esposo: categrico (1=baixa, 2, 3, 4=alta). Nmero de lhos j nascidos: numrico. Religio da esposa: binrio (0=No-islmica, 1=Islmica). Esposa est trabalhando? binrio (0=Sim, 1=No). Ocupao do esposo: categrico (1, 2, 3, 4). ndice do padro de vida: categrico (1=baixo, 2, 3, 4=alto). Exposio mdia: binria (0=Boa, 1=No boa). Mtodo contraceptivo utilizado (atributo classe): 1=No usa, 2=Longo prazo, 3=Curto prazo.
Disponvel em
http://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice
dataset
cao (Lim, Loh, Shih & Algorithms 1999). O melhor resultado obtido executando com validao cruzada de 10 alcanou taxa de acerto de 57%, e na mdia os algoritmos obtiveram 43%. Os melhores resultados reportados na literatura obtm acurcia de 69.79% tambm com validao cruzada de 10 (Ray & Page 2005).
3.3
Adult 4
excede $50.000/ano baseados nos dados do censo. O conjunto de dados tambm conhecido como Census Income (Receitas do Censo). Informaes sobre o na Tabela 3.
dataset
so apresentadas
Caractersticas do dataset : Nmero de instncias: Caractersticas dos atributos: Nmero de atributos: Tarefas associadas: Valores incompletos? rea:
3.3.1 Atributos do
Idade: contnuo.
dataset
Classe de Trabalho: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked. fnlwgt: contnuo. Educao: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assocvoc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. Educao-num: contnuo. Estado Civil: Married-civ-spouse, Divorced, Never-married, Separated, Widowed,
Married-spouse-absent, Married-AF-spouse. Ocupao: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Profspecialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-shing, Transportmoving, Priv-house-serv, Protective-serv, Armed-Forces.
Disponvel em
http://archive.ics.uci.edu/ml/datasets/Adult
Raa: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. Sexo: Feminino, Masculino. Capital-ganho: contnuo. Capital-perda: contnuo. Horas por semana: contnuo. Pas Nativo: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
dataset
(84.46+-0.30), Naive-Bayes (83.88+-0.30) e NBTree (85.90+-0.28). A variao nos resultados obtidos correspondem execuo dos algoritmos com a remoo de instncias com valores desconhecidos. Entretanto, em (Caruana & Niculescu-Mizil 2004), foi reportado o resultado de 90.74% com Boosted stumps (BST-STMP).
Metodologia
datasets
escolhidos, ao in-
vs de implementar os algoritmos desde o princpio, optou-se por fazer o uso do aplicativo Weka . Este software uma coleo de algoritmos de aprendizado de mquina para tarefas de minerao de dados. Os algoritmos podem tanto ser aplicados diretamente a um conjunto de dados (
cdigo Java. O Weka contm ferramentas para o pre-processamento de dados, classicao, regresso, clusterizao, regras de associao e visualizao. Ele tambm apropriado para o desenvolvimento de novos esquemas de aprendizado de mquina. O principal motivo para a escolha deste software o fato dele ser implementado em Java, alm dele prover boas implementaes dos algoritmos de aprendizado. Como o SUAP tambm implementado nesta linguagem de programao, o Weka pode ser integrado ao sistema. O Weka possui uma interface grca que permite carregar um conjunto de dados, mostrar estatsticas a respeito dos mesmo, escolher e congurar o algoritmo a ser utilizado, e, obviamente, executar o mtodo escolhido. Diversos formatos de arquivos para entrada de dados podem ser utilizados. O formato utilizado foi o
arff,
permite uma descrio dos dados atravs de anotaes no incio do arquivo, e logo a seguir os exemplos so listados um por linha com os atributos separados por vrgula.
http://www.cs.waikato.ac.nz/ml/weka/
4.1 Algoritmos
A escolha dos algoritmos utilizados como estudo de caso neste trabalho foi realizada de modo a exercitar as principais tcnicas relacionadas com a tarefa de classicao. por no terem obtido resultados signicativos. desempenho foi utilizado o modelo utilizados so descritos a seguir. A tcnica de tao por Vale dizer que foram avaliados outras mtodos disponveis no Weka, mas no so reportados Para se determinar um nvel inferior de Os outros algoritmos
0-R,
Shevade, Bhattacharyya & Murthy 2001) para treinamento de um classicador por vetores de suporte. Esta implementao normaliza os dados da instncia, ajusta valores ausentes e transforma atributos nominais em binrios. Problemas multi-classes, como os que so considerados neste trabalho, so resolvidos usando classicao Tibshirani 1998). Foram avaliadas diversas funes de
kernel
pairwise
(Hastie &
Multilayer Perceptron.
Modelos neuronais foram avaliados atravs de um classicador com retroalimentao, o A rede de neurnios foi construda automaticamente, com os valores
0.3,
o momentum
rede so todos do tipo sigmide. Para comparar com outras estratgias de aprendizado de mquina, tambm foram utilizadas tcnicas baseadas em rvore de deciso e classicadores bayesianos. Os algoritmos escolhidos foram um classicador
nave bayes (John & Langley 1995) e uma implementao do minimal cost-complexity pruning (Breiman, Friedman, Stone & Olshen 1984) para criar
uma rvore de classicao (C&RT).
4.2 Congurao
A congurao de execuo dos algoritmos apresentada atravs dos esquemas utilizados no Weka.
0-R: weka.classifiers.rules.ZeroR. SMO1 : weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 250007 -E 1.0". SMO2 : weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.RBFKernel -C 250007 -G 0.01". SMO3 : weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 0 -M -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 250007 -E 2.0". Multilayer Perceptron: weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a.
8
4.3 Avaliao
Para avaliar os experimentos deste trabalho, utilizamos a tcnica de 1993).
Cross-validation
cross-validation (Geisser
tatstica vo ser generalizados para um conjunto de dados independente. Ela principalmente usada em conguraes onde o objetivo a predio, e algum deseja estimar o quo correto um modelo preditivo ir ser executado na prtica. Uma rodada do
cross-validation
envolve o particionamento de uma amostra de dados em subconjuntos complementares, executando a anlise de um subconjunto (chamado de conjunto de treinamento), e validando a anlise em outro subconjunto (chamado de conjunto de validao ou teste). Para reduzir a variabilidade, mltiplas rodadas do trabalho, utilizou-se 10-fold
cross-validation
cross-validation.
datasets
deste
Resultados
datasets
utilizados foram apresentados na
Nesta seo, so apresentados os resultados obtidos atravs da execuo dos algoritmos conforme metodologia descrita na Seo 4. Os Seo 3. Na Tabela 4 esto a acurcia obtida pelos algoritmos na resoluo dos que servem como estudo de caso neste trabalho. Para o mtodo lado do resultado corresponde a congurao utilizada.
SMO
datasets
reportado o melhor
Algoritmo
0-R SMO Multilayer Perceptron Nave Bayes C&RT Melhor da literatura
Post-operative1 Post-operative2 Contraceptive Method 71.1111% 72.093% 42.702% 71.1111%2 72.093%2 50.4413%3
58.8889% 55.814% 52.3422% 67.7778%
Adult
75.919% 84.9022%1 82.8936%
72.093%
70.9302% 69.8%
50.7807%
83.428%
71.1%
70%
55.1935%
69.76%
86.1091%
90.74%
reduzida com apenas 86 instncias, em que foram removidos dois exemplos com valores incompletos e dois exemplos da classe I ,e por isso possui apenas duas classes para classicao. Os resultados obtidos neste
dataset
H um grande vis nos exemplos deste dataset, sendo que a moda de uma das classes aproximadamente 70%, e parece no haver diferena signicativa nos atributos que possibilite aos algoritmos estudados construir um modelo melhor para identicar outras classes. Na verso original,
Post-operative1 ,
assim, os resultados obtidos so bem superiores aos que encontramos no primeiro trabalho para este problema (48%). Acredita-se que isso ocorreu visto que o trabalho que reportou esse resultado relativamente antigo (Budihardjo et al. 1991), e muitas das tcnicas implementadas pelo Weka, at mesmo usadas com sua forma padro, j incorporam tcnicas mais avanadas. Esta preciso, conforme observado em (Owen 1999), menor do que simplesmente dizer que todos sero hospitalizados, embora o mtodo possa ter conseguido uma separao til dos pacientes em grupos. Alm disso, atravs das tcnicas executadas, observou-se resultados bem diferentes como, por exemplo,
Perceptron
e o
SMO3
com
61.1111%
dataset,
no
Post-operative1 .
58.8889% do Multilayer
dataset
rep-
resentativo no SUAP antes de adicionar a funcionalidade de referenciamento ao sistema. tram o comportamento dos mtodos em um
dataset Contraceptive Method, apresentado na Seo 3.2, ilusdataset de mdio porte. O desempenho do SMO
dataset
dos obtidos caram bem abaixo do melhor encontrado na literatura, mas tambm vale dizer que em uma comparao de uma srie de algoritmos de classicao (Lim et al. 1999) a melhor taxa de acerto foi de 57%, e na mdia os algoritmos obtiveram 43%. Neste
dataset,
tambm foi possvel avaliar questes de desempenho dos mtodos em relao ao tempo de execuo. Na Tabela 5 esto os tempos de execuo aproximados para se ter uma noo da ordem de grandeza de computao requerida pelos mtodos.
Algoritmo
0-R SMO1 SMO2 SMO3 Multilayer Perceptron Nave Bayes C&RT
Trata-se de um
dataset
de grande porte (48842 instncias), em que pode-se perceber claramente a diferena de desempenho entre os mtodos, principalmente em relao ao tempo de execuo necessrio (vide Tabela 5). O
melhores resultados inviabiliza sua execuo por consumir um tempo de execuo superior ao tempo estabelecido para a execuo deste trabalho. Aps um dia e meio construindo apenas um modelo, sua execuo teve quer ser interrompida. Outros problemas tambm foram observados como falta de memria durante a execuo. Entretanto, o Weka permite parametrizar a aplicao indicando o tamanho mximo de memria que o sistema pode
10
Concluso
Este trabalho visou uma explorao do uso de algoritmos de aprendizado de mquina para a sua utilizao no Sistema Unicado de Assistncia Pr-natal (SUAP). O SUAP um sistema que visa suportar o atendimento pr-natal do sistema de sade pblico brasileiro. Uma de suas funcionalidade auxiliar na indicao de unidades secundrias de atendimento para gestaes de alto risco. Dada a atual no existncia de um conjunto de dados do SUAP, trs
datasets
de
diferentes portes, com propriedades similares ao problema que deve ser resolvido, foram escolhidos para permitir a explorao dos algoritmos. Utilizou-se a ferramenta Weka para a execuo de tais testes. Os resultados foram satisfatrios. O Weka mostrou-se um aplicativo extremamente poderoso para a execuo dos algoritmos de aprendizado de mquina. A quantidade de algoritmos disponveis bastante grande, e possvel a realizao de uma grande variedade de parametrizaes para os mesmos. Alm disso, certas funes podem ser estendidas e implementadas pelo desenvolvedor e utilizadas nos algoritmos. Conclui-se que a ferramenta Weka apropriada para ser incorporada no SUAP, visto que: (i) implementada em Java; (ii) pode ser facilmente incorporada no sistema; (iii) disponibiliza os principais algoritmos de aprendizado de mquina; e (iv) permite uma fcil parametrizao dos algoritmos para a obteno de resultados satisfatrios. Entretanto, fundamental a existncia de um conjunto de dados grande para que se obtenham bons resultados.
References
Breiman, L., Friedman, J., Stone, C. J. & Olshen, R. A. (1984),
Budihardjo, A., Grzymala-Busse, J. W. & Woolery, L. (1991), Program lers_lb 2.5 as a tool for knowledge acquisition in nursing,
& Engineering Applications of Articial Intelligence & Expert Systems', pp. 735740. Caruana, R. & Niculescu-Mizil, A. (2004), An empirical evaluation of supervised learning for roc area,
Carvalho, G., Choren, R., Carvalho, C., Lucena, C., Condack, J. & de S, R. M. (2009), Pr-natal digital: um ambiente colaborativo para discusso de casos clnicos em obstetrcia,
in
Gonalves. de Sa, R. M., Carvalho, C., Moraes, V., Stein, E., dos Santos, T. V., Carvalho, G. & Lucena, C. (2009), Community of obstetrics practice and knowledge exchange: useful tool for collaboration between obstetricians in an emerging country,
in
`XIX
FIGO World Congress of Gynecology & Obstetrics (FIGO 2009)', Cape Town. Geisser, S. (1993),
Hastie, T. & Tibshirani, R. (1998), Classication by pairwise coupling, systems 10', MIT Press, Cambridge, MA, USA, pp. 507513.
in
`NIPS '97:
Jennings, N. R. (2001), `An agent-based approach for building complex software systems',
John, G. H. & Langley, P. (1995), Estimating continuous distributions in bayesian classiers, pp. 338345. Keerthi, S. S., Shevade, S. K., Bhattacharyya, C. & Murthy, K. R. K. (2001), `Improvements to platt's smo algorithm for svm classier design', 649. Kohavi, R. (1996), Scaling up the accuracy of naive-bayes classiers: a decision-tree hybrid,
in
Data Mining'. Kontkanen, P., Lahtinen, J., Myllymki, P. & Tirri, H. (2000), Unsupervised bayesian visualization of high-dimensional data, New York, NY, USA, pp. 325329. Lim, T.-S., Loh, W.-Y., Shih, Y.-S. & Algorithms, N. C. (1999), `A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classication algorithms'. Owen, A. B. (1999), `Tubular neighbors for regression and classication'. Platt, J. (1998), Machines using sequential minimal optimization, MIT Press. Ray, S. & Page, D. (2005), Generalized skewing for functions with continuous and nominal attributes,
in
in
B. Schoelkopf,
C. Burges & A. Smola, eds, `Advances in Kernel Methods - Support Vector Learning',
in `ICML '05:
12