Orientadora: Profa. Dra. Carolina Yukari Veludo Watanabe 1. TEMA ESTUDO E AVALIAO DE CLASSIFICADORES APLICADOS A DADOS MDICOS PARA AUXLIO AO DIAGNSTICO. 2. INTRODUO Os sistemas computacionais e os equipamentos eletrnicos vm se desenvolvendo de forma muito rpida nas ltimas dcadas. Essa evoluo beneficiou e muito a rea medicinal. Agora possvel ter imagens do corpo humano de alta resoluo, o que fez com que os mdicos em geral passarem a adotar estas imagens para a preveno, diagnstico, planejamento teraputico e controle da sade dos pacientes. 3. PROBLEMAS As leis vigentes atualmente em nosso pas probem que exames de imagens, diagnsticos e etc. sejam descartados por pelo menos 20 anos. Mas devido a complexidade que a de analisar os dados que incluem imagens, os profissionais da rea da sade acabam no sendo beneficiados com todo o material que eles tem. Alm disso, o uso de muitas caractersticas para representar as imagens pode levar ao problema conhecido como maldio da alta dimensionalidade, que degrada a preciso e o tempo de busca e tambm a performance da classificao. 4. MOTIVAO Deteco de anomalias em imagens mdicas por um radiologista , em geral, um procedimento demorado, que pode tender a erros e a algum grau de subjetividade devido a vrias razes, dentre as quais: a complexidade das imagens mdicas; a existncia de estruturas complexas e de grande nmero de imagens normais; a grande variao na aparncia dos tecidos (mesmo os normais); a sutileza das anormalidades; a superposio dos tecidos; a necessidade de minimizar o retorno desnecessrio dos pacientes; o grande volume de exames por radiologista em um programa de rastreio. Por isso, importante realizar a leitura das imagens e a anlise por dois radiologistas, processo este conhecido como dupla leitura. Entretanto, este processo aumenta os custos para a gerao do diagnstico. A tecnologia de diagnstico auxiliado por computador (CAD) oferece uma alternativa a dupla leitura, pois pode fornecer uma sada no computador que atua como uma "segunda opinio" para auxiliar radiologistas na interpretao das imagens. Os algoritmos do sistema CAD composto geralmente por vrias etapas, como processamento de imagens, anlise de caractersticas de imagens e classificao de dados, usando ferramentas da rea de inteligncia artificial e aprendizado de mquina. Com o uso desta tecnologia a preciso e a consistncia do diagnstico radiolgico podem ser melhorados, e tambm o tempo de leitura da imagem reduzido. Assim, fica claro a crescente necessidade do uso de mtodos de representao de imagens e de mtodos de classificao para acelerar e para auxiliar os radiologistas na tarefa de anlise de imagens tem aumentado. Estes mtodos devem fornecer um resultado de classificao mais preciso e demandar baixo custo computacional para que forneam um tempo de resposta aceitvel ao mdico. 5. OBJETIVOS O objetivo final dar auxlio ao especialista mdico. Mas para se alcanar esse objetivo final outra metas devem ser alcanadas, como o conhecimento aprofundado sobre as tcnicas de aprendizado de mquinas, estudos detalhados sobre as tcnicas de minerao de dados, validao e integrao dos classificadores que foram implementados no projeto, desenvolvimento de uma biblioteca de funes de mtodos de classificadores e por fim a publicao dos resultados. 6. METODOLOGIA Em se tratando de um projeto de classificao de dados, ele ocorrer em duas etapas: modelagem e avaliao. Onde a modelagem a construo do modelo para descrever a base de dados e a avaliao a verificao se a acurcia do modelo aceitvel para que o classificador possa ser usado para classificar futuros objetos cuja classe seja desconhecida. Aps o estudo dos conceitos relacionados ao trabalho e dos mtodos de classificao de aprendizado de mquina, devero ser preparadas as bases de dados mdicos, primeiramente os vindos do Repositrio de Dados Gratuitos da UCI Machine Learning. Depois sero preparadas bases de dados de imagens vindos do Hospital das Clnicas de Ribeiro Preto, de pesquisas j em desenvolvimento no Grupo de Bases de Dados e Imagens do Instituto de Cincias Matemticas e de Computao da Universidade de So Paulo, So Carlos. Com as bases de dados formadas, dar-se- incio a implementao dos mtodos de classificao. O resultado desta classificao ser uma sugesto de um diagnstico ao especialista mdico, o qual o responsvel final pela deciso a ser adotada. Nesta etapa tambm sero implementados os mtodos de avaliao de classificadores, como matrizes de confuso, curvas ROC, taxa de acerto e taxa de erro. Por fim, os algoritmos desenvolvidos sero incorporados ao sistema de auxlio tomada de deciso em desenvolvimento no projeto ao qual este plano de trabalho est inserido. Para a elaborao deste projeto sero utilizados os softwares Matlab, Weka e aps os testes, ocorrer a implementao do cdigo em linguagem C/C++ utilizando a biblioteca multiplataforma OpenCV.