You are on page 1of 8

IEEE LATIN AMERICA TRANSACTIONS, VOL. 6, NO.

5, SEPTEMBER 2008

453

Adaptive Fuzzy Neural Tree Network


R. G. Dutra, M. Martucci Jr. 1
Abstract The objective of this article is to combine different adaptive methods, such as: Adaptive Decision Trees,Artificial Neural Networks and Fuzzy Logic for data mining purposes. The expected result is to maximize the advantages of different methods in a new model called: Adaptive Neural Tree Network. Keywords Adaptive Technology; Artificial Neural Networks; Decision Tree; Fuzzy Logic I. INTRODUO As corporaes brasileiras sentiram nos ltimos anos os sintomas de uma febre mundial que contaminou quase todas as empresas do globo, denominado de efeito ERP (Enterprise Resource Planning) ou simplesmente pacotes de gesto empresarial. Fenmeno tpico da dcada de noventa, que sucedeu a reduo (downsizing) dos sistemas de grande porte em plataforma mainframe, essas solues resolvem apenas o dia a dia operacional das companhias, isto , os dados transacionais, gerando continuamente enormes quantidades de informao em estado bruto. Com o propsito de garimpar e lapidar tais dados criou-se o conceito de Inteligncia de Negcios [1]. Existem vrias ferramentas para implementao do conceito de Inteligncia de Negcios, variando desde planilhas eletrnicas at sofisticados sistemas de suporte deciso baseados em Repositrios de Dados (Data Warehouse) com ferramentas analticas de prospeco de dados (Data Mining), cuja complexidade depende fundamentalmente da aplicao. Este trabalho objetiva a explorao das ferramentas de Data Mining, visando a aplicao em gerenciamento de relaes de empresas com seus clientes, atravs da combinao de mtodos, tais como Redes Neurais Artificiais, rvores de Deciso Adaptativas e Lgica Fuzzy em um modelo denominado de Adaptive Fuzzy Neural Tree Network (AFNTN). O problema-alvo consiste em classificar clientes atravs dos dados reais provenientes da realizao de processos de vendas e distribuio, de forma no supervisionada, ou seja, o nmero de classes e os atributos utilizados para definio das mesmas no conhecido a priori, cabendo ao modelo AFNTN sua determinao. Apesar do nmero de clientes que compem a base de dados pertencerem a um conjunto aberto, neste artigo o mesmo ser considerado como um conjunto finito e completamente conhecido dentro de um intervalo de tempo determinado.
R. G. Dutra e M.Martucci Jr. Departamento de Engenharia de Computao e Sistemas Digitais, Escola Politcnica da Universidade de So Paulo, So Paulo-SP, Brasil (e-mail: rogerio.dutra@sap.com; mmartucc@usp.br)

O contedo deste artigo est organizado nas seguintes sees: II Utilizao de Dispositivos Adaptativos descreve o mecanismo adaptativo para induo de rvores de deciso e uma proposta para melhor-lo. III-Redes Neurais Artificiais descreve o algoritmo de aprendizado no supervisionado. IVLgica Nebulosa descreve como tratar incerteza nos dados. V O modelo da AFNTN prope a modelagem para implementao da ferramenta. VI Resultados Obtidos e VII Concluso descrevem os resultados e concluses obtidos atravs da aplicao da AFNTN em uma base de dados reais. II. UTILIZAO DE DISPOSITIVOS ADAPTATIVOS Bases de dados provenientes de processos empresariais podem atingir uma quantidade de registros elevadssima, tornando impossvel a realizao de atividades de data mining por parte de um especialista humano. Face a esta necessidade, diferentes mtodos foram criados para automatizar e sistematizar o processo de prospeco, anlise de padres e relacionamento dos mesmos com seus respectivos dados, denominados de machine learning (ML) [2]. Dentre os diversos mtodos de ML, tais como mtodos baseados em regras, mtodo do discriminante de Bayes, entre outros, escolheu-se neste artigo trabalhar com mtodos partitivos recursivos denominados de rvores de deciso ou Decision Trees (DT), devido s caractersticas citadas a seguir: Permitem a reduo do volume de dados atravs da transformao para um formato mais compacto, porm sem perder as principais caractersticas e relacionamento dos mesmos. Permitem descobrir se os conjuntos de dados contm agrupamentos de objetos, que podem ser teis para simplificaes e particionamento dos mesmos. Permitem mapear o relacionamento entre variveis independentes e dependentes, objetivando a construo de um modelo classificatrio preditivo. O problema de induo incremental de rvores de deciso, para classificao de atributos discretos, pode ser resolvido atravs da aplicao da tecnologia adaptativa utilizando um dispositivo adaptativo, com descrito no algoritmo AdapTree[3]. Um dispositivo adaptativo [4] constitudo de duas partes: a primeira consiste de um dispositivo subjacente que pode assumir a forma de um autmato, gramtica ou qualquer outro dispositivo descrito atravs de um conjunto finito de regras estticas, denominado seu dispositivo subjacente, tipicamente no-adaptativo; a segunda um mecanismo adaptativo, cuja conexo ao formalismo subjacente proporciona todos os

454

IEEE LATIN AMERICA TRANSACTIONS, VOL. 6, NO. 5, SEPTEMBER 2008

recursos complementares necessrios para a realizao das propriedades responsveis pela auto-modificao autnoma que caracteriza os dispositivos adaptativos. Um autmato adaptativo [5] de estados finitos (AAF) um dispositivo adaptativo, que estende o poder de expresso do autmato de estados finitos (AF), atravs da capacidade de modificar a sua prpria estrutura com a aplicao de regras adaptativas citadas anteriormente. O dispositivo adaptativo no qual o AdapTree se baseia pode ser visto como um AAF classificador, estendido para trabalhar com mais de duas classes. Para isso, a cada estado final associado um elemento, que corresponder a uma das classes possveis. Ao receber um exemplo de treinamento o AdapTree cria um caminho ligando o estado inicial do autmato ao estado final correspondente a classificao deste exemplo. Caso no seja possvel determinar sintaticamente a classe de uma cadeia de entrada, o AdapTree utiliza o mecanismo estatstico ID3[6], que oferecer como resposta uma estimativa baseado no ganho de entropia, definindo a ordem dos atributos utilizada nesta classificao. Porm, percebeu-se [7] que um atributo com muitos valores possveis teria uma disperso maior na distribuio de probabilidades desses valores, conseqentemente maior ganho de informao. Para evitar esta distoro, que favorece o atributo com maior nmero de valores, introduziu-se no algoritmo C4.5[8], sucessor do ID3, o conceito de Razo do Ganho de Informao. O mtodo C4.5 tem sido largamente empregado para construir DT que implementam classificadores de elevada performance. Contudo, este algoritmo s permite classes previamente definidas para classificao de atributos na fase de treinamento, no tendo a capacidade de interpolar ou deduzir novos padres por inferncia nesta fase ou tratar dados imprecisos ou incertos. Como demonstrado em [9] e [10], o C4.5 s pode delimitar hiperplanos paralelos aos eixos coordenados, fato que, em um espao de atributos contnuos, implicaria em crescimento exponencial da DT resultante. Diferentemente do C4.5, o AdapTree no particiona o conjunto de exemplos, ou seja, o princpio de otimizao global e no local. A rvores de deciso geradas pelo AdapTree no possuem um nmero excessivo de ramificaes, devido a esta caracterstica. Adicionalmente, como o AdapTree um algoritmo incremental, novos exemplos podem ser incorporados durante o processo de classificao, resolvendo adequadamente o problema de variao temporal de padres, muito comum em atividades de Data Mining. A combinao do AdapTree e do mecanismo C4.5 permite maximar as vantagens de ambos algoritmos, minimizando as desvantagens citadas. No entanto, ambos AdapTree e C4.5 necessitam de um conjunto de treinamento para gerao de uma DT, cujo nmero de ns entre a raiz e folhas no seja excessivamente grande. Dessa forma, o AdapTree e o C4.5 so algoritmos que trabalham em modo supervisionado durante a fase de treinamento, ou seja, no sendo capazes de definir o nmero de classes que particionam o conjunto de treinamento.

Por outro lado, sabe-se que Redes Neurais Artificiais (RNA) tm sido empregadas em tarefas de classificao para determinao de padres em modo supervisionado ou no supervisionado. Classes complexas podem ser prospectadas atravs dos dados a fim de gerar uma DT de forma mais rpida, eficiente e de simples visualizao. Evidentemente que a performance e qualidade dos padres adquiridos esto diretamente correlacionados com o tipo e a arquitetura escolhida para a RNA, como demonstram os estudos realizados comparando-se a arquitetura de MultiLayered Perceptron (MLP) com DT [7]. A seguir, ser apresentado um algoritmo de RNA adaptativo, porm no baseado em Autmatos Adaptativos Finitos, cuja principal vantagem no necessitar de um conjunto de treinamento classificado a priori, como o AdapTree. III. REDES NEURAIS ARTIFICIAIS O modelo Self-Organizing Map (SOM), desenvolvido por Teuvo Kohonen [11], um dos modelos mais populares de RNA. O algoritmo da SOM baseado em um aprendizado competitivo e no supervisionado, fato que implica em um treinamento direcionado exclusivamente pelos dados, sendo que os neurnios que constituem o mapa competem entre si para adquirir padres dos dados, se aproximando deles. Algoritmos supervisionados, como o Multi-Layered Perceptron (MLP), requerem uma classificao pr-definida para cada vetor de treinamento, alm de depender fundamentalmente do nmero de camadas internas (hidden units) para um aprendizado com baixo erro de classificao e performance, limitaes que no ocorrem na arquitetura SOM. Entretanto, a presena de impreciso, incerteza ou rudo nos dados pode reduzir drasticamente a performance do aprendizado competitivo do algoritmo SOM, da mesma forma que induz rvores excessivamente grandes, utilizando o algoritmo C4.5. Para tratar de forma eficaz a questo da incerteza, torna-se necessria a utilizao de um mecanismo de inferncia baseado em lgica nebulosa. IV. LGICA NEBULOSA A lgica nebulosa (fuzzy) possibilita que seja abordado de forma mais adequada, um problema muito importante referente representao e manipulao de conhecimentos em ML, para representao da impreciso e da incerteza. Os sistemas baseados em lgica nebulosa foram criados por [12], fundamentando-se na representao e manipulao de informaes incertas e imprecisas to comuns no cotidiano humano. Expresses tais como quase, muito e pouco representam este tipo de impreciso, que usualmente no pode ser tratada pelos sistemas da lgica clssica. Os sistemas especialistas fuzzy utilizam um conjunto de regras do tipo If-Then, baseadas em variveis nebulosas. Primeiramente as variveis de entrada sofrem um processo de fuzzificao, ou seja, os conjuntos nebulosos das variveis lingsticas de entrada so ativados. Terminado este processo efetua-se a inferncia sobre o conjunto de regras nebulosas obtendo os valores dos termos das variveis de sada.

DUTRA AND MARTUCCI : ADAPTIVE FUZZY NEURAL TREE NETWORK

455

Volume de Vendas Acumulado (R$)

Finalmente, as variveis de sada sofrem um processo de defuzzificao. Este processo consiste em converter os dados nebulosos para valores numricos precisos. Para isto so utilizadas vrias tcnicas, tais como valor mximo, mdia dos mximos, mdia local dos mximos, centro de gravidade, ponto central da rea e o centro mdio. Neste artigo, foi utilizado o mtodo TakagiSugeno [13], ou simplesmente Sugeno, cuja sada representar um valor constante, representando uma classe definida pela RNA do tipo SOM. V. O MODELO ADAPTIVE FUZZY NEURAL TREE NETWORK Existem inmeras formas de se combinar DT Adaptativa, RNA do tipo SOM e Lgica Fuzzy para formar o modelo da Adaptive Fuzzy Neural Tree Network, porm a arquitetura escolhida neste trabalho objetiva suportar as atividades recursivas de Data Mining, como ilustrado na figura 5.1, a seguir:

Arquivo Dados de Entrada

Preparao dos Dados

Amostragem e Transformao

Atividade de Transformao de Dados


4000000 3500000

C B
Volume de Vendas Acumulado por Cliente

3000000

2500000

2000000

1500000

1000000

500000

0 404 105 118 131 170 183 235 261 300 326 352 365 391 417 430 443 144 157 196 209 222 248 274 287 313 339

Nmero do Cliente

Fig. 5.2 Classificao a priori ABC Resultados da Classificao ABC, definindo a priori, os percentuais de separao entre classes em 70%, 20% e 10%: Tabela 5.2 Segmentao da Base de Dados segundo classificao ABC

Fig. 5.1. Diagrama de Blocos da Adaptive Fuzzy Neural Tree Network (AFNTN) A base de dados utilizada composta de caractersticas, inerentes ao processo de vendas e distribuio, e indicadores (variveis de contedo numrico) conforme ilustrado na tabela 5.1. A partir da tabela 5.1 construiram-se dois conjuntos de dados para treinamento do algoritmo da SOM, denominados de Treinamento_Parcial.data e Treinamento_Completo.data. O conjunto Treinamento_Parcial.data no contm as variveis Num_Rem e Prc_Med para verificar o efeito do acrscimo de variveis, ou seja, a escalabilidade de variveis sobre o nmero de classes obtidas a partir do treinamento da SOM. Tabela 5.1 Estrutura Completa da Base de Dados para treinamento da SOM

As prximas etapas resumem-se em preparar a base de dados para treinamento da rede neural artificial utilizando o algoritmo SOM e obter padres qualitativos, atravs da visualizao do formato e estrutura dos agrupamentos, mapa de componentes e projees dos dados sobre o mapa, conforme ilustrado na figura 5.3.

A classificao a priori ABC, que foi obtida atravs da acumulao da varivel Volume de Vendas, foi utilizada para comparao da classificao resultante da RNA SOM, conforme figura 5.2 e tabela 5.2.

Fig. 5.3 U-Matrix e mapas componentes aps treinamento da RNA do tipo SOM Aps o treinamento da rede neural, realizou-se a quantificao do nmero de agrupamentos atravs da utilizao do ndice de Davies-Boulding [14]. Aplicando-se este algoritmo base de dados Treinamento_Completo.data, o

378

456

469

14

27

40

53

66

79

92

456

IEEE LATIN AMERICA TRANSACTIONS, VOL. 6, NO. 5, SEPTEMBER 2008

ndice de Davies-Boulding atingiu o valor mnimo para 4 classes, conforme figura 5.4. A cada amostra da base de dados foi associada uma das 4 classes, formando um novo conjunto de dados classificados.

SOM
C1: 428 C2: 22 C3: 10 C4: 9 T: 469 Info(SOM) = 0,2277

Base de Dados

T : 469 Info(T) = 1

Preo Mdio
Alto Baixo

Visualizao (Qualitativo)

Sumarizao dos Clusters (Quantitativo)

Dados de Entrada Classificados

CLASSE 2

Nmero de Remessas
Alto Baixo

C1: 428 C3: 10 C4: 9 T: 447 Info(X,T) = 0,0972

Resultados Quantitativos

Determinao do nmero de agrupamentos segundo ndice de Davies-Boulding utilizando

C1: 4 C4: 9 T: 13 Info(X,T) = 0,2076

Volume de Vendas
Baixo Baixo

Volume de Devolues
Alto

C1: 424 C3: 10 T: 434 Info(X,T) = 0,0175

Alto

CLASSE 4

CLASSE 1

CLASSE 1

CLASSE 3

Fig. 5.6. Modelagem da rvore de deciso aps treinamento


Base de Dados Parcial Base de Dados Completa

Como a rvore de deciso gera regras rgidas (crisp) ou booleanas (Alto ou Baixo), foi necessrio fuzzificar as regras, como mostrado na figura abaixo:

Fig. 5.4 . Sumarizao Quantitativa dos Clusters encontrados Todas as funes utilizadas no treinamento do algoritmo da SOM e resultados obtidos, basearam-se em funes previamente elaboradas em Matlab verso 6.5 provenientes da SOMTOOLBOX 2.0 [15]. A partir desse novo conjunto foram efetuadas diferentes tentativas para a determinao de uma rvore de deciso que minimizasse o erro de classificao. A tcnica de validao cruzada dos dados de treinamento e testes foi utilizada para obter tal rvore[15]. Os dados classificados foram utilizados para treinamento da rvore de deciso, conforme figuras 5.5 e 5.6 a seguir:

Modelagem (C4.5 Decision Tree)

Regras Crisp

Fuzzyficao de Regras

Fuzzificao de Regras de Negcio

Dados de Entrada Classificados

Modelagem (C4.5 Decision Tree)

Regras Crisp

Fig. 5.7 Fuzzificaodas regras de negcio Os dados classificados e as regras fuzzy foram utilizados como entrada do sistema de inferncia fuzzy do tipo Sugeno, fornecido pela FUZZYTOOLBOX [16] do Matlab:

Preo Mdio Alto: > R$ 89,27 CLASSE 2 Alto: > 574 Volume de Vendas Alto: > R$42.292,27 Baixo: R$42.292,27 Baixo: R$1.215,00 CLASSE 4 CLASSE 1 CLASSE 1 Alto: > R$1.215,00 CLASSE 3 Baixo: R$ 89,27 Nmero de Remessas

rvore de Deciso resultante


Baixo: 574 Volume de Devolues

Fig. 5.5. Modelagem da rvore de deciso A induo dos ns da rvore de deciso foi realizada at minimizar a razo do ganho de entropia Info(X,T), onde X representa uma amostra e T o nmero total de amostras. Fig. 5.8 Modelagem do ANFIS

DUTRA AND MARTUCCI : ADAPTIVE FUZZY NEURAL TREE NETWORK

457

As funes de pertinncia escolhidas foram do tipo gaussiana ou normal, conforme figura abaixo:

A figura 5.11 ilustra a formao das regras fuzzy do tipo AND para a rvore de deciso obtida atravs do algoritmo AdapTree modificado.

Sumarizao dos Clusters (Quantitativo)

Dados de Entrada Classificados

Modelagem do Sistema de Inferncia Fuzzy (ANFIS)

Funes de Pertinncia (membership)

Fig. 5.9 Funes de Pertinncia Fig. 5.11 Definio de regras fuzzy do tipo AND A figura 5.10, a seguir, ilustra a varivel Preo Mdio, cuja funo de pertinncia gaussiana, segundo uma distribuio normal, ser ajustada aps o treinamento do sistema de inferncia fuzzy. Para o treinamento, foram executados 500 ciclos de treinamento do ANFIS, conforme figura a seguir:

Dados de entrada
Legenda: Trainning Testing Checking

Fig. 5.12 Carga de dados de treinamento do ANFIS Fig. 5.10 Funo de Pertinncia Gaussiana O sistema de inferncia fuzzy adaptativo do tipo Sugeno (Adaptive Network-based Fuzzy Inference System-ANFIS) [16] utiliza uma rede neural do tipo Multi-Layer Perceptron (MLP) para ajuste das funes de pertinncia. A combinao das variveis de entrada com as possveis classes de sada foi realizada atravs da criao de regras fuzzy do tipo AND:
SE Varivel_Entrada_1 pertence a Funo_Pertinncia_1 E Varivel_Entrada_2 pertence a Funo_Pertinncia_1 E ... Varivel_Entrada_n pertence a Funo_Pertinncia_1 ENTO Sada PERTENCE A Funco_Pertinncia_Classe_1

Aumentando o nmero de ciclos de treinamento de 500 para 1000, o erro de convergncia reduziu apenas 5%, ou seja, um ganho absoluto muito baixo, para justificar um aumento ainda maior no nmero de ciclos de treinamento.

458

IEEE LATIN AMERICA TRANSACTIONS, VOL. 6, NO. 5, SEPTEMBER 2008

VI RESULTADOS OBTIDOS O treinamento resultou em um ajuste das funes de pertinncia, conforme figura 6.1.

Fig 6.3 Comparao dos dados utilizados no teste do ANFIS com a classificao conhecida a priori, resultando da rvore de deciso e SOM. Fig 6.1. Superfcie de deciso As funes de pertinncia delimitam superfcies de deciso, como no exemplo da figura 6.2, onde as variveis de entrada Devolues e Preo Mdio delimitam uma superfcie tridimensional que determina a funo de pertinncia da classificao determinada pela RNA do tipo SOM.

Fig 6.4 Comparao dos dados utilizados no teste do ANFIS com a classificao conhecida a priori, resultando da rvore de deciso e SOM. A partir da rvore de deciso ilustrada na figura 6.1 e de uma estatstica efetuada sobre o nmero de clientes em cada classificao como mostrado na tabela 6.1, um especialista em negcios pode inferir um significado para cada classe dentro do contexto do processo de negcios de vendas e distribuio, a seguir. Tabela 6.1 Estatstica do nmero de clientes e percentual de faturamento por classe

Fig 6.2. Superfcie de deciso formada pelas variveis de entrada Devolues e Preo Mdio Uma vez treinado o sistema ANFIS, foram selecionados aleatoriamente 100 registros da base de dados para testes e 169 para checagem, conforme figuras 6.3 e 6.4 a seguir:

DUTRA AND MARTUCCI : ADAPTIVE FUZZY NEURAL TREE NETWORK

459

a) Classe 1 Representa clientes regulares, isto , os clientes que compram produtos de baixo preo mdio, em pequenas quantidades e normalmente realizam poucas devolues. Estes clientes regulares representaram 91,3% em nmero, porm respondem por 58,3% do faturamento em vendas. b) Classe 2 Representa clientes que compram produtos de alto valor agregado, isto , produtos de elevado preo mdio em baixas quantidades. Estes clientes, apesar de representarem 4,7% em nmero, respondem por somente 1,1% do faturamento em vendas. c) Classe 3 Representa clientes com elevada ocorrncia de devolues. Apesar do baixo percentual em nmero, ou seja, 2,1%, representaram um faturamento em vendas de 1,8%. d) Classe 4 Representam clientes timos, isto , clientes que compram produtos de baixo preo mdio, porm em quantidades elevadas. Respondem por um faturamento de vendas de 38,8%, apesar de representarem somente 1,9% em nmero. Baseado no significado de cada classe, um especialista de negcios utilizando o modelo da AFNTN como ferramenta para estratificao de clientes dentro do conceito de gerenciamento de relaes com clientes, chegaria aos seguintes resultados finais: Os clientes segmentados atravs da Classe 4 devero receber tratamento personalizado. Todos os esforos de interao com os mesmos devero buscar o melhor atendimento em funo de suas necessidades e o aumento de satisfao. Os clientes segmentados atravs da Classe 1 devem continuar fazendo parte do processo de prospeco e anlise atravs da AFNTN, aguardando uma possvel modificao para a Classe 4, porm sem aumento de esforo operacional para a empresa para que a mudana ocorra. Os clientes segmentados atravs da Classe 2 representam clientes potenciais cujo aumento da quantidade de vendas poder promov-los Classe 4 com menor esforo operacional que os clientes da Classe 1 e portanto justificam tratamento personalizado. Os clientes segmentados atravs da Classe 3 devero ter seu processo de vendas e distribuio revisto para que os possveis problemas por parte da empresa sejam resolvidos resultando em uma mudana de classificao para a Classe 1. Caso contrrio devero ser eliminados do cadastro de clientes. VII. CONCLUSES Segundo a teoria da informao [7], utiliza-se do termo entropia para quantificar o contedo de informao de um determinado agrupamento. Um valor de entropia elevado implica em contedo baixo de informao, ou seja, mais informao ser necessria para identificar que uma determinada amostra de dados pertence a um determinado agrupamento ou classificao.

Baseado nessa afirmao, o modelo da AFNTN foi capaz de reduzir a entropia da base de dados inicial do valor mximo at seu valor mnimo com um grau de preciso mdio, como ser descrito a seguir. Observando-se cada etapa do modelo, a etapa de Preparao de dados no reduz a entropia do sistema, ao passo que a SOM foi responsvel pela maior reduo, isto , um ganho de aproximadamente 72%, cabendo os 28% restantes rvore de deciso. O ANFIS tem por objetivo tratar dados incertos ou com rudo e no reduo de entropia do sistema. A tabela a seguir sintetiza as principais caractersticas avaliadas nos modelos Adaptive Fuzzy Neural Tree Network (AFNTN), Self-Organizing Map (SOM), rvore de Deciso (DT) Adaptativa e Sistema de Inferncia Fuzzy, atravs da qual se conclui que a AFNTN maximizou as vantagens de ambas as tcnicas. Tabela 7.1 Sntese de caractersticas do modelo AFNTN em comparao com as tcnicas adaptativas utilizadas

Nesta tabela, a definio das caractersticas da RNA do tipo SOM foi obtida atravs de [17] e da Decision Tree atravs de [2]. Atravs da tabela 7.1, conclui-se que o modelo proposto da AFNTN contribuiu para aumentar a inteligibilidade da RNA do tipo SOM, aumentar a escalabilidade do modelo de Fuzzy Logic, aumentar a tolerncia a rudo da RNA do tipo SOM e Decision Tree, aumentar a tolerncia a dados esparsos da Decision Tree, reduzir a curva de aprendizado da RNA do tipo SOM, reduzir a independncia de especialistas do modelo de Fuzzy Logic. As limitaes do modelo da AFNTN ocorreram em caractersticas pouco tangveis, tais como Curva de Aprendizado e Independncia de Especialistas, que dependem fundamentalmente da experincia e familiaridade do especialista em negcios com o problema e ferramenta em questo. As caractersticas Preciso e Tempo de Resposta, relacionadas qualidade e construo do modelo, foram avaliadas de forma conservadora devido a falta de padres para uma avaliao mais quantitativa e menos qualitativa.

SUGESTES PARA MELHORIAS FUTURAS Baseado nos resultados obtidos e concluses realizadas nas sees anteriores, sugerem-se as seguintes melhorias futuras:

Definio de um mtodo de avaliao quantitativa da qualidade do mapa resultante aps treinamento da SOM, para avaliar quantitativamente a preciso da SOM e conseqentemente a preciso da AFNTN;

460

IEEE LATIN AMERICA TRANSACTIONS, VOL. 6, NO. 5, SEPTEMBER 2008

Introduzir a capacidade de modelar e classificar variveis alfanumricas no algoritmo de treinamento da SOM. Testar e avaliar outros mtodos de agrupamento e sumarizao alm do algoritmo k-means e o ndice de Davies-Boulding. Testar e avaliar o efeito da variao temporal sobre os dados, afetando a captura de padres variantes no tempo sobre o AdapTree. Testar a performance da AFNTN com um grande volume de dados. Comparar e avaliar as vantagens do modelo proposto para a AFNTN com outras ferramentas de classificao estatsticas, como determinante de Bayes. Avaliar a utilizao da AFNTN em sistemas distribudos e telecomunicaes. Avaliar a utilizao da AFNTN para prospeco de atributos funcionais e no funcionais de servios web.

[16] [17]

JANG, J.-S. R., ANFIS: Adaptive-Network-based Fuzzy Inference Systems, IEEE Transactions on Systems, Man, and Cybernetics, Vol. 23, No. 3, pp. 665-685, May 1993. VESANTO, J. Using SOM in Data Mining. Thesis for the degree of Licentiate of Science in Technology. Helsinki University of Technology. Finland.2000.

Dutra, R., Engenharia Eletrnica pelo Instituto Tecnolgico de Aeronutica (1995), mestrado em Engenharia Eltrica pela Universidade de So Paulo (2001) e atualmente cursando doutorado na Politcnica da Universidade de So Paulo. Atualmente gerente de projetos SAP, com nfase em projetos de implementao de solues de sistemas integrados e Inteligncia de Negcios. Atuando principalmente nos seguintes temas: Sistemas de Automao, Sistemas distribudos, Sistemas Abertos, Arquitetura Orientada a Servios, Arquitetura Distribuda. Martucci Jr., M. Engenharia Eltrica pela Universidade de So Paulo (1973), graduao em Bacharedado Em Fsica pela Universidade de So Paulo (1975), mestrado em Engenharia Eltrica pela Universidade de So Paulo (1977) e doutorado em Engenharia Eltrica pela Universidade de So Paulo (1982) . Atualmente professor titular da Universidade de So Paulo. Tem experincia na rea de Engenharia Eltrica , com nfase em Eletrnica Industrial, Sistemas e Controles Eletrnicos. Atuando principalmente nos seguintes temas: Sistemas de Automao, Sistemas distribudos, Sistemas Abertos, Arquitetura Hierarquizada, Arquitetura Distribuda.

REFERNCIAS
[1] [2] [3] DUTRA, R.; CABRAL E. Aplicao de mtodos de inteligncia artificial em inteligncia de negcios. Dissertao de mestrado, Poli, USP, 2001. DHAR, V.; STEIN, R. Seven Methods for transforming corporate data into business intelligence. Prentice-Hall Press. 1997. PISTORI, H. e NETO, J.J. AdapTree - Proposta de um Algoritmo para Induo de rvores de Deciso Baseado em Tcnicas Adaptativas. Anais Conferncia Latino Americana de Informtica CLEI 2002. Montevideo, Uruguai, Novembro, 2002 PISTORI, H.; NETO, J. J.; PEREIRA, M.C.;Tecnologia Adaptativa em Engenharia da Computao. Estado da Arte e aplicaes. Edio Revisada, 174p. So Paulo, 2003. PISTORI, H.; NETO, J. J.; PEREIRA, M. C. Adaptive NonDeterministic Decision Trees: General Formulation and Case Study. INFOCOMP Journal of Computer Science, Lavras, MG, 2006 (accepted). CHENG, J.; FAYYAD, U. M.; IRANI, K. B.; QIAN, Z.; Improved decision trees: A generalized version of ID3. Proceedings of the Fifth International Conference on Machine Learning (pp. 100-106). Ann Arbor, MI: Morgan Kaufman, 1988. QUINLAN, J. R.; Comparing Connectionist and Symbolic Learning Methods. Basser Department of Computer Science; University of Sydney; Sydney NSW 2006;Australia. 1990. QUINLAN, J. R. C4.5 Programs for Machine Learning. Morgan Kaufmann. 1992. BRODLEY, C. E.; UTGOFF, P. E. Multivariate versus univariate decision trees. Technical report, Department of Computer Sciences University of Massachussetts. 1992. MITCHELL, T. Machine Learning. McGraw Hill. 1997. KOHONEN, T. Self-Organizing Maps. Springer-Verlag. 1995. ZADEH, L.A., "Fuzzy sets," Information and Control, Vol. 8, pp. 338-353, 1965. SUGENO, M., Industrial applications of fuzzy control, Elsevier Science Pub. Co., 1985. DAVIES, D. L.; BOULDING, D.W. A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. PAMI-1, no. 2, pp. 224-277. 1979. VESANTO, J.; ALHONIEMI, E.; HIMBERG, J.; PARHANKANGAS, J. Som Toolbox 2.0 BETA online documentation. Internet address http:// www.cis.hut.fi/projects/ somtoolbox. 1999.

[4] [5]

[6]

[7] [8] [9] [10] [11] [12] [12] [14] [15]

You might also like