Professional Documents
Culture Documents
So Paulo
2004
So Paulo
2004
RESUMO
Atualmente, a disponibilidade de avanados recursos computacionais e a relativa diminuio
do custo operacional facilitou o armazenamento de dados em meio magntico. Devido ao
acmulo de uma grande quantidade de dados, existe a necessidade de identificar e utilizar as
informaes implcitas contidas nos dados, atravs de um processo conhecido como Extrao
de Conhecimento em Bases de Dados (Knowledge Discovery in Databases). Umas das etapas
da Extrao de Conhecimento em Bases de Dados o processo de extrao de informaes
em um banco de dados, sem conhecimento prvio, a Minerao de Dados (Data Mining).
Neste estudo, descrevemos o processo de Extrao de Conhecimento em Bases de Dados,
Minerao de Dados e algumas de suas tcnicas, tendo como enfoque os mtodos
hierrquicos e no-hierrquicos de anlise de cluster, realizando trs estudos de caso
aplicando-se esses mtodos.
Palavras-chave: Minerao de Dados. Anlise de Cluster. Anlise Multivariada.
ABSTRACT
Nowadays, the availability of advanced computational resources and the relative decrease of
the operational costs, reduced the data storage in magnetic medium. When we have a large
number of data, it is necessary to identify and to use the information included in this data,
using a process known as knowledge discovery in databases. One of the steps of the
knowledge discovery in databases is the process of extracting data in a database, without a
previous knowledge, called data mining. In this study, we describe the knowledge discovery
database process, the data mining, and some techniques focusing the hierarchical and nonhierarchical methods of cluster analysis and also three case studies applying those methods.
Keywords: Data mining, Cluster analysis, Multivariate analysis.
LISTA DE FIGURAS
Figura 2.1 Processo de extrao de conhecimento em bases de dados e suas etapas........ 13
Figura 3.1 Exemplo de rvore de deciso ......................................................................... 20
Figura 3.2 Esquema de um neurnio artificial .................................................................. 22
Figura 3.3 Exemplo de uma rede neural............................................................................ 23
Figura 4.1 Distncia Euclidiana entre os pontos X0 e X1 no plano ................................... 28
Figura 4.2 Exemplo de dendograma.................................................................................. 31
Figura 4.3 Exemplo no qual o dendograma cortado em trs diferentes nveis............... 31
Figura 4.4 Algoritmo padro ............................................................................................. 33
Figura 4.5 Seqncia de agrupamentos realizada no mtodo de ligao por vizinho mais
prximo.................................................................................................................................. 34
Figura 4.6 Dendograma aplicando o mtodo de ligao por vizinho mais prximo......... 35
Figura 4.7
Fenmeno do encadeamento............................................................................ 35
Figura 5.8 Diagrama de disperso das variveis ciclo de mquina e memria cache....... 74
Figura 5.9 Dendograma utilizando o mtodo de ligao por vizinho mais prximo ........ 75
Figura 5.10 Diagrama de disperso do mtodo de ligao por vizinho mais prximo ....... 75
Figura 5.11 Dendograma do mtodo de ligao por vizinho mais distante ........................ 76
Figura 5.12 Diagrama de disperso do mtodo de ligao por vizinho mais distante ........ 76
Figura 5.13 Dendograma do mtodo de ligao de Ward ................................................... 77
Figura 5.14 Diagrama de disperso do mtodo de ligao de Ward ................................... 77
Figura 5.15 Dendograma do mtodo de ligao por centride ........................................... 78
Figura 5.16 Dendograma do mtodo de ligao por mdia................................................. 79
Figura 5.17 Diagrama de disperso dos mtodos de ligao por centride e por mdia .... 79
Figura 5.18 Grupos finais dos processadores ...................................................................... 81
Figura 5.19 Histograma da varivel ENTRADA ................................................................ 83
Figura 5.20 Histograma da varivel SADA ....................................................................... 84
Figura 5.21 Grfico log-log da distribuio do nmero de links por pgina....................... 84
Figura 5.22 Distribuio exponencial dos links .................................................................. 85
Figura 5.23 Desenho circular da rede aps os agrupamentos ............................................. 86
Figura 5.24 Desenho tridimensional da rede indicando as direes das conexes ............. 87
LISTA DE TABELAS
Tabela 4.1
Tabela 4.2
Tabela 4.3
Tabela 4.4
Tabela 4.5
Tabela 5.1
Grupos finais.................................................................................................... 80
Tabela 5.2
Tabela 5.3
Tabela 5.4
Tabela 5.5
Tabela 5.6
Tabela 5.7
SUMRIO
1 INTRODUO .............................................................................................................. 9
2 EXTRAO DE CONHECIMENTO EM BASES DE DADOS............................... 12
2.1 SELEO DOS DADOS ....................................................................................... 13
2.2 PROCESSAMENTO DOS DADOS ....................................................................... 14
2.3 TRANSFORMAO DOS DADOS...................................................................... 15
2.4 MINERAO DE DADOS.................................................................................... 16
2.5 INTERPRETAO E AVALIAO .................................................................... 16
2.6 CONCLUSO......................................................................................................... 17
3 MINERAO DE DADOS ........................................................................................... 18
3.1 ESTATSTICA........................................................................................................ 19
3.2 INDUO............................................................................................................... 19
3.3 ALGORITMOS GENTICOS................................................................................ 20
3.4 CLASSIFICAO.................................................................................................. 21
3.5 ANLISE DE CLUSTER........................................................................................ 21
3.6 REDES NEURAIS ARTIFICIAIS.......................................................................... 22
3.7 CONCLUSO......................................................................................................... 25
4 ANLISE DE CLUSTER............................................................................................... 26
4.1 MEDIDAS DE SIMILARIDADE........................................................................... 27
4.1.1 Distncia Euclidiana .................................................................................... 27
4.1.2 Distncia Euclidiana Quadrtica ................................................................. 28
4.1.3 Distncia de Manhattan............................................................................... 28
4.1.4 Distncia de Chebychev............................................................................... 29
4.2 MTODOS HIERRQUICOS ............................................................................... 30
4.2.1 Mtodos Aglomerativos .............................................................................. 32
4.2.1.1 Mtodo Single Linkage ou ligao por vizinho mais prximo..... 33
4.2.1.2 Mtodo Complete Linkage ou ligao por vizinho mais distante. 36
4.2.1.3 Mtodo Average Linkage ou ligao por mdia........................... 38
4.2.1.4 Mtodo Centroid Linkage ou ligao por centride..................... 40
4.2.1.5 Mtodo Median Linkage ou ligao por mediana ........................ 42
4.2.1.6 Mtodo Wards Linkage ............................................................... 44
4.2.2 Mtodos Divisivos....................................................................................... 47
1 INTRODUO
10
Neste estudo, damos enfoque a alguns mtodos de anlise de cluster. Esses mtodos
buscam ajudar o usurio a entender a estrutura natural em um conjunto de dados. A anlise de
cluster uma das tcnicas mais utilizadas no processo de minerao de dados para descoberta
de agrupamentos e identificao de importantes distribuies e padres para entendimento dos
dados (HALDIKI, 2001).
O agrupamento em bancos de dados o processo de separar o conjunto de dados em
componentes que refletem padres consistentes de comportamento, particionando o banco de
dados de forma que cada partio ou grupo seja similar de acordo com algum critrio ou
mtrica. Uma vez que os padres tenham sido estabelecidos, estes podem ser utilizados para
desmontar os dados em subconjuntos mais compreensveis e tambm podem prover
subgrupos de uma populao para futuras anlises. Por exemplo, um banco de dados poderia
ser utilizado para a gerao de perfis de marketing direcionado onde a resposta prvia s
campanhas de mala direta geraria um perfil das pessoas que responderam. A partir disso, fazse a previso de resposta e filtra-se a lista de mala direta para obter melhor resultado.
As metodologias de anlise de cluster tm sido largamente utilizadas em numerosas
aplicaes, incluindo reconhecimento de padres, anlise de dados, processamento de
imagens e pesquisa de mercado (JAIN, 1999).
Dada sua importncia nos processos de minerao de dados, apresentam-se, nesse
trabalho, diversas tcnicas de anlise de cluster, seus algoritmos e caractersticas, alm de
experimentos aplicando-se alguns mtodos em diferentes conjuntos de dados.
O trabalho est organizado da seguinte forma. No captulo 2, trata-se a extrao de
conhecimento em bases de dados, mostrando as atividades executadas em cada uma de suas
fases. No captulo 3, trata-se, de forma concisa, o conceito de minerao de dados e algumas
tcnicas utilizadas nessa fase. No captulo 4, tratam-se, com maiores detalhes, os mtodos
hierrquicos e no-hierrquicos de anlise de cluster, apresentando os algoritmos,
11
12
13
que utiliza o conhecimento extrado para auxilia-lo nos processos de tomadas de deciso.
Portanto, um requisito importante que o conhecimento produzido seja compreensvel e til
para os usurios finais.
A ECBD um conjunto de atividades contnuas que compartilham o conhecimento
descoberto a partir de bases de dados, e composto pelas etapas de: seleo de dados;
processamento e limpeza; transformao; minerao de dados (Data Mining) e interpretao
dos resultados. A figura 2.1 ilustra as etapas envolvidas no processo de ECBD.
Pode haver interseco entre as fases, e os resultados produzidos numa fase podem ser
utilizados para melhorar os resultados das seguintes. Isso significa que o processo de ECBD
iterativo, buscando aprimorar os resultados a cada iterao.
Essas etapas podem diferir no tempo e no esforo consumido. A preparao dos dados,
por exemplo, que inclui a seleo, processamento e transformao dos dados, pode consumir
de 60% a 80% do tempo total do processo, sendo a maior parte do tempo empregada na
limpeza de dados, segundo Diniz (2000). Cada uma dessas etapas tratada a seguir.
Conhecimento refere-se informaes armazenadas ou modelos usados por uma pessoa ou mquina para
interpretar, predizer e responder de forma correta a algo do mundo real (HAYKIN, 1994).
14
15
Esta etapa inicia-se com uma reviso geral da estrutura dos dados e a definio de
medidas de qualidade, utilizando uma combinao de mtodos estatsticos e tcnicas de
visualizao de dados.
Entre os problemas tratados na etapa de processamento dos dados, encontramos:
16
17
2.6 CONCLUSO
Em resumo, a extrao de conhecimento em bases de dados composta por etapas
iterativas, sendo a seleo dos dados, o processamento dos dados, a transformao dos dados,
a minerao de dados e a interpretao e avaliao. Dada a importncia da minerao de
dados no processo de ECBD, no captulo seguinte, so tratadas, brevemente, conceitos e
tcnicas empregadas em minerao de dados.
18
3 MINERAO DE DADOS
19
3.1 ESTATSTICA
A estatstica aplicada maioria das tcnicas de minerao de dados. Com isso, existe
dificuldade na distino entre minerao de dados e estatstica. A minerao de dados deve
ser tratada como uma adaptao de tcnicas estatsticas tradicionais, visando a anlise de
grandes bases de dados (DINIZ, 2000).
As tcnicas estatsticas mais utilizadas em minerao de dados so (JACKSON, 2002):
3.2 INDUO
A induo o processo de se obter uma hiptese a partir dos dados e fatos existentes.
Em geral, os fatos so os registros existentes nos bancos de dados e a hiptese uma rvore
de deciso que dever segmentar os dados de forma significativa.
A rvore de deciso usada para criar regras com os ns, servindo como pontos de
deciso. Assim, a rvore de deciso alcana sua deciso executando uma seqncia de testes,
20
onde cada n interno na rvore corresponde a um teste do valor de uma das propriedades, e as
ramificaes a partir do n so identificadas com os valores possveis. Cada n da folha na
rvore especifica o valor a ser retornado se aquela folha for alcanada. A figura 3.1 traz um
exemplo de rvore deciso, onde definido se um cliente vai ou no esperar por uma mesa
em um restaurante (RUSSELL, 1995). As rvores de deciso podem, tambm, envolver
probabilidades na deciso de um caminho ou outro. Uma reviso concisa desse tpico pode
ser encontrada em (RUSSEL, 1995).
21
3.4 CLASSIFICAO
A tarefa de classificao consiste em construir um modelo de algum tipo que possa ser
aplicado a dados no classificados visando categoriz-los em classes. Um objeto examinado
e classificado de acordo com classes pr-definidas (REZENDE, 2003).
So exemplos de tarefas de classificao: classificar pedidos de crditos como de
baixo, mdio e alto risco; esclarecer pedidos de seguros fraudulentos; identificar a forma de
tratamento na qual um paciente est mais propcio a responder, baseando-se em classes de
pacientes que respondem bem a determinado tipo de tratamento mdico. Para maiores
referncias a respeito dessa tcnica, consulte (FREITAS, 1998) e (WEISS, 1998).
22
A primeira seo combina todas as entradas que alimenta o neurnio, podendo ser
estmulos do sistema ou sadas de outros neurnios. Essa etapa indica como as entradas sero
computadas (regra de propagao). A segunda seo recebe esse valor e faz um clculo
23
24
25
3.7 CONCLUSO
Nesse captulo, verificou-se, de forma concisa, algumas tcnicas utilizadas em
minerao de dados, onde cada uma possui caractersticas prprias, podendo ser empregadas
em conjunto para a resoluo de problemas. Alm das tcnicas descritas, outras so utilizadas,
como redes bayesianas (HECKERMAN, 1996) e sistemas neuro-fuzzy (AURLIO, 1999).
Dentre as tcnicas mencionadas, a anlise de cluster ser tratada em detalhes no
prximo captulo.
26
4 ANLISE DE CLUSTER
Nesse captulo, descreve-se alguns mtodos de anlise de cluster, tendo como objeto
de estudo, os mtodos hierrquicos e os no-hierrquicos de agrupamento. Primeiramente,
destacam-se medidas de similaridade e o uso da matriz de similaridade. Em seguida, a
descrio dos mtodos com seus algoritmos, funes distncia e algumas caractersticas,
trazendo um exemplo da formao dos grupos em cada mtodo. Na ltima seo, apresentamse, brevemente, outros mtodos, como agrupamentos fuzzy e mapas de Kohonen.
A anlise de cluster busca agrupar elementos de dados baseando-se na similaridade
entre eles. Os grupos so determinados de forma a obter-se homogeneidade dentro dos grupos
e heterogeneidade entre eles.
A necessidade de classificar elementos em grupos por suas caractersticas est presente
em vrias reas do conhecimento, como nas cincias biolgicas, cincias sociais e
comportamentais, cincias da terra, medicina, informtica, entre outras.
Tendo em vista a dificuldade de se examinar todas as combinaes de grupos
possveis em um grande volume de dados, desenvolveram-se diversas tcnicas capazes de
auxiliar na formao dos agrupamentos.
Uma anlise de cluster criteriosa exige mtodos que apresentem as seguintes
caractersticas (ZAIANE, 2003):
27
( Xi Yi)
i =1
(4.1)
28
(figura 4.1)
d xy = ( X 1 Y 1) 2 + ( X 2 Y 2) 2 + ... + ( Xp Yp) 2 =
( Xi Yi)
(4.2)
i =1
d xy = X 1 Y 1 + X 2 Y 2 + ... + Xp Yp =
Xi Yi
i =1
(4.3)
29
(4.4)
30
1 0
4, 47
4
2
2 4, 47
0
2
4
3 4
2
0
4, 47
D=
4
4, 47
0
4 2
5 2, 24 2, 24 2, 24 2, 24
6 2,83 7, 21 6,32 4, 47
2, 24
2, 24
2, 24
2, 24
0
5
2,83
7, 21
6,32
4, 47
5
0
- sendo:
5 a distncia Euclidiana entre os elementos 6 e 5;
2,83 a distncia Euclidiana entre os elementos 1 e 6;
6,32 a distncia Euclidiana entre os elementos 3 e 6.
31
Exemplo.
No corte 1, verifica-se a existncia de cinco grupos, sendo (1,2), (3,4), (5), (6) e
(7,9,10,8). No corte 2, o nmero de grupos diminui para trs, sendo (1,2), (3,4,5) e
32
(6,7,9,10,8). Considerando o corte 3, o nmero de grupos diminui para dois, sendo (1,2) e
(3,4,5,6,7,9,10,8).
Dessa forma, o usurio dever escolher o corte mais adequado s suas necessidades e
estrutura dos dados.
33
3 4
2
0
4, 47
D=
4 2
4
4, 47
0
5 2, 24 2, 24 2, 24 2, 24
6 2,83 7, 21 6,32 4, 47
2, 24
2, 24
2, 24
2, 24
0
5
2,83
7, 21
6,32
4, 47
5
0
(1, 4 )
2
3
5
6
d 2(1, 4)
d 3(1, 4)
d 5(1, 4 )
d 6(1, 4 )
d (1, 4 ) 2
d (1, 4 ) 3
d (1, 4 ) 5
d (1, 4 ) 6
2, 24
7 , 21
2, 24
6,32
2, 24
2, 24
7 , 21
6,32
(4.5)
34
VALOR
2,24
2,83
4
4
2, 24
2,83
2,83
2, 24
2, 24
7 , 21
2, 24
6,32
2 , 24
2 , 24
7 , 21
6, 32
Figura 4.5: Seqncia de agrupamentos realizada no mtodo de ligao por vizinho mais prximo.
35
A figura 4.6 traz o dendograma gerado pelo do mtodo de ligao por vizinho mais
prximo.
Figura 4.6: Dendograma aplicando o mtodo de ligao por vizinho mais prximo.
Apresenta bons resultados tanto para distncias Euclidianas quanto para outras distncias;
ou mais elementos que passa a incorporar, a cada iterao, um grupo de apenas um elemento.
Assim, formada uma longa cadeia, onde torna-se difcil definir um nvel de corte para
classificar os elementos em grupos (ROMESBURG, 1984), conforme figura 4.7.
36
Esse fenmeno ocorre em dados com a distribuio mostrada na figura 4.8, onde cada
elemento tem como vizinho mais prximo o grupo formado na iterao anterior.
(4.6)
VALOR
4,47
4,47
2,24
4,47
4, 47
4, 47
2, 24
4, 47
4, 47
4, 47
4, 47
2, 24
2, 24
7 , 21
2, 24
6,32
2, 24
2, 24
7 , 21
6,32
37
A figura 4.9 traz a seqncia dos grupos formados em cada iterao do algoritmo.
Figura 4.9: Seqncia de agrupamentos realizada no mtodo de ligao por vizinho mais distante.
De acordo com a figura 4.9, pode-se verificar que na quarta iterao do algoritmo no
mtodo de ligao por vizinho mais distante, os agrupamentos so realizados de maneira
diferente ao mtodo de ligao por vizinho mais prximo.
A figura 4.10 traz o dendograma gerado pelo do mtodo de ligao por vizinho mais
distante.
Figura 4.10: Dendograma aplicando o mtodo de ligao por vizinho mais distante.
Apresenta bons resultados tanto para distncias Euclidianas quanto para outras distncias;
38
Os mtodos de ligao por mais prximo e por vizinho mais distante trabalham em
direes opostas. Se eles apresentam resultados semelhantes, significa que o grupo est bem
definido no espao, ou seja, o grupo real. Mas se ocorre o contrrio, os grupos
provavelmente no existem (ROMESBURG, 1984).
( N u .d UW + N v .d VW )
Nu + Nv
(4.7)
d(1,4)2 =
d(1,4)3 =
d(1,4)5 =
d(1,4)6 =
VALOR
(1.4, 47 + 1.4 )
4,24
1+1
(1.4 + 1.4, 47 )
4,24
1+1
(1.2, 24 + 1.2, 24)
2,24
1+1
(1.2,83 + 1.4, 47 )
3,65
1+1
4, 24
4, 24
2, 24
3, 65
3, 65
4 , 24
4 , 24
2, 24
2, 24
7 , 21
2, 24
6,32
2 , 24
2 , 24
7 , 21
6, 32
39
De acordo com a figura 4.11, pode-se verificar que na quarta iterao do algoritmo no
mtodo de ligao por mdia, os agrupamentos so realizados de maneira diferente do mtodo
de ligao por vizinho mais distante e igual ao mtodo de ligao por vizinho mais prximo.
A figura 4.12 traz o dendograma gerado pelo do mtodo de ligao por mdia.
40
Menor sensibilidade rudos que o os mtodos de ligao por vizinho mais prximo e por
vizinho mais distante;
Apresenta bons resultados tanto para distncias Euclidianas quanto para outras distncias;
N U .d UW + N V .d VW N U .N V .d UV
NU + NV
( NU + NV ) 2
(4.8)
d(1,4)2 =
d(1,4)3 =
d(1,4)5 =
d(1,4)6 =
1.4, 47 + 1.4
1+1
1.4 + 1.4, 47
1+1
1.2, 24 + 1.2, 24
1+1
1.2,83 + 1.4, 47
1+1
VALOR
1.1.1
(1 + 1)
3,99
3,99
1.1.1
(1 + 1)
1.1.1
(1 + 1)
1,99
3,4
1.1.1
(1 + 1)
3,99
3,99
1,99
3, 4
3, 4
3,99
3,99
1,99
2, 24
7 , 21
2, 24
6, 32
2, 24
2, 24
7 , 21
6 ,32
41
A figura 4.14 mostra o dendograma gerado pelo do mtodo de ligao por centride:
42
d UW + d VW d UV
2
4
(4.9)
43
d(1,4)2 =
4, 47 + 4
d(1,4)3 =
4 + 4, 47
3,99
2, 4 + 2, 4
d(1,4)6 =
3,99
d(1,4)5 =
VALOR
1,99
2,83 + 4, 47
3,4
3,99
3,99
1,99
3, 4
3,99
3,99
1,99
2, 24
2, 24
2, 24
2, 24
7 , 21
6 ,32
7 , 21
6, 32
3, 4
44
A figura 4.17 mostra o dendograma gerado pelo do mtodo de ligao por mediana:
(( N W + N U ).d UW + ( N W + N V ).d VW N W .d UV )
NW + NU + NV
(4.10)
45
d(1,4)2 =
VALOR
5,31
d(1,4)3 =
5,31
d(1,4)5 =
2,65
d(1,4)6 =
4,53
5,31
5,31
2,65
4,53
4, 53
5,31
5,31
2 , 65
2 , 24
7 , 21
2 , 24
6 ,32
2, 24
2 , 24
7 , 21
6, 32
46
Apresenta bons resultados tanto para distncias euclidianas quanto para outras distncias;
MTODO
DISTNCIA
CARACTERSTICAS
d (UV )W = min(d UW , d VW )
( N u .d UW + N v .d VW )
Nu + Nv
Sensibilidade rudos.
Encadeamento.
Tendncia a formar
grupos compactos.
Tendncia a formar
grupos com nmero de
elementos similares.
N U .d UW + N V .d VW N U .N V .d UV
NU + NV
( NU + NV ) 2
Robustez rudos.
Reverso.
d (UV )W = max(d UW , d VW )
d (UV )W =
d (UV )W =
d UW + d VW d UV
Robustez rudos.
2
4
(( N W + N U ).d UW + ( N W + N V ).d VW N W .d UV )
Sensibilidade rudos.
Ligao de Ward d (UV )W =
NW + NU + NV
Tabela 4.2: Resumo dos mtodos hierrquicos aglomerativos.
d (UV )W =
47
48
Mtodo aglomerativo =
2
N (N 1)
2
15(15 1)
=
2
105 possibilidades
49
2 4, 47
3 4
D=
4 2
5 2, 24
6
2,83
4, 47
2, 24
2, 24
4, 47
2, 24
4, 47
2, 24
2, 24
2, 24
2, 24
7 , 21
6,32
4, 47
2,83
7 , 21
4, 47
5
0
6,32
ELEMENTO
= 3,11
5
4,47 + 2 + 4 + 2,24 + 7,21
= 3,98
5
2 + 4 + 4,47 + 2,24 + 4,47
5
2,24 + 2,24 + 2,24 + 2,24 + 5
5
2,83 + 7,21 + 6,32 + 4,47 + 5
= 3,81
= 3,44
= 2,79
= 5,17
2
3
4
5
4,47 + 2 + 4 + 2,24
4
4 + 2 + 4,47 + 2,24
4
2 + 4 + 4,47 + 2,24
4
DIFERENA
= 3,18
d1,6 = 2,83
0,35
= 3,18
d2,6 = 7,21
-4,03
= 3,18
d3,6 = 6,32
-3,14
= 3,18
d4,6 = 4,47
-1,29
d5,6 = 5
-2,76
= 2,24
50
Na tabela acima, verifica-se que o elemento 1 possui a maior diferena positiva, sendo
ento retirado do grupo (1,2,3,4,5) e agrupado ao elemento (6).
Recalculando a similaridade mdia entre os elementos do grupo (2,3,4,5), a
similaridade dos elementos desse grupo em relao ao grupo (1,6) e a diferena desses
valores, obtemos:
ELEMENTO
= 2,75
4, 47 + 2,83
4 + 6,32
= 2,90
= 5,16
-2,26
2 + 4, 47
= 3,57
= 3,24
0,33
= 3,62
-1,38
-0,90
4 + 4,47 + 2,24
= 3,65
DIFERENA
2 + 4, 47 + 2, 24
2, 24 + 5
= 2,24
Na tabela acima, verifica-se que o elemento 4 possui a maior diferena positiva, sendo
ento, retirado do grupo (2,3,4,5) e agrupado ao grupo (1,6).
Recalculando a similaridade mdia entre os elementos do grupo (2,3,5), a similaridade
dos elementos desse grupo em relao ao grupo (1,4,6) e a diferena desses valores, obtemos:
ELEMENTO
= 2,12
3
5
2 + 2,24
= 2,12
4,47 + 4 + 7,21
4 + 4,47 + 6,32
= 2,24
2,24 + 2,24 + 5
3
DIFERENA
= 5,21
-3,10
= 4,93
-2,81
= 3,16
-0,92
2,24 + 2,24
51
D = 3 2
5 2, 24
2, 24
2, 24
0
2, 24
ELEMENTO
= 2,12
2
2 + 2,24
= 2,12
2
2,24 + 2,24
= 2,24
ELEMENTO
DIFERENA
d23 = 2
d25 = 2,24
-0,24
d32 = 2
d35 = 2,24
-0,24
D = 4 2
6 2,83
2
0
4, 47
2,83
4, 47
0
52
ELEMENTO
2
2 + 4,47
2
2,83 + 4,47
= 2,42
= 3,24
= 3,65
Como a similaridade mdia do elemento 6 a maior, ele ser retirado do grupo (1,4,6).
Calculando a similaridade mdia entre os elementos do grupo (1,4), a similaridade dos
elementos desse grupo em relao ao elemento (6) e a diferena desses valores, obtemos:
ELEMENTO
DIFERENA
d14 = 2
d16 = 2,83
-0,83
d41 = 2
d46 = 4,47
-2,47
53
A figura 4.22 traz a seqncia dos grupos formados em cada iterao do algoritmo.
54
monotticos. O mtodo polittico possui a vantagem de ter implementao mais fcil que o
monottico por utilizar a matriz de similaridade e, alm disso, apresentam melhores
resultados.
Comparando os mtodos aglomerativos com os divisivos, verifica-se que o mtodo
divisivo possui vantagem ao considerar no primeiro estgio muitas divises, diminuindo a
probabilidade de uma deciso errada. Portanto, esse mtodo torna-se mais seguro que o
aglomerativo (KAUFMAN, 1990).
55
ELEMENTO
1
4
3
2
2
7
3
4
7
4
2
3
5
3
5
6
6
1
Tabela 4.3: Conjunto de dados exemplo.
GRUPO
(1,2,3)
X
4+2+4
3
(4,5,6)
2+3+6
3
Y
= 3,33
= 3,67
3+7+7
3
= 5,67
3+5 +1
3
=3
56
VALOR
de(1(1,2,3)) =
(4 4)2 + (3 3 )2
de(1(4,5,6)) =
(4 2)2 + (3 7 )2
4,47
de(2(1,2,3)) =
(2 4)2 + (7 3 )2
4,47
de(2(4,5,6)) =
(2 2)2 + (7 7)2
de(3(1,2,3)) =
(4 4)2 + (7 3 )2
de(3(4,5,6)) =
(4 2)2 + (7 7 )2
1
(2,3,4,5,6)
( 2 + 4 + 2 + 3 + 6)
= 3,4
(7 + 7 + 3 + 5 + 1)
= 4,6
de (4(1)) =
de (4(2,3,4,5,6)) =
de (5(1)) =
de (5(2,3,4,5,6)) =
de (6(1)) =
de (6(2,3,4,5,6)) =
RESULTADO
(2 4)2 + (3 3 )2
(2 3,4 )2 + (3 4,6 )2
(3 4)2 + (5 3 )2
2
2,17
2,24
(3 3,4 )2 + (5 4,6 )2
0,57
(6 4 )2 + (1 3 )2
2,83
(6 3,4 )2 + (1 4,6 )2
4,44
Na tabela acima, verifica-se que os elementos 4 e 6 esto mais prximos do grupo (1).
Assim, eles sero retirados do grupo (2,3,4,5,6) e associados ao grupo (1).
57
x
(1,4,6)
(2,3,,5)
( 4 + 2 + 6)
3
(2 + 4 + 3)
=4
=3
(3 + 3 + 1)
3
(7 + 7 + 5)
= 2,33
= 6,33
RESULTADO
de (1(1,4,6)) =
(4 4 )2 + (3 2,33 )2
0,45
de (1(2,3,5)) =
(4 3 )2 + (3 6,33 )2
12,09
de (2(1,4,6)) =
(2 4 )2 + (7 2,33 )2
25,81
de (2(2,3,5)) =
(2 3)2 + (7 6,33 )2
1,45
de (3(1,4,6)) =
(4 4 )2 + (7 2,33 )2
21,81
de (3(2,3,5)) =
(4 3 )2 + (7 6,33 )2
1,45
de (4(1,4,6)) =
(2 4 )2 + (3 2,33 )2
4,45
de (4(2,3,5)) =
(2 3)2 + (3 6,33 )2
12,09
de (5(1,4,6)) =
(3 4 )2 + (5 2,33 )2
8,13
de (5(2,3,5)) =
(3 3)2 + (5 6,33 )2
1,77
de (6(1,4,6)) =
(6 4)2 + (1 2,33 )2
5,77
de (6(2,3,5)) =
(6 3 )2 + (1 6,33 )2
37,41
58
Sensibilidade a rudos, uma vez que um elemento com um valor extremamente alto pode
distorcer a distribuio dos dados;
59
ELEMENTOS (i)
di1
di4
Min(di1,di4)
1
2
3
4
5
6
0
4,47
4
2
2,24
2,83
2
4
4,47
0
2,24
4,47
0
4
4
0
2,24
2,83
Mdia1,4 = 2,18
1
4
1
4
1
1
60
ELEMENTOS (i)
di6
di4
min(di6,di4)
1
2
3
4
5
6
2,83
7,21
6,32
4,47
5
0
2
4
4,47
0
2,24
4,47
2
4
4,47
0
2,24
0
Mdia6,4 = 2,12
4
4
4
4
4
6
MEDIDES
MDIAS
(1-4)
(4-6)
(2-6)
(1-2)
(1-5)
(1-6)
(1-3)
(2-3)
(2-4)
(2-5)
(3-5)
(3-4)
(4-5)
(4-6)
(3-6)
(5-6)
2,18
2,12
1,85
1,51
1,55
2,12
1,51
2,76
1,79
1,91
1,91
1,79
1,83
2,12
1,92
1,49
61
uma poro dos dados como uma amostra representativa, e escolher os medides dessa
amostra. Se a amostra selecionada aleatoriamente, ela dever representar bem o conjunto de
dados originais, apresentando bons resultados (KAUFMAN, 1990).
62
63
Exemplo. Utilizando o software Matlab, aplicamos o algoritmo fuzzy c-means aos elementos
da tabela 4.4, considerando a diviso dos elementos em dois grupos. A seguir, mostramos, o
resultado apresentado pelo algoritmo.
ELEMENTOS
1
2
3
4
5
6
4
2
4
2
3
6
3
7
7
3
5
1
ELEMENTO
GRUPO 1
GRUPO 2
1
2
3
4
5
6
0.9515
0.0518
0.0700
0.6605
0.1451
0.8902
0.0485
0.9482
0.9300
0.3395
0.8549
0.1098
64
CENTRO
Grupo 1
Grupo 2
4,3168
2,9578
2,3009
6,2364
65
N 1
(u (t ) w
i
ij (t ))
(4.11)
i =0
66
ser o vencedor. Assim, selecionado o neurnio da camada de sada mais prximo ao padro
apresentado, tendo um d j de valor mnimo.
O processo cooperativo inspirado em um mecanismo neurobiolgico, no qual o
neurnio vencedor do processo competitivo tende a influenciar o estado dos neurnios
vizinhos. Assim, a vizinhana inicializada com um valor de largura d 0 e vai diminuindo a
cada iterao, segundo a relao:
t
d t = d 0 1
T
(4.12)
(4.13)
(4.14)
(t ) = (0)1
T
(4.15)
67
neurnio que reagir mais fortemente aos estmulos do elemento apresentado ganha-o para si.
Alm disso, refora suas ligaes com os vizinhos prximos, sensibilizando-os um pouco
mais s caractersticas do elemento capturado.
Numa prxima iterao, quando um elemento parecido for apresentado ao mapa, toda
a regio sensibilizada reagir um pouco mais intensamente. Por outro lado, como os
neurnios vizinhos so diferentes do neurnio ganhador, cada um reagir mais intensamente a
um elemento um pouco diferente.
A cada nova apresentao de um elemento ao mapa, o perfil de sensibilidade dos
neurnios vai se alterando, isto chamado de treinamento da rede. Estas alteraes, no
entanto, so cada vez menores, de forma que a configurao do mapa converge para uma
disposio estvel. Quando isto ocorre, o mapa aprendeu a classificar indivduos.
Essas redes so teis principalmente em reconhecimento de padres, quando as classes
a que devem pertencer os elementos a serem reconhecidos no so conhecidas inicialmente.
O resultado do processamento de uma rede treinada que cada neurnio torna-se dono
de um certo nmero de elementos, parecidos com os capturados pelos neurnios vizinhos.
Desta maneira, elementos semelhantes vo sendo posicionados prximos entre si, formando
um gradiente de caractersticas. Uma reviso detalhada deste tpico podem ser encontrada em
(KOHONEN, 1997).
4.5 CONCLUSO
Neste captulo, tratamos diversas tcnicas de anlise de cluster hierrquicas e nohierrquicas, trazendo seus algoritmos, caractersticas, exemplos e funes distncia
empregadas. Maiores detalhes sobre as tcnicas estatsticas de anlise de cluster podem ser
obtidos em (SNEATH, 1973), (JOHNSON, 1992), (KAUFMAN, 1990), (ROMESBURG,
1984) e (ANDERBERG, 1973). Alm dessas, apresentamos, brevemente, outras tcnicas
68
69
5 ESTUDOS DE CASO
Nesse captulo, realizaremos trs estudos de caso, com diferentes conjuntos de dados,
utilizando alguns mtodos de anlise de cluster apresentados nos captulos anteriores.
Para essa anlise, utilizaremos o software estatstico Minitab verso 13.2, da empresa
Minitab Inc.. Esse software possui a maioria dos mtodos de anlise de cluster citados no
trabalho. A figura 5.1 traz a tela inicial do software.
70
a) Anlise descritiva dos dados e histograma - para realizar uma anlise descritiva dos dados
armazenados na planilha, devemos seguir, a partir do menu superior, os comandos Stat
Basic Statistics
Display Descriptive Statistics. Aps isso, ser exibida uma tela, conforme a
figura 5.2.
71
c) Anlise de cluster hierrquica - para realizar uma anlise de cluster hierrquica, devemos
seguir os comandos Stat
Multivariate
tela (figura 5.4), onde temos a opo de selecionar as variveis, o mtodo, a funo distncia e
a visualizao do dendograma.
d) Mtodo do k-means - para aplicar o mtodo do k-means, devemos seguir os comandos Stat
Multivariate
devemos escolher as variveis para anlise. Clicando em Storage e selecionando uma varivel
em branco, os grupos ao qual foram associados os elementos sero armazenados.
72
5.1.1 Simulaes
Primeiramente, faremos uma anlise descritiva das variveis. O resultado
apresentado na tabela a seguir.
VARIVEL
MDIA
DESVIO PADRO
MNIMO
MXIMO
Ciclo de mquina
203,8
260,3
17
1500
Memria cache
25,21
40,63
256
Com base na tabela, observamos que o ciclo de mquina est entre 17 e 1500
nanosegundos, e apresenta um alto desvio padro em relao mdia. A varivel memria
cache est distribuda entre 0 e 256 kilobytes, tambm com um alto desvio padro.
Para visualizar a distribuio das variveis, temos o histograma da varivel memria
cache (figura 5.6).
73
Na figura 5.6, observamos que a maioria dos processadores possui memria cache
entre 0 e 100. Existe ainda, um grupo menor com memria cache entre 100 e 200, e dois
processadores (outliers) com memria de 256 kilobytes.
A figura 5.7 traz o histograma da varivel ciclo de mquina.
Observamos, na figura 5.7, que a maioria dos processadores possui ciclo de mquina
entre 0 e 500. Alm disso, existe um grupo menor de processadores com ciclo de mquina
entre 500 e 1000, e dois processadores (outliers) com ciclo de mquina de 1500.
Analisando as duas variveis em conjunto, temos o diagrama de disperso da figura
5.8.
74
Figura 5.8: Diagrama de disperso das variveis ciclo de mquina e memria cache.
75
Figura 5.9: Dendograma utilizando o mtodo de ligao por vizinho mais prximo.
Na figura 5.9, podemos observar que foram formados alguns grupos pequenos, e que
esses grupos foram encadeados em um grupo nico (grupo com a maioria dos elementos).
Com base no corte do dendograma da figura 5.9 (linha pontilhada), verificamos a
diviso dos dados em 6 grupos.
A figura 5.10 traz o diagrama de disperso, identificando os grupos por cores
diferentes.
Figura 5.10: Diagrama de disperso do mtodo de ligao por vizinho mais prximo.
O resultado apresentado pelo mtodo de ligao por vizinho mais prximo no foi
satisfatrio devido presena de encadeamento, que ocorreu com o grupo dos elementos em
vermelho, unindo processadores bem diferentes. Nesse grupo, foram agrupados desde
76
Com base no corte do dendograma da figura 5.11, verificamos a diviso dos dados em
quatro grupos. A figura 5.12 traz o diagrama de disperso, identificando os quatro grupos em
cores diferentes.
Figura 5.12: Diagrama de disperso do mtodo de ligao por vizinho mais distante.
77
O resultado apresentado pelo mtodo de ligao por vizinho mais distante tambm no
satisfatrio, devido incorporao de dois dos outliers ao grupo identificado em azul.
Na figura 5.13, verificamos a diviso dos elementos em quatro grupos. A figura 5.14
traz o diagrama de disperso, identificando os grupos em diferentes cores.
78
5.1.1.4
mdias
Baseado na teoria do captulo 4, observamos, a seguir, que para os dados analisados,
os mtodos de ligao por centride e ligao por mdias apresentam melhores resultados.
As figuras 5.15 e 5.16 trazem os dendogramas dos mtodos de ligao por centride e
de ligao por mdias, respectivamente.
79
Figura 5.17: Diagrama de disperso dos mtodos de ligao por centride e por mdia.
5.1.2 Concluso
Os mtodos de ligao por centride e por mdia apresentaram melhores resultados aos
dados analisados, assim, consideraremos os grupos obtidos por esses mtodos o resultado
final dos agrupamentos.
Os grupos formados pelo diagrama de disperso da figura 5.17 esto distribudos de
acordo com a tabela 5.1.
80
GRUPO
QUANTIDADE DE
PROCESSADORES
Preto
Vermelho
Verde
Azul
Roxo
2
174
13
18
2
CICLO DE MAQUINA
MEMRIA CACHE
Baixo
Baixo
Baixo
Intermedirio
Alto
Tabela 5.1: Grupos finais.
Alta
Baixa
Intermediria
Baixa
Baixa
A tabela 5.2 traz a diviso dos valores das variveis em trs faixas.
CICLO DE MQUINA
Baixo
Intermedirio
Alto
AMPLITUDE
MEMRIA CACH
17-500
Baixa
500-1100
Intermediria
1100-1500
Alta
Tabela 5.2: Classificao das variveis.
AMPLITUDE
0-80
80-160
160-256
A tabela 5.3 traz a descrio da quantidade de processadores por grupo, dividido por
fabricante.
GRUPO
Preto
Vermelho
Verde
Azul
Roxo
FABRICANTE
QUANTIDADE
FABRICANTE
QUANTIDADE
adviser
nas
amdahl
apollo
basf
bti
burroughs
c.r.d
cambex
cdc
dec
dg
four-phase
gould
harris
honeywell
1
1
8
2
2
2
7
6
5
7
4
5
1
2
7
13
hp
ibm
ipl
magnuson
microdata
nas
ncr
nixdorf
perkin-elmer
prime
siemens
sperry
sratus
wang
7
21
6
6
1
17
11
3
3
5
11
9
1
2
amdahl
burroughs
cdc
gould
nas
ncr
siemens
sperry
dec
dg
formation
ibm
ibm
1
1
2
1
1
2
1
4
2
2
5
9
2
81
A figura 5.18 traz a diviso final dos processadores em cinco grupos diferentes,
classificados em trs faixas de valores. Com essa diviso, podemos observar que os
fabricantes de processadores produzem uma variedade maior de modelos de processadores de
menor poder computacional, com utilizao voltada s aplicaes comerciais.
DESCRIO
1 a 48
49-54
55
56
57
58
82
K-MDIAS
REAL
SPAM
NO-SPAM
TOTAL
SPAM
2622 (56,99%)
166 (3,61%)
2788 (60,60%)
NO-SPAM
480 (10,43%)
1333 (28,97%)
1813 (39,40%)
TOTAL
3102 (67,42%)
1499 (32,58%)
4601 (100,00%)
Tabela 5.5: Identificao dos e-mails e fabricantes.
Observamos, na tabela 5.5, uma baixa porcentagem (3,61%) de e-mails no-spam que
o mtodo k-means classificou como spam. Porm, a porcentagem de e-mails spam
classificados como no-spam maior, 10,43%.
As porcentagens apresentadas na tabela 5.5 foram obtidas comparando-se cada e-mail
classificado pelo mtodo k-means ao respectivo e-mail previamente classificado.
5.2.2 Concluso
Conclumos que se um usurio com o conjunto dos 3102 e-mails acima, utilizasse o
mtodo k-means como um filtro de sua caixa de e-mails, ele teria poucos problemas com emails desejados (166 mensagens) que foram direcionados para a caixa de e-mail spam, mas
maiores problemas com e-mails indesejados (480 mensagens) que chegariam sua caixa de
entrada. Entretanto, um conjunto de variveis mais adequado poderia permitir uma melhor
deteco dos e-mails.
83
VARIVEL
MDIA
DESVIO PADRO
MNIMO
MXIMO
ENTRADA
4,6
39
1
10721
SADA
4,6
21,48
0
3445
Tabela 5.6: Anlise descritiva das variveis ENTRADA e SADA.
84
Observamos, na figura 5.19, que a varivel apresenta uma alta concentrao nos
valores prximos de zero, tendo um decrscimo exponencial extremamente rpido.
A figura 5.20 traz o histograma da varivel SADA.
85
86
GRUPO
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
QUANTIDADE
MNIMA
ENTRADA
MXIMA
ENTRADA
MNIMO
SADA
MXIMA
SADA
3
7026
10721
0
17
8
3562
4300
2
21
237447
1
13
0
4
3262
1
23
23
106
1391
105
364
94
365
66330
1
13
1
22
5868
17
82
0
52
3100
1
105
24
142
335
79
322
0
61
238
1
47
140
486
6
1
7
1736
3445
58
1
11
497
1478
106
346
863
0
642
7528
7
52
0
28
49
863
2347
0
1058
Tabela 5.7: Resultado dos agrupamentos dos dados de pginas web.
Com base nestes grupos, utilizamos o software Pajek (PAJEK, 2004) e obtemos uma
representao grfica simplificada dessa rede, conforme as figuras 5.22 e 5.23.
87
5.3.2 Concluso
Nessa anlise, observamos existncia de alguns grupos que possuem um grande
nmero de sites que apontam para eles, apesar de possurem poucos elementos, como os
grupos 1, 2. As pginas desses grupos so importantes para a rede, e caso haja alguma falha
nesses grupos, a rede perderia diversas conexes. Outro grupo importante para a formao da
rede, o grupo 11, pois concentra grande quantidade de links em suas poucas pginas.
Verificamos, neste estudo de caso, a importncia de tcnicas de minerao de dados
para a explorao de estruturas e caractersticas de redes complexas, como a rede internet.
88
6 CONCLUSO
89
similaridade. Nas primeiras simulaes, onde foram utilizadas as tcnicas de ligao por
vizinho mais prximo, ligao por vizinho mais distante, ligao de Ward, os resultados no
foram satisfatrios, devido presena de outliers e a forma como as funes distncia
definem os agrupamentos. Os mtodos de ligao por mdias e ligao por centride
obtiveram melhores resultados, dividindo, de forma correta, os diversos processadores.
Em uma segunda anlise, utilizamos um conjunto de informaes sobre e-mails para
agrupa-los em e-mails spam e no-spam, resultado que apresenta um grande valor prtico.
Aqui, foi empregada a tcnica no-hierrquica do k-means, utilizando a funo de
similaridade de distncia Euclidiana. Essa anlise apresentou um resultado bastante
satisfatrio, observando-se uma pequena porcentagem de erro, similar a outras tcnicas
classificao automtica.
Em uma ltima anlise realizada, um conjunto de dados de pginas web foi utilizado, e
aplicamos a tcnica de cluster no-hierrquica para particionar essas pginas em grupos
similares, e obter uma representao grfica e simplificada da rede.
Tendo em vista os resultados aqui obtidos, observamos a efetiva aplicabilidade das tcnicas
de cluster, hierrquica e no-hierrquica, as quais se mostraram eficientes no tratamento de
dados complexos com recursos computacionais relativamente modestos. O sucesso, aqui
verificado, do uso dessas tcnicas sobre dados associados estrutura internet (como e-mails e
websites), indicam como promissores novos estudos e o aprofundamento do uso da anlise de
cluster em dados ligados a estrutura de redes complexas e internet, para seu melhor
entendimento.
90
REFERNCIAS BIBLIOGRFICAS
91
INMON, William H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997.
JACKSON, Joyce. Data mining: a conceptual overview. Communications of the Association
for Information Systems. v. 8, p. 267-296, Mar. 2002.
JOHNSON, Richard. A.; WICHERN, Dean W. Applied multivariate statistical analysis.
4th ed. New Jersey: Prentice Hall, 1992.
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM Computing
Surveys, New York, v. 31, n. 3, p. 265-323, Sept., 1999.
KAUFMAN, Leonard; ROUSSEEUW, Peter J. Finding groups in data: an introduction to
cluster analysis. New York: Wiley, 1990.
KOHONEN, T. Self-organizing maps. 2nd ed. Heidelberg: Springer, 1997.
MINITAB. Tutorials Homepage. Disponvel em: <http://www.minitab.com/resources/tutorials>.
Acesso em: 20 abr. 2004.
PAJEK. Program for large network analysis. University of Ljubljana. 2004. Disponvel em:
<http://vlado.fmf.uni-lj.si/pub/networks/pajek/>. Acesso em: 15 abr. 2004.
REZENDE, Solange Oliveira et al. Minerao de dados. In: REZENDE, Solange Oliveira
(Org.). Sistemas inteligentes: fundamentos e aplicaes. So Paulo: Malone, 2003, p. 307333.
ROMESBURG, Charles H. Cluster analysis for researchers. Belmont: Lifetime Learning
Publications, 1984.
RUSSEL, Stuart J.; NORVIG, Peter. Artificial intelligence: a modern approach. Upper Saddle
River: Prentice Hall, 1995.
SNEATH, Peter H.; SOKAL, Robert R. Numerical taxonomy: the principles and practice of
numerical classification. San Francisco: W. H. Freeman, 1973.
ZAIANE, Osmar R. et al. On data clustering analysis: scalability, constraints and validation.
Edmonton Alberta, University of Alberta, 2003.
WEISS, Sholon M.; KULIKOWSKY, Casimir A. Computer systems that learn: classification
and prediction methods from statistics. Morgan Kaufman, 1991.
92
BIBLIOGRAFIA COMPLEMENTAR
CABENA, Peter et al. Discovering data mining: from concept to implementation. New
Jersey: Prentice Hall, 1998.
CADEZ, Igor et al. Model-based clustering and visualization of navigation patterns on a web
site. Data Mining and Knowledge Discovery, v. 7, n. 4, p. 399-424, Oct. 2003.
EVERITT, Brian S. Cluster analysis. 3rd ed. London: Edward Arnold, 1993.
HALKIDI, Maria; BATISTAKIS, Yannis; VAZIRGIANNIS, Michalis. On clustering
validation techniques. Journal of Intelligent Information Systems, v. 17, n. 2-3, p. 107-145,
Dec. 2001.
MACKINNON, Murray J; GLICK, Ned. Data mining and knowledge discovery in databases:
an overview. Australian New Zealand Journal of Statistics, v. 41, p. 255-275, Sep. 1999.
MINERAO de Dados. Grupo de Sistemas Inteligentes. Maring: Universidade Estadual de
Maring. Disponvel em: <http://www.din.uem.br/ia/mineracao/geral/index.html>. Acesso
em: 10 out. 2003.
STATLIB. Data, software and news from the statistics community. Disponvel em:
<http://lib.stat.cmu.edu/>. Acesso em: 27 set. 2003.
STATISTICA. Data mining, data analysis, quality control, and web analytics software.
Disponvel em: <http://www.statsoftinc.com/>. Acesso em: 10 nov. 2003.
WITTEN, Ian H.; FRANK, Eibe. Data mining: practical machine learning tools and
techniques with Java implementations. San Francisco: Morgan Kaufmann, 1999.