Professional Documents
Culture Documents
Eduardo Corra Gonalves Escola Nacional de Cincias Estatsticas (IBGE/ENCE) Rua Andr Cavalcanti, 106, Centro 20.231-050 Rio de Janeiro RJ eduardo.correa@ibge.gov.br
Tpicos da Apresentao
PARTE 1: Introduo Minerao de Dados
Data Mining, Fraldas e Cervejas Tarefas e Tcnicas de Minerao de Dados Contexto atual da Minerao de Dados
Minerao de dados: empregada em pesquisas cientficas desde o incio dos anos 90. Muitas empresas esto se beneficiando da tecnologia com o propsito de alcanar um melhor posicionamento no mercado. Mas o que minerao de dados? Quais so as suas aplicaes prticas? Estas questes so discutidas a seguir!
Processo realizado atravs de estratgias automatizadas que tem por objetivo a descoberta de conhecimento valioso em grandes bases de dados.
Esquema conceitual: um pequeno diamante de informao extrado a partir de uma verdadeira montanha de dados!
Estudar data mining significa mergulhar fundo nos algoritmos! Trabalhar com data mining consiste em trabalhar com algoritmos! Utilizar uma ferramenta de data mining significa conhecer e saber
manipular os algoritmos que ela disponibiliza!
Validade
Inesperabilidade
Interpretabilidade
Novidade
Utilidade
Estas propriedades sero explicadas no exemplo a seguir.
Exemplo real (ser?) e muito conhecido. De acordo com [BL97], a minerao do banco de dados de uma grande loja de departamentos dos EUA, revelou que grande parte dos consumidores que fazem compras nas noites de quinta-feira, costuma adquirir os dois produtos: fraldas e cerveja. Exemplo antigo, mas ainda vale a pena discuti-lo. Quando foi minerada, a regra apresentou todas as propriedades capazes de caracteriz-la como interessante para os analistas da loja de departamentos. No por acaso, o exemplo citado em muitos cursos e livros de minerao de dados.
Foi uma associao inesperada. Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a produtos como salgados, carne para churrasco e outras bebidas alcolicas, mas nunca a produtos de higiene infantil.
A regra foi considerada vlida. Ela possua expressividade estatstica. Uma porcentagem considervel das compras realizadas nas noites de quinta-feira continha ambos os produtos.
A regra interpretvel. Pde ser entendida e explicada pelos analistas. Sugere que nas noites de quinta-feira, os casais jovens se preparam para o fim-de-semana estocando fraldas para os bebs e cerveja para o papai. De maneira estereotipada, podemos at imaginar o jovem papai norteamericano como algum que no pode mais ir ao bar e nem aos jogos de baseball ou futebol americano. Ento ele fica em casa, assistindo aos jogos pela TV enquanto bebe as suas latinhas de cerveja! E, mais importante do que tudo, a regra descoberta era til. Os gerentes da loja de departamentos puderam tomar aes capazes de aumentar as vendas de cerveja. Ex: os produtos foram colocados em prateleiras prximas.
Nos anos 90 percebeu-se que os dados estavam sendo sub-utilizados. Por que no analis-los para descobrir novas informaes e utiliz-las de forma estratgica?
10
Este cenrio motivou o surgimento da cincia que recebeu o nome de minerao de dados. Trata-se da linha de pesquisa que se preocupa com a proposio de metodologias e algoritmos eficientes para a descoberta de conhecimento em grandes bancos de dados.
11
Para ser justo: a minerao de dados reuniu ideias oriundas de outras reas e tambm introduziu algumas novidades.
12
13
50% das compras que contm fraldas, tambm contm cerveja. 15% de todas as compras contm os dois produtos. Representao (regra de associao): {fraldas} {cerveja} A compra do produto milho verde aumenta em 5 vezes a chance de um cliente comprar ervilhas. Representao : {milho verde} {ervilhas}
14
Outras aplicaes para as Regras de Associao Sistemas de Recomendao: so sistemas que, de maneira autnoma, sugerem itens que considera interessantes para um usurio (livros, notcias, msicas, vdeos, etc).
Segurana de Sistemas: regras de associao so utilizadas para aprimorar os bancos de dados dos antivrus e sistemas de deteco de intruses.
50% dos consumidores que adquirem um netbook compram um hard disk externo de 2 a 4 meses aps a aquisio do netbook.
Outras aplicaes importantes: Anlise de sequncias de DNA. Minerao de uso da Web (anlise de sequncia de cliques).
16
17
Tarefa 3: CLASSIFICAO
Objetivo: a partir de um banco de dados contendo objetos pr-classificados (objetos cuja classe conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe desconhecida) em funo de suas caractersticas. O modelo criado chamado de modelo classificador. Exemplo - Minerao do BD de uma seguradora:
18
O modelo pode ser usado para a empresa prever a classe de um futuro cliente. A classificao uma tarefa preditiva. Mostraremos um exemplo prtico na ferramenta Weka!
19
Exemplo retirado do tutorial "A Gentle Introduction to Machine Learning and Data Mining for the Database Community" apresentado por Eamonn Keogh no 18o Simpsio Brasileiro de Bancos de Dados SBBD 2003
1
20
Outras solues: crianas e adultos, gordos e magros, inteligentes e nem tanto (!), fumantes e no-fumantes, (veja que clustering difcil e subjetivo!!!)
21
23
Nos ltimos anos, a minerao de dados tem atrado o interesse no apenas dos pesquisadores, mas tambm das empresas. Ela considerada uma importante tecnologia de Business Intelligence (BI), assim como o data warehousing e a anlise OLAP.
Alm de ferramentas comerciais (Oracle, SAS, SPSS, SQL Server, ), tambm existem ferramentas livres para minerao de dados. Exemplos: R : j existem diversos pacotes para data mining que podem ser integrados a este tradicional software open source para estatstica. Weka: ferramenta que apresentaremos hoje...
24
A mdia, de um modo geral, tambm tem dado considervel ateno minerao de dados. cada vez mais comum encontrar artigos sobre o tema em publicaes sobre computao, biologia, marketing, administrao, etc. At revistas de variedades e livros de contedo no tcnico tratam do tema. Exemplos: Numerati de Stephen Baker. O Click de Bill Tancer.
Mas h um problema srio: empresas tambm tentam usar a minerao de dados para invadir nossa privacidade e manipular nosso comportamento !!! (consulte [Bak09])
25
Tpicos: Apresentao da Ferramenta, Bases de Dados ARFF, Weka em Ao: Minerando um Classificador
26
O que Weka?
um pssaro tpico da Nova Zelndia! Mas no somente... Weka um Software livre do tipo open source para minerao de dados, desenvolvido em Java, dentro das especificaes da GPL (General Public License).
O sistema foi desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelndia. Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadmico. Seu ponto forte a tarefa de classificao, mas tambm capaz de minerar regras de associao e clusters de dados. Pode ser utilizada no modo console ou atravs da interface grfica Weka Explorer.
27
O Livro da Weka
As caractersticas da Weka e as tcnicas nela implementadas so apresentadas no livro Data Mining: Practical Machine Learning Tools and Techniques [WFH11] Os autores do livro so os idealizadores da ferramenta.
"If you have data that you want to analyze and understand, this book and the associated Weka toolkit are an excellent way to start."
Jim Gray, Microsoft Research (!?!?!?)
28
Interface Grfica: o ambiente Weka Explorer permite a execuo dos algoritmos de data mining da Weka de forma interativa. Veremos um exemplo nessa apresentao!
29
O formato ARFF utilizado como padro para estruturar as bases de dados manipuladas pela Weka.
30
31
32
33
34
35
36
um ou mais atributos preditivos. um atributo especial, denominado atributo classe (ou atributo alvo), sempre do tipo discreto.
* Base de dados exemplo retirada de : DataMining - Lus Alfredo Vidal de Carvalho, Ed. Cincia Moderna, 2001
37
A ideia minerar um modelo que classifique o cliente como cliente de carro nacional ou cliente de carro importado em funo de sua idade e renda. Mostraremos agora como minerar um classificador, sobre a base de dados da locadora de veculos, usando a tcnica de rvores de deciso (ufa!)
38
Weka em Ao (1/18)
PASSO 1: antes de comear o processo, precisamos gerar uma verso ARFF da base que iremos minerar.
39
Weka em Ao (2/18)
PASSO 2: abrir a Weka Explorer (GUI para minerao de dados)
40
Weka em Ao (3/18)
PASSO 3: abrir a base de dados
41
Weka em Ao (4/18)
PASSO 3: abrir a base de dados
42
Weka em Ao (5/18)
43
Weka em Ao (6/18)
Podemos explorar a base de dados antes de miner-la.
44
Weka em Ao (7/18)
45
Weka em Ao (8/18)
Grfico de barras: frequncia do atributo classe.
46
Weka em Ao (9/18)
Grfico: cruzamento do atributo classe com cada atributo preditivo.
47
Weka em Ao (10/18)
PASSO 4: Seleo da aba Classify para a minerao do classificador.
48
Weka em Ao (11/18)
PASSO 5: Escolha do algoritmo de classificao Dentre as tcnicas que podem ser utilizadas, encontram-se: Nave Bayes rvores de Deciso (nossa escolha nessa apresentao!) Redes Neurais k-Nearest Neighbor Support Vector Machines.
49
Weka em Ao (12/18)
PASSO 5: Escolha do algoritmo de classificao
50
Weka em Ao (13/18)
PASSO 5: Escolha do algoritmo de classificao. Optamos pelo algoritmo J48 para minerao de rvores de deciso
51
Weka em Ao (14/18)
PASSO 6: Configurar parmetros e disparar o algoritmo!
52
Weka em Ao (15/18)
Aps alguns segundos, a rvore minerada na janela Output.
53
Weka em Ao (16/18)
PASSO 7: A qualidade da rvore pode ser avaliada atravs do uso de diferentes mtricas.
Correctly Classsified Instances: porcentagem de registros classificados corretamente durante a construo do modelo de classificao. Incorrectly Classsified Instances: porcentagem de registros classificados incorretamente durante a construo do modelo de classificao.
54
Weka em Ao (17/18)
PASSO 7: A qualidade da rvore pode ser avaliada atravs do uso de diferentes mtricas. Confusion Matrix (matriz de confuso): simplesmente uma matriz quadrada que indica as classificaes corretas e errada. A classe que est sendo analisada aparece na linha. As classificaes encontradas aparecem nas colunas. A diagonal da matriz corresponde s classificaes corretas.
55
Weka em Ao (18/18)
Tambm possvel visualizar a rvore de deciso em um formato grfico.
56
57
Muitos papers cientficos relatam experincias onde a ferramenta foi aplicada de forma bem sucedida sobre bases de diferentes domnios.
A ferramenta est disponvel para Linux, Windows e outras plataformas, podendo ser obtida juntamente com seu cdigo fonte em: http://www.cs.waikato.ac.nz/ml/weka/ A verso 3.6.4 a ltima verso estvel da ferramenta.
58
59
Referncias
[Bak09] [BL97] [FPS96] S. Baker. Numerati. Ed. ARX (2009). M. J. A. Berry e G. Linoff. Data Mining Techniques for Marketing, Sales and Customer Support. Wiley Computer Publishing, 1997. U. M. Fayyad, G. Piatetsky-Shapiro e P. Smith. From Data Mining to Knowledge Discovery: An Overview. Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996, p. 134. J. Han e M. Kamber. Data Mining: Concepts and Techniques. 2a Edio, Morgan Kaufmann, 2006. R. Santos. Weka na Munheca: um Guia para Uso do Weka em Scripts e Integrao com Aplicaes Java. Instituto Nacional de Pesquisas Espaciais (INPE), 2005. R. Santos. Princpios e Aplicaes de Minerao de Dados. Notas de aula, Instituto Nacional de Pesquisas Espaciais (INPE), 2010. P. Tan, M. Steinbach e V. Kumar. Introduo Ao Data Mining - Minerao de Dados. Ed. Cincia Moderna, 2009 (ed. original em Ingls publicada em 2006). I. H. Witten, E. Frank, M. A. Hall. Data Mining: Practical Machine Learning Tools and Techniques. 3rd Edition, Morgan Kaufmann, 2011.
60