Professional Documents
Culture Documents
E, finalmente, um conhecimento til aquele que pode ser aplicado de forma a proporcionar
benefcios ao contexto da aplicao de KDD
Execuo de KDD Esse item refere-se s atividades voltadas busca efetiva de conhecimento
em bases de dados. As ferramentas produzidas pelas atividades de desenvolvimento
tecnolgico so utilizadas na execuo de processo de KDD.
Limpeza dos Dados Abrange qualquer tratamento realizado sobre os dados selecionados de
forma a assegurar a qualidade (completude, veracidade e integridade) dos fatos por eles
representados. Informaes ausentes, errneas ou inconsistentes nas bases de dados devem
ser corrigidas de forma a no comprometer a qualidade dos modelos de conhecimento a
serem extrados ao final do processo de KDD. Um exemplo simples de limpeza de dados seria a
definio de um intervalo de possveis valores para um determinado atributo. Caso surgisse
qualquer valor diferente dos definidos no intervalo, o registro contendo esse dado poderia ser
removido.
Descoberta de Associao: Abrange a busca por itens que freqentemente ocorram de forma
simultnea em transaes do banco de dados. Um exemplo clssico e didtico da aplicao
desta tarefa na rea de marketing: durante um processo de descoberta de associaes em
sua vasta base de dados, uma grande rede de mercados norte-americana descobriu que um
nmero razovel de compradores de fralda tambm comprava cerveja na vspera de finais de
semana com jogos transmitidos pela televiso.
Com uma anlise mais detalhada sobre os dados, pode-se perceber que tais compradores
eram, na realidade, homens que, ao comprarem fraldas para seus filhos, compravam tambm
cerveja para consumo enquanto cuidavam das crianas e assistiam aos jogos na televiso
durante o final de semana. Este exemplo ilustra a associao entre fraldas e cervejas. Esta
empresa utilizou o novo conhecimento para aproximar as gndolas de fraldas e cervejas na
rede de mercados, incrementando assim a venda conjunta dos dois produtos. Algoritmos tais
como o Apriori, GSP, DHP, entre outros, so exemplos de ferramentas que implementam a
tarefa de descoberta de associaes.
Tal funo, uma vez descoberta, pode ser utilizada para prever o comportamento de novos
clientes que desejem contrair emprstimos junto financeira. Essa funo pode ser
incorporada a um sistema de apoio deciso que auxilie na filtragem e concesso de
emprstimos somente a clientes classificados como bons pagadores.
Regresso: Compreende a busca por uma funo que mapeie os registros de um banco de
dados em valores reais. Esta tarefa similar tarefa de classificao, sendo restrita apenas a
atributos numricos, Como exemplo de aplicaes de regresso, pode-se citar: predio da
soma da biomassa presente em uma floresta; estimativa da probabilidade de um paciente
sobreviver, dado o resultado de um conjunto de diagnsticos de exames; predio do risco de
determinados investimentos
Sumarizao: Essa tarefa, muito comum em KDD, consiste em procurar identificar e indicar
caractersticas comuns entre conjuntos de dados (Weiss & Indurkhya, 1998). Como exemplo
considere um banco de dados com informaes sobre clientes que assinam um determinado
tipo de revista semanal. A tarefa de sumarizao deve buscar por caractersticas que sejam
comuns a boa parte dos clientes. Por exemplo: so assinantes da revista X, homens na faixa
etria de 25 a 45 anos, com nvel superior e que trabalham na rea de finanas. Tal informao
poderia ser utilizada pela equipe de marketing da revista para direcionar a oferta para novos
assinantes.
Deteco de Desvios: Essa tarefa consiste em procurar identificar registros do banco de dados
cujas caractersticas no atendam aos padres considerados normais no contexto (Weiss &
Indurkhya, 1998). Tais registros so denominados outliers. Como exemplo considere um
banco de dados com informaes sobre compras de clientes no carto de crdito. A tarefa de
deteco de desvios deve buscar por compras cujas caractersticas divirjam do perfil normal de
compra do dono do carto.
SELECT *
FROM CLIENTE
WHERE TP_RES=P;
Esta operao pode ser interpretada como uma variao da anterior (operao de
complemento), e nela so especificados os casos a serem eliminados e no os casos que
devem permanecer na anlise. No mesmo exemplo enunciado acima, tal operao poderia ser
implementada por uma instruo de excluso em SQL do tipo: