You are on page 1of 4

Os dados, na base da pirmide, podem ser interpretados como itens elementares, captados e

armazenados por recursos da Tecnologia da Informao. No


exemplo apresentado, consideremos uma base de dados de uma financeira que
armazene a renda mensal e as despesas mensais de seus clientes.

As informaes representam os dados processados, com significados e contextos bem


definidos. Diversos recursos da Tecnologia da Informao so utilizados para facilmente
processar dados e obter informaes. No exemplo, a capacidade mensal de endividamento
uma informao calculada a partir dos dados de renda e despesas mensais de cada cliente.
Indica um valor percentual do quanto um cliente da financeira pode contrair de emprstimos
em relao sua renda mensal.

No topo da pirmide est o conhecimento, padro ou conjunto de padres


cuja formulao pode envolver e relacionar dados e informaes. No exemplo,
o conhecimento encontra-se representado na forma de uma regra de produo.
Regras de produo tm a forma SE <condies> ENTO <concluses> e,
como outras formas de representao do conhecimento, sero mais bem explicadas ao longo
do texto. Em geral, o conhecimento no pode ser abstrado das
bases de dados por recursos tradicionais da Tecnologia da Informao. A busca
por novos conhecimentos a partir dos dados o tema principal deste livro.

A etapa de pr-processamento compreende as funes relacionadas


captao, organizao e ao tratamento dos dados. A etapa de pr-
processamento tem como objetivo a preparao dos dados para os
algoritmos da etapa seguinte, a Minerao de Dados. Durante a
etapa de Minerao de Dados, realizada a busca efetiva por
conhecimentos teis no contexto da aplicao de KDD. A etapa de
ps-processamento abrange o tratamento do conhecimento obtido
na Minerao de Dados. Tal tratamento, nem sempre necess-rio, tem
como objetivo viabilizar a avaliao da utilidade do conhecimento
descoberto.

A expresso padro vlido indica que o conhecimento deve ser verdadeiro e


adequado ao contexto da aplicao de KDD.

Um padro novo deve acrescentar novos conhecimentos aos conhecimentos


existentes no contexto da aplicao de KDD.

E, finalmente, um conhecimento til aquele que pode ser aplicado de forma a proporcionar
benefcios ao contexto da aplicao de KDD

Exemplo de um processo de seleo pra um banco utilizado

Se a renda tal, ento tal cliente provvelmente negligente, provalvemente no negligente.

Desenvolvimento Tecnolgico Esse item abrange todas as iniciativas de


concepo, aprimoramento e desenvolvimento de algoritmos, ferramentas e tecnologias de
apoio que possam ser utilizados na busca por novos
conhecimentos em grandes bases de dados.

Execuo de KDD Esse item refere-se s atividades voltadas busca efetiva de conhecimento
em bases de dados. As ferramentas produzidas pelas atividades de desenvolvimento
tecnolgico so utilizadas na execuo de processo de KDD.

A descoberta de Conhecimento em Bases de Dados caracterizada como um processo


composto por trs etapas operacionais bsicas: Pr-processamento, Minerao de Dados e
Ps-processamento.

A etapa de Pr-processamento compreende todas as funes relacionadas


captao, organizao e ao tratamento dos dados. Essa etapa tem como objetivo a
preparao dos dados para os algoritmos da etapa da Minerao de Dados

Seleo de Dados Essa funo, tambm denominada Reduo de Dados, compreende, em


essncia, a identificao de quais informaes, dentre as bases de dados existentes, devem ser
efetivamente consideradas durante o processo de KDD. Por exemplo, o nome do cliente uma
informao totalmente irrelevante em uma aplicao de KDD cujo objetivo seja construir um
modelo que preveja o comportamento de novos clientes quanto ao pagamento de futuros
crditos a eles concedidos. Por outro lado, a data de nascimento de um cliente fundamental
em um modelo para estimar o valor de uma aplice de seguro de vida para este cliente. A
seleo dos dados pode ter dois enfoques distintos: a escolha de atributos ou a escolha de
registros que devem ser considerados no processo de KDD.

Limpeza dos Dados Abrange qualquer tratamento realizado sobre os dados selecionados de
forma a assegurar a qualidade (completude, veracidade e integridade) dos fatos por eles
representados. Informaes ausentes, errneas ou inconsistentes nas bases de dados devem
ser corrigidas de forma a no comprometer a qualidade dos modelos de conhecimento a
serem extrados ao final do processo de KDD. Um exemplo simples de limpeza de dados seria a
definio de um intervalo de possveis valores para um determinado atributo. Caso surgisse
qualquer valor diferente dos definidos no intervalo, o registro contendo esse dado poderia ser
removido.

Descoberta de Associao: Abrange a busca por itens que freqentemente ocorram de forma
simultnea em transaes do banco de dados. Um exemplo clssico e didtico da aplicao
desta tarefa na rea de marketing: durante um processo de descoberta de associaes em
sua vasta base de dados, uma grande rede de mercados norte-americana descobriu que um
nmero razovel de compradores de fralda tambm comprava cerveja na vspera de finais de
semana com jogos transmitidos pela televiso.

Com uma anlise mais detalhada sobre os dados, pode-se perceber que tais compradores
eram, na realidade, homens que, ao comprarem fraldas para seus filhos, compravam tambm
cerveja para consumo enquanto cuidavam das crianas e assistiam aos jogos na televiso
durante o final de semana. Este exemplo ilustra a associao entre fraldas e cervejas. Esta
empresa utilizou o novo conhecimento para aproximar as gndolas de fraldas e cervejas na
rede de mercados, incrementando assim a venda conjunta dos dois produtos. Algoritmos tais
como o Apriori, GSP, DHP, entre outros, so exemplos de ferramentas que implementam a
tarefa de descoberta de associaes.

Classificao: Consiste em descobrir uma funo que mapeie um conjunto de registros em um


conjunto de rtulos categricos predefinidos, denominados classes. Uma vez descoberta, tal
funo pode ser aplicada a novos registros de forma a prever a classe em que tais registros se
enquadram. Como exemplo da tarefa de classificao, considere uma financeira que possua
um histrico com os dados de seus clientes e o comportamento desses clientes em relao ao
pagamento de emprstimos contrados previamente. Considere dois tipos de clientes: clientes
que pagaram em dia e clientes inadimplentes. So as classes do problema. Uma aplicao da
tarefa de classificao consiste em descobrir uma funo que mapeie corretamente os clientes,
a partir de seus dados, em uma destas classes.

Tal funo, uma vez descoberta, pode ser utilizada para prever o comportamento de novos
clientes que desejem contrair emprstimos junto financeira. Essa funo pode ser
incorporada a um sistema de apoio deciso que auxilie na filtragem e concesso de
emprstimos somente a clientes classificados como bons pagadores.

Regresso: Compreende a busca por uma funo que mapeie os registros de um banco de
dados em valores reais. Esta tarefa similar tarefa de classificao, sendo restrita apenas a
atributos numricos, Como exemplo de aplicaes de regresso, pode-se citar: predio da
soma da biomassa presente em uma floresta; estimativa da probabilidade de um paciente
sobreviver, dado o resultado de um conjunto de diagnsticos de exames; predio do risco de
determinados investimentos

Clusterizao: Utilizada para separar os registros de uma base de dados em subconjuntos ou


clusters, de tal forma que os elementos de um cluster compartilhem de propriedades comuns
que os distingam de elementos em outros clusters. O objetivo nessa tarefa maximizar
similaridade intracluster e minimizar similaridade intercluster. Diferente da tarefa de
classificao, que tem rtulos predefinidos, a clusterizao precisa automaticamente
identificar os grupos de dados aos quais o usurio dever atribuir rtulos (Fayyad et al.,
1996a). Por exemplo: uma empresa do ramo de telecomunicaes pode realizar um processo
de clusterizao de sua base de clientes de forma obter grupos de clientes que compartilhem o
mesmo perfil de compra de servios. Na implementao desta tarefa podem ser utilizados
algoritmos tais como.

Sumarizao: Essa tarefa, muito comum em KDD, consiste em procurar identificar e indicar
caractersticas comuns entre conjuntos de dados (Weiss & Indurkhya, 1998). Como exemplo
considere um banco de dados com informaes sobre clientes que assinam um determinado
tipo de revista semanal. A tarefa de sumarizao deve buscar por caractersticas que sejam
comuns a boa parte dos clientes. Por exemplo: so assinantes da revista X, homens na faixa
etria de 25 a 45 anos, com nvel superior e que trabalham na rea de finanas. Tal informao
poderia ser utilizada pela equipe de marketing da revista para direcionar a oferta para novos
assinantes.

Deteco de Desvios: Essa tarefa consiste em procurar identificar registros do banco de dados
cujas caractersticas no atendam aos padres considerados normais no contexto (Weiss &
Indurkhya, 1998). Tais registros so denominados outliers. Como exemplo considere um
banco de dados com informaes sobre compras de clientes no carto de crdito. A tarefa de
deteco de desvios deve buscar por compras cujas caractersticas divirjam do perfil normal de
compra do dono do carto.

Descoberta de Seqncias: uma extenso da tarefa de descoberta de associaes em que


so buscados itens freqentes considerando-se vrias transaes ocorridas ao longo de um
perodo. Consideremos o exemplo das compras no supermercado. Se o banco de dados possui
a identificao do cliente associada a cada compra, a tarefa de descoberta de associao pode
ser ampliada de forma a considerar a ordem em os produtos so comprados ao longo do
tempo.

Nominais ou Categricas So variveis utilizadas para nomear ou atribuir rtulos a objetos.


Podem assumir valores pertencentes a um conjunto finito e pequeno de estados possveis.
Como exemplo pode-se citar o estado civil de uma pessoa: solteiro, casado, vivo, divorciado
etc. Nas variveis nominais no h um ordenamento de seus valores. No se pode dizer que
solteiro menor que vivo, por exemplo. Os valores de variveis nominais podem ser
representados por tipos de dados alfanumricos.

Conforme apresentado anteriormente, a etapa de pr-processamento compreende as funes


relacionadas captao, organizao, ao tratamento e preparao dos dados para a etapa
da Minerao de Dados. Essa etapa possui fundamental relevncia no processo de descoberta
de conhecimento. Compreende desde a correo de dados errados at o ajuste da formatao
dos dados para os algoritmos de Minerao de Dados a serem utilizados.

Segmentao do Banco de Dados

Nesta operao, deve-se escolher um ou mais atributos para nortear o processo de


segmentao. Suponhamos que em nosso exemplo desejamos apenas analisar os clientes que
moram em residncia prpria. Tal operao poderia ser implementada por uma instruo de
seleo em SQL do tipo:

SELECT *
FROM CLIENTE
WHERE TP_RES=P;

Eliminao Direta de Casos

Esta operao pode ser interpretada como uma variao da anterior (operao de
complemento), e nela so especificados os casos a serem eliminados e no os casos que
devem permanecer na anlise. No mesmo exemplo enunciado acima, tal operao poderia ser
implementada por uma instruo de excluso em SQL do tipo:

DELETE FROM CLIENTE


WHERE TP_RES < > P;

You might also like