PreProcessamento de Dados

1
1
Minerao de Dados
Pr-Processamento de
Dados
O que so outliers ?
Um outlier um fato que desvia tanto de
outros fatos a ponto de gerar suspeitas de
que foi gerado por um mecanismo diferente.
Outliers podem causar um impacto
importante nas concluses de um estudo.
D.Hawkins: Identification of Outliers.
Chapman and Hall, London, 1980.
2
2
3
Deteco de outliers - Aplicaes
Deteco de fraudes
o comportamento de compras de algum que rouba um carto de crdito provavelmente
diferente daquele do proprietrio do carto.
Deteco de intruses
Ataques em sistemas de computadores apresentam comportamento
diferente do comportamento usual dos sistemas.
Perturbaes em ecossistemas
Furaces, secas, enchentes, ondas de calor, incndios.
Sade pblica
Casos de varola so considerados anomalias, que podem indicar um
problema com o processo de vacinao na cidade.
Medicina
Para um certo paciente, certos sintomas ou resultados de testes podem
indicar problemas de sade.
Outliers
A existncia de observaes discordantes com as
restantes em amostras univariadas relativamente fcil
de se determinar atravs a anlise de alguns grficos.
Em dados multidimensionais, uma observao
considerada outlier se est "muito" distante das
restantes no espao p-dimensional definido pelas
variveis.
4
3
Outliers
Na utilizao de testes formais de outliers
dividem-se em duas classes:
aqueles em que as observaes discordantes da
amostra so identificadas como sendo outliers, e;
aqueles que testama presena de outliers mas no
identificamobservaes particulares como outliers.
5
Outliers - 3 fases
Seleo de outlier
Verificao dos outlier
O que fazer com as observaes
discordantes ?
6
4
Tcnicas de Minerao de Excees
Classes de tcnicas:
Semi-automtico:
Visualizao
Automtico
Baseados em
Clustering
Baseado em
Estatstica
Baseado em
Densisdade
Baseado em
Distncia
Caractersticas desejveis
Escalvel para alta
dimensionalidade
Interpretabilidade dos
resultados
Computacionalmente
eficiente
D importncia ao
comportamento local dos
dados
Ordenao dos outliers
7
Outliers
Mtodos baseados em Estatstica
Mtodos Baseados em Agrupamento
Mtodos baseados em Distncia
Mtodos Baseados em Densidade
5
Anlise exploratria de dados
Diagramas de espalhamento entre varivel resposta
(dependente) e as independentes.
Peso vs. Altura.
9
A afastado da nuvem
com relao ao peso,
mas no intervalo de
plausibilidade de altura
potencial outlier
PESO vs. IDADE
10
A afastado da nuvem
com relao ao peso,
mas no intervalo de
plausibilidade de altura
potencial outlier
6
Diagrama de disperso das variveis independentes, para avaliar
colinearidade (forte associao entre as variveis independentes).
Altura vs. Idade
11
A afastado da
nuvem potencial
outlier ou por que
est afastado, se
no for outlier?
Regresso - Anlise dos Resduos
Diferena entre o valor observado (Yi) e o valor predito pela regresso
discrepncia que permanece aps os dados terem sido ajustados pelo
modelo de mnimos quadrados:
12
Posio dos Pontos em torno da reta vs.
Resduos
O ponto 6 est mais afastado do modelo ajustado
(reta) o resduo maior para este ponto.
7
Anlise dos Resduos
Um outlier de um conjunto de resduos um valor atpico.
Pode estar acima de 2,5 a 3 desvios padro alm da mdia do conjunto de
resduos padronizados
A presena de tal valor pode afetar o ajuste pelos mnimos quadrados
de interesse saber em que medida este ponto afeta o ajuste.
No se recomenda exclu-lo, somente nos casos de certeza de ser um valor
errado.
No mnimo, realizar anlises com e sem a presena dos outliers.
13
Deteco de outliers
Clculo DSE (Desvio Studentizado Extremo):
Existem diversas formas de analisar se uma observao um
outlier.
Padronizam-se os valores, para saber a quantos desvios padres da
mdia eles esto.
Os que se afastam muito, podem ser considerados outliers.

O que "muito"?
14
8
Outliers
15
Outliers
16
9
17
17
Boxplot
Mnimo da amostra
mas no menos de
Q
1
-1.5(Q
3
-Q
1
)
Mximo da amostra
mas no mais de
Q
3
+1.5(Q
3
-Q
1
)
18
18
Boxplot
Pode ser encarada como a representao
grfica de algumas medidas de localizao:
mediana
Q
1
Q
3
outliers e extremos
10
Weka
weka.filters.unsupervised.attribute.InterquartileRange
O filtra detecta o outlier e valores extremos baseado no intervalo entre
quartis ignorando o atributo a classe
Outliers:
Q3 + OF*IQR < x <= Q3 + EVF*IQR ou Q1 - EVF*IQR <= x < Q1 - OF*IQR
Extreme values:
x > Q3 + EVF*IQR ou x < Q1 - EVF*IQR
IQR = diferena para o intervalor Q1 and Q3
OF = Outlier Factor
EVF = Extreme Value Factor
19
Deteco de Outliers com Weka
20
1.5
3.0
weka.filters.unsupervised.attribute.InterquartileRange
detectionPerAttribute - Generates
Outlier/ExtremeValue por atributo
attributeIndices: "first" e"last" valores vlidos;
Exemplo: "first-3,5,6-10,last"
11
Deteco de Outliers com Weka
21
Verificao de outliers
Identificao do outlier - Weka
22
Visualize
Pureza x Oulier Pureza
12
23
Deteco com Weka
weka.filters.unsupervised.instance.RemoveWithValues
weka.filters.unsupervised.instance.RemoveRange
24
13
Weka
weka.filters.unsupervised.instance.RemoveWithValue
25
Outliers
Mtodos Baseados em Estatstica
Mtodos Baseados em Desvio
14
Outliers - baseada em clustering
Dados que no se ajustam a nenhum grupo so
considerados excees
Inserir figura exemplo aqui
Minerao de exceo baseada em
agrupamento
Vantagens
Reutiliza vasto leque
de mtodos de
agrupamentos
No requer
conhecimento prvio
de distribuio
Limitaes
O que se busca
otimizar os
agrupamentos, no a
deteco de excees
O que exceo para
uma configurao
pode no ser para
outra
15
K-Means - 4 clusters
29
Outliers
Mtodos baseados em Estatstica
Mtodos baseados em Agrupamento
Mtodos Baseados em Desvio
16
Minerao de Outliers Baseada em
Distncia: Dk(p)
Busca Resolver limitaes do estatstico
Um outlier determinado baseado na distancia D
k
(p)
D
k
(p)= distncia de p ao seu k-esimo vizinho
Evita suposio sobre distribuio dos dados
Menor custo computacional
Pode, s vezes, convergir para os mtodos estatsticos
Amaior parte dos mtodos usa distncia Euclidiana
a
(1)
e a
(2)
: duas instncias com k atributos
2 ) 2 ( ) 1 ( 2 ) 2 (
2
) 1 (
2
2 ) 2 (
1
) 1 (
1
) ( ... ) ( ) (
k k
a a a a a a + + +
Distncia: Dk(p)
Um objeto O de um banco de dados BD
chamado de BD(p,d)-outlier se pelo menos
uma frao p (0 < p < 1) de objetos de BD
esto fora de uma vizinhana de raio d de O
32
p = 2/3
outlier
17
Distncia: Dk(p)
Determinao dos parmetros p e d
Teste de validade: decidir se os objetos
identificados como outliers so realmente
outliers
Tarefa de um especialista humano
33
34
Entrada
Banco de dados D com N objetos
Um nmero p, 0 < p < 1
Um nmero d > 0
Dist = funo distncia considerada
Saida
Conjunto dos outliers de D, i.e., conjunto dos objetos O tais
que o nmero mximo de objetos dentro de uma d-
vizinhana de O M = N (1-p)
Deteco de Outliers Baseada em
Distncias: D
k
(p)
18
Distncias: D
k
(p)
Para cada ponto p no conjunto de dados calcula D
k
(p)
Para calcular cada D
k
(p) percorre todos os dados
Mantm uma lista de k vizinhos mais prximo para cada ponto p
Os n pontos com maior valor de D
k
(p) so os n outliers
Para melhorar a eficincia pode-se considerar blocos de pontos ao invs
de pontos individuais
36
Exemplo: IRIS
19
37
Exemplo: IRIS
38
Exemplo: IRIS
20
39
Exemplo: IRIS
40
Exemplo: IRIS
21
Distncias: D
k
(p)
Detecta os outliers mais fortes
Os outliers so ordenados pela distncia D
k
(p)
Baseia se na distncia dos vizinhos mais prximos
O conjunto de dados divididos em parties por meio de
algoritmos de agrupamento
Poda parties que no so candidatas a conter outlier
Acelera a identificao pois diminui a quantidade de
pontos
Algoritmo Baseado em parties
Distncias : D
k
(p)
Algoritmo Baseado em parties 3 etapas
Particionamento da base de dados - clustering
Ordenao das parties
Aleatrio
Nmero de objetos nas parties
Tamanho espacial ocupado pela parties
Densidade da partio
Com relao mtrica de densidade, acredita-se que em uma partio
com baixa densidade os objetos esto mais afastados uns dos outros
sendo fortes candidatos exceo.
Busca por excees
22
Distncias : D
k
(p)
Algoritmo Baseado em parties
O nmero total de pontos a ser examinado para calcular outlier
o das parties candidatas+os de suas vizinhas
Outliers
23
Outliers
Densidade de Distribuio
Baseada no Local Outlier Factor (LOF) que a mdia das
densidade do exemplo p e a densidade dos seus vizinhos mais
prximos.
LOF depende da densidade local da sua vizinhaa.
A vizinhaa definida pela distncia em relao aos MinPts-th que
so os vizinhos mais prximos, onde MinPts o nmero mnimo
de pontos considerados como vizinhos mais prximos.
Os passos do processo so:
Computam a densidade da vizinhaa local de cada ponto.
Computam LOF.
Escolhem exemplos p com maiores LOF como outliers.
24
Densidade de Distribuio
47
Na abordagem K-vizinhos p2 no
considerado como outlier, enquanto a para a
abordagem LOF, p1 e p2 so outliers.
Em uso tpico, pontos
com altos LOF so
considerados como
outliers.
Filtros: Reduo dos dados
Metodos supervisados weka.filters.supervised.instance.*
SpreadSubsample: Produz uma amostra aleatria dos dados. Este
filtro permite definir o mximo spread entre a classe mais rara e a
classe mais comum.
"
Iris.arff
Amostra com 5 registros
de cada classe
25
Filtros: Reduo dos dados
Metodos no-supervisados
weka.filters.unsupervised.instance.*
Resample: amostragem aleatria (no estratificada) do dataset
RemovePercentage Remove uma proporo do dataset, a
partir do incio da base
RemoveRange - Remove um determinado intervalo de
instncias do dataset.
weka.filters.unsupervised.instance.*
Randomize - embaralha conjunto de dados
50
26
weka.filters.unsupervised.attribute.*
RemoveUseless - Remove atribs. nominais que variam
muito (threshold definido pelo usurio, ex.: 95%) e
atributos constantes (nme/nml)
ReplaceMissingValues Preenche com a mdia (atrib.
numerico ) ou a moda (atrib.nominal)
Normalize: valores no intervalo [0,1], exceto o atributo de
classe
51
classe
52
27
classe
53
Normalizao entre 0.1 e 0.9
54
28
Referncias
Algorithms for Mining Distance-Based Outliers in Large
Datasets, Edwin M. Knorr, Raymond T. Ng:In Proc. 24th
International Conference on Very Large Databases, VLDB
1998, New York, USA.
Data Mining: concepts and techniques, de Han, J. & Kamber,
M., Morgan Kaufmann , 2001
Efficient Algoritms for Mining Outliers from Data sets. Sridhar
Ramaswamy, Rajeev Ratogi e Kyuseok Shim. 2000
Outlier Detection for High Dimensional Data. Charu C.
Aggarwal e Philip S. Yu. 2001
Identification of Outliers, D. Hawkins, Chapman and Hall,
London, 1980.

PreProcessamento de Dados

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

PreProcessamento de Dados

Uploaded by

Copyright:

Available Formats

1

Os que se afastam muito, podem ser considerados outliers.

You might also like