Professional Documents
Culture Documents
1
Minerao de Dados
Pr-Processamento de
Dados
O que so outliers ?
Um outlier um fato que desvia tanto de
outros fatos a ponto de gerar suspeitas de
que foi gerado por um mecanismo diferente.
Outliers podem causar um impacto
importante nas concluses de um estudo.
D.Hawkins: Identification of Outliers.
Chapman and Hall, London, 1980.
2
2
3
Deteco de outliers - Aplicaes
Deteco de fraudes
o comportamento de compras de algum que rouba um carto de crdito provavelmente
diferente daquele do proprietrio do carto.
Deteco de intruses
Ataques em sistemas de computadores apresentam comportamento
diferente do comportamento usual dos sistemas.
Perturbaes em ecossistemas
Furaces, secas, enchentes, ondas de calor, incndios.
Sade pblica
Casos de varola so considerados anomalias, que podem indicar um
problema com o processo de vacinao na cidade.
Medicina
Para um certo paciente, certos sintomas ou resultados de testes podem
indicar problemas de sade.
Outliers
A existncia de observaes discordantes com as
restantes em amostras univariadas relativamente fcil
de se determinar atravs a anlise de alguns grficos.
Em dados multidimensionais, uma observao
considerada outlier se est "muito" distante das
restantes no espao p-dimensional definido pelas
variveis.
4
3
Outliers
Na utilizao de testes formais de outliers
dividem-se em duas classes:
aqueles em que as observaes discordantes da
amostra so identificadas como sendo outliers, e;
aqueles que testama presena de outliers mas no
identificamobservaes particulares como outliers.
5
Outliers - 3 fases
Seleo de outlier
Verificao dos outlier
O que fazer com as observaes
discordantes ?
6
4
Tcnicas de Minerao de Excees
Classes de tcnicas:
Semi-automtico:
Visualizao
Automtico
Baseados em
Clustering
Baseado em
Estatstica
Baseado em
Densisdade
Baseado em
Distncia
Caractersticas desejveis
Escalvel para alta
dimensionalidade
Interpretabilidade dos
resultados
Computacionalmente
eficiente
D importncia ao
comportamento local dos
dados
Ordenao dos outliers
7
Outliers
Mtodos baseados em Estatstica
Mtodos Baseados em Agrupamento
Mtodos baseados em Distncia
Mtodos Baseados em Densidade
5
Anlise exploratria de dados
Diagramas de espalhamento entre varivel resposta
(dependente) e as independentes.
Peso vs. Altura.
9
A afastado da nuvem
com relao ao peso,
mas no intervalo de
plausibilidade de altura
potencial outlier
Anlise exploratria de dados
PESO vs. IDADE
10
A afastado da nuvem
com relao ao peso,
mas no intervalo de
plausibilidade de altura
potencial outlier
6
Anlise exploratria de dados
Diagrama de disperso das variveis independentes, para avaliar
colinearidade (forte associao entre as variveis independentes).
Altura vs. Idade
11
A afastado da
nuvem potencial
outlier ou por que
est afastado, se
no for outlier?
Regresso - Anlise dos Resduos
Diferena entre o valor observado (Yi) e o valor predito pela regresso
discrepncia que permanece aps os dados terem sido ajustados pelo
modelo de mnimos quadrados:
12
Posio dos Pontos em torno da reta vs.
Resduos
O ponto 6 est mais afastado do modelo ajustado
(reta) o resduo maior para este ponto.
7
Anlise dos Resduos
Um outlier de um conjunto de resduos um valor atpico.
Pode estar acima de 2,5 a 3 desvios padro alm da mdia do conjunto de
resduos padronizados
A presena de tal valor pode afetar o ajuste pelos mnimos quadrados
de interesse saber em que medida este ponto afeta o ajuste.
No se recomenda exclu-lo, somente nos casos de certeza de ser um valor
errado.
No mnimo, realizar anlises com e sem a presena dos outliers.
13
Deteco de outliers
Clculo DSE (Desvio Studentizado Extremo):
Existem diversas formas de analisar se uma observao um
outlier.
Padronizam-se os valores, para saber a quantos desvios padres da
mdia eles esto.