Professional Documents
Culture Documents
Murilo Naldi
Agradecimentos
Aula anterior
Classificao
Consiste na tarefa de organizar objetos em
categorias pr-definidas
Duas partes:
Induzir um modelo
Aplica o modelo induzido
rvores de deciso
Problemas
diferentes modelos?
4
Avaliando o desempenho
modelos comparados?
Matriz confuso
Matriz que possibilita visualizar a confuso
Matriz de confuso
f(11):VP (verdadeiro
CLASSE PREDITA
CLASSE
REAL
1
0
positivo)
f(10): FN (falso
f(11)
f(10)
f(01): FP (falso
f(01)
f(00)
negativo)
positivo)
f(00):VN (verdadeiro
negativo)
7
Medida de preciso:
mtodo bastante utilizado...
Taxa de erro:
complemento da preciso
Limitaes da preciso
Mtricas Derivadas da
Matriz de Confuso
Confiabilidade
negativa
Especificidade
Cobertura
Suporte
11
Medida F
12
Matriz de custos
CLASSE
REAL
c(1/1)
c(1/0)
c(0/1)
c(0/0)
Exemplo
Matriz
de custo
CLASSE
REAL
Modelo
M1
CLASSE
REAL
CLASSE PREDITA
150
40
60
250
Preciso = 80%
Custo = 3910
CLASSE PREDITA
C(i|j)
-1
100
Modelo
M2
CLASSE
REAL
CLASSE PREDITA
250
45
200
Preciso = 90%
Custo= 4255
14
Preciso X Custo
Confuso
CLASSE
REAL
CLASSE PREDITA
Custo
CLASSE PREDITA
1
CLASSE
REAL
Preciso proporcional ao
custo se:
1. c(1|0)=c(1|0) = q
2. c(1|1)=c(0|0) = p
N=a+b+c+d
Preciso = (a + d)/N
Custo = p (a + d) + q (b + c)
= p (a + d) + q (N a d)
= q N (q p)(a + d)
= N [q (q-p) * Preciso
15
Avaliando o confiabilidade
diferentes modelos?
16
Curva de aprendizado
Curva de
aprendizagem mostra
como a preciso
varia com o tamanho
da amostra
Efeito do pequeno
tamanho da amostra:
Vis na estimativa
Varincia da estimativa
18
Mtodos de amostragem
Mtodos de amostragem
20
Holdout
21
Mtodos de
Treinar-e-Testar
Qualidade da predio
23
Qualidade da predio
24
Amostragem Aleatria
25
Amostragem aleatria
26
Validao Cruzada
Validao Cruzada
28
Validao Cruzada
Qual melhor
valor para r?
Quando maior
o valor de r,
maior o
conjunto de
treinamento
Mais parecida
cada amostra
29
Validao Cruzada
Estratificada
30
Leave-one-out
Leave-one-out
32
Bootstraping
Bootstraping e0
34
Comparando modelos
diferentes modelos?
35
Curva ROC
37
Curva ROC
(VP,FP):
(0,0): declara tudo como
Linha diagonal:
Sorteio aleatrio
Abaixo da linha:
a predio contrria a
classe verdadeira
38
Como construir?
Modelo
P(+|A)
Classe
0.95
0.93
0.87
0.85
0.85
0.85
0.76
0.53
0.43
10
0.25
39
Como construir?
+
0.25
0.43
0.53
0.76
0.85
0.85
0.85
0.87
0.93
0.95
1.00
TP
FP
TN
FN
TPR
0.8
0.8
0.6
0.6
0.6
0.6
0.4
0.4
0.2
FPR
0.8
0.8
0.6
0.4
0.2
0.2
Class
Limiar >=
Curva ROC:
40
Teste de significncia
Testes de hipteses
Testes de hipteses
Wilcoxon
Teste no paramtrico que utiliza ranks
Mltiplas comparaes
ANOVA
Assume que os dados seguem a distribuio normal
Friedman
Teste no paramtrico que utiliza ranks
Demsar, J. (2006). Statistical comparisons of classifiers over
multiple data sets. Journal of Machine Learning Research 7, 130.
43
Bibliografia