Aula 05 Desempenhoecomparacao

Aula 05 Prof.
Murilo Naldi
Agradecimentos
Parte do material utilizado nesta aula foi cedido pelos

professores Jos Augusto Baranauskas, Maria Carolina
Monard e Solange Rezende e, por esse motivo, o
crdito deste material deles
Copyright Apresentao 2011 por Jos Augusto

BaranauskasUniversidade de So Paulo
Parte do material utilizado nesta aula foi disponibilizado

por M. Kumar no endereo:
www-users.cs.umn.edu/~kumar/dmbook/index.php
2
Aula anterior
Classificao
Consiste na tarefa de organizar objetos em
categorias pr-definidas
Duas partes:
Induzir um modelo
Aplica o modelo induzido
rvores de deciso
Problemas
Existem vrias tcnicas de classificao

Exemplos: rvores de deciso, regras, vizinhos,
bayes, redes neurais, SVMs...
Depois de escolhida uma tcnica, vrios

mtodos de induzir um modelo
Gera as perguntas:
Como avaliar a desempenho de um modelo?
Como obter estimativas confiveis?
Como comparar o desempenho relativo de
diferentes modelos?
4
Avaliando o desempenho
A partir deste ponto trataremos:

modelos comparados?
Mtodos para avaliao

de desempenho
Foco na capacidade preditiva de um

modelo
Ignora custo computacional...
Matriz confuso
Matriz que possibilita visualizar a confuso
que um modelo faz ao predizer as classes

de um problema
Matriz de confuso
Seja f(ab) a frequncia em que a classe real

a e a classe prevista b
Seja n o nmero total de objetos
f(11):VP (verdadeiro
CLASSE PREDITA
CLASSE
REAL
1
0
positivo)
f(10): FN (falso
f(11)
f(10)
f(01): FP (falso
f(01)
f(00)
negativo)
positivo)
f(00):VN (verdadeiro
negativo)
7
Mtricas para avaliao

de desempenho
Medida de preciso:
mtodo bastante utilizado...
Mtricas para avaliao

de desempenho
Taxa de erro:
complemento da preciso
Limitaes da preciso
Considere um problema de 2 classes

Nmero de exemplos Classe 0 = 9990
Nmero de exemplos de Classe 1 = 10
Se o modelo prev tudo para ser classe 0, a

preciso 9990/10000 = 99,9%
A preciso enganosa porque o modelo no
detectar qualquer exemplo uma classe
Taxa de erro possui mesma limitao

10
Mtricas Derivadas da
Matriz de Confuso
Confiabilidade positiva Sensitividade
Confiabilidade
negativa
Especificidade
Cobertura
Suporte
11
Medida F
Em alguns casos, preciso utilizar uma medida

que considere todos os objetos, menos os
verdadeiros negativos
geralmente 0 indica falta de uma caracterstica
Nestes casos, utilizada a medida F
12
Matriz de custos
Penalizao imposta ao sistema no caso

deste cometer um dado tipo de erro
O custo a soma da frequncia
multiplicada por essas penalizaes
CLASSE PREDITA
CLASSE
REAL
c(1/1)
c(1/0)
c(0/1)
c(0/0)
c(i | j): custo de

classificar um
objeto da
classe j
erroneamente
como classe i
13
Exemplo
Matriz
de custo
CLASSE
REAL
Modelo
M1
CLASSE
REAL
CLASSE PREDITA
150
40
60
250
Preciso = 80%
Custo = 3910
CLASSE PREDITA
C(i|j)
-1
100
Modelo
M2
CLASSE
REAL
CLASSE PREDITA
250
45
200
Preciso = 90%
Custo= 4255
14
Preciso X Custo
Confuso
CLASSE
REAL
CLASSE PREDITA
Custo
CLASSE PREDITA
1
CLASSE
REAL
Preciso proporcional ao
custo se:
1. c(1|0)=c(1|0) = q
2. c(1|1)=c(0|0) = p
N=a+b+c+d
Preciso = (a + d)/N
Custo = p (a + d) + q (b + c)
= p (a + d) + q (N a d)
= q N (q p)(a + d)
= N [q (q-p) * Preciso
15
Avaliando o confiabilidade

diferentes modelos?
16
Mtodos para estimar

confiabilidade
Como obter uma estimativa confivel do

desempenho de um classificador?
Desempenho de um modelo pode

depender de outros fatores alm do
algoritmo de aprendizagem:
distribuio de classe
custo de m classificao
tamanho dos conjuntos de treinamento e teste
17
Curva de aprendizado
Curva de
aprendizagem mostra
como a preciso
varia com o tamanho
da amostra
Efeito do pequeno
tamanho da amostra:
Vis na estimativa
Varincia da estimativa
18
Mtodos de amostragem
importante, ao estimar uma medida

verdadeira (por exemplo, o erro verdadeiro),
que a amostra seja aleatria, isto , os
exemplos no devem ser pr-selecionados
Para problemas reais, normalmente tomada
uma amostra de tamanho n e o objetivo
consiste em estimar uma medida para aquela
populao em particular (no para todas as
populaes)
Alguns mtodos para estimar medidas
(estimadores) so descritos a seguir...
19
Mtodos de amostragem
20
Holdout
Este estimador divide os exemplos em

uma porcentagem fixa de exemplos p
para treinamento e (1-p) para teste,
Valores tpicos so p = 2/3 e (1-p) = 1/3,
embora no existam fundamentos
tericos sobre estes valores
21
Mtodos de
Treinar-e-Testar
Quantos casos de teste so necessrios

para uma estimativa precisa?
Quantos casos deve conter cada
conjunto de treinamento e teste?
No grfico a seguir mostrada a relao
entre a taxa de erro do conjunto de teste
e a taxa de erro verdadeira mxima para
conjuntos de teste de vrios tamanhos,
com 95% de confiabilidade.
22
Qualidade da predio
23
Qualidade da predio
Por exemplo, para um conjunto de teste

de 50 exemplos, se a taxa de erro no
conjunto de teste for 0%, h uma alta
probabilidade (95%) que a taxa de erro
verdadeira seja no mximo 10%.
Se isso acontecer com 1000 exemplos
de teste, a taxa de erro verdadeira ser,
com alta probabilidade, menor que 1%
24
Amostragem Aleatria
L hipteses, L<<n, so induzidas a partir

de L amostras do conjunto de dados
Holdout L vezes
25
Amostragem aleatria
O erro final calculando como sendo a

mdia dos erros de todas as hipteses
induzidas e calculados em conjuntos de
teste independentes e extrados
aleatoriamente
Amostragem aleatria pode produzir
melhores estimativas de erro que o
estimador holdout
26
Validao Cruzada
Em r-fold cross-validation (CV) os

exemplos so aleatoriamente divididos em
r parties mutuamente exclusivas (folds)
de tamanho aproximadamente igual
Os exemplos nos (r-1) folds so usados
para treinamento e a hiptese induzida
testada no fold remanescente
Este processo repetido r vezes, cada vez
considerando um fold diferente para teste
O erro a mdia dos erros entre os r folds
27
Validao Cruzada
28
Validao Cruzada
Qual melhor
valor para r?
Quando maior
o valor de r,
maior o
conjunto de
treinamento
Mais parecida
cada amostra
29
Validao Cruzada
Estratificada
Similar validao cruzada, mas a

distribuio de classe (proporo de
exemplos em cada uma das classes)
mantida ao gerar os folds mutuamente
exclusivos
Isto significa, por exemplo, que se o
conjunto original de exemplos possui duas
classes com distribuio de 20% e 80%,
ento cada fold tambm ter esta mesma
proporo de classes
30
Leave-one-out
Como a validao cruzada, em que cada

partio possui um objeto, ou seja, r=n
computacionalmente dispendioso e, por
isso, usado em amostras pequenas
Embora o leave-one-out um estimador
praticamente no tendencioso (ou seja, o
estimador, aps vrias aplicaes, tende
para a taxa de erro verdadeira), sua
variana para pequenas amostras alta.
31
Leave-one-out
32
Bootstraping
Amostragens so feitas com reposio

Excelente para conjuntos de dados
pequenos, especialmente se for feito
estratificado
Mais conhecida a verso e0, que
consiste em amostrar com reposio
objetos para o conjunto de treino
O que no foram selecionados so
amostrados para o conjunto de teste
33
Bootstraping e0
34
Comparando modelos

diferentes modelos?
35
ROC (Receiver Operating

Characteristic)
Desenvolvido em 1950 para a teoria de

deteco de sinais para analisar sinais
ruidosos
Curva ROC compara VP (no eixo y) contra FP
(no eixo x)
Desempenho de cada modelo gerador
representado como um ponto na curva ROC
Diferentes modelos so gerados mudando o
limiar do algoritmo, a distribuio de amostra
ou matriz de custos
36
Curva ROC
Conjunto unidimensional com 2 classes

Se x>t, o objeto pertence a classe +, seno
pertence a classe -
37
Curva ROC
(VP,FP):
(0,0): declara tudo como
classe (1,1): declara tudo como

classe +
(1,0): ideal
Linha diagonal:
Sorteio aleatrio
Abaixo da linha:
a predio contrria a
classe verdadeira
38
Como construir?
Modelo
P(+|A)
Classe
0.95
0.93
0.87
0.85
0.85
0.85
0.76
0.53
0.43
10
0.25
Use classificador que produz

probabilidade a posteriori para
cada modelo de teste P (+ | A)
Classificar os casos de acordo

com P (+ | A) ordem decrescente
Aplicar limiar para cada valor

nico de P (+ | A)
Contar o nmero de VP, FP, VN,

FN em cada limiar
taxa VP, VPR = VP / (VP + FN)
taxa FP, FPR = FP / (FP + VN)
39
Como construir?
+
0.25
0.43
0.53
0.76
0.85
0.85
0.85
0.87
0.93
0.95
1.00
TP
FP
TN
FN
TPR
0.8
0.8
0.6
0.6
0.6
0.6
0.4
0.4
0.2
FPR
0.8
0.8
0.6
0.4
0.2
0.2
Class
Limiar >=
Curva ROC:
40
Teste de significncia
Dado dois modelos:

M1: preciso = 85%, testado em 30 casos
M2: preciso = 75%, testado em 5000 casos
Podemos dizer M1 melhor do que M2?

Quanta confiana podemos colocar na
preciso do M1 e M2?
Pode a diferena de medir o desempenho
ser explicada como resultado de flutuaes
aleatrias no conjunto de teste?
41
Testes de hipteses
Testes de hipteses so testes estatsticos que

comparam duas amostras segundo uma
determinada hiptese
Exemplo: geralmente se assume uma hiptese
(hiptese nula) que os resultados obtidos de um

modelo no poderiam ser obtidos por um outro, ou
seja, que os resultados de ambos no provm da
mesma populao
No exemplo anterior, se aplica o teste de

hiptese para verificar se a diferena de
preciso de M1 significante em relao M2
42
Testes de hipteses
Entre dois classificadores

teste t
Assume que os dados seguem a distribuio normal
Wilcoxon
Teste no paramtrico que utiliza ranks
Mltiplas comparaes
ANOVA
Assume que os dados seguem a distribuio normal
Friedman
Teste no paramtrico que utiliza ranks
Demsar, J. (2006). Statistical comparisons of classifiers over
multiple data sets. Journal of Machine Learning Research 7, 130.
43
Bibliografia
V. TAN, STEINBACH, M., KUMAR, P. Introduo

ao Data Mining (Minerao de Dados). Edio 1.
Cincia Moderna 2009. ISBN 9788573937619.
Inteligncia Artificial - Uma Abordagem de
Aprendizado de Mquina. Katti Faceli, Ana
Carolina Lorena, Joo Gama, Andr C. P. L. F. de
Carvalho. Grupo Gen 2011
Duda, R.O., Hart, P. E. and Stork, D. G. Pattern

Classification (2nd Edition). Wiley-Interscience
44

Aula 05 Desempenhoecomparacao

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aula 05 Desempenhoecomparacao

Uploaded by

Copyright:

Available Formats

Aula 05 Prof.

Parte do material utilizado nesta aula foi cedido pelos

Copyright Apresentao 2011 por Jos Augusto

Parte do material utilizado nesta aula foi disponibilizado

Existem vrias tcnicas de classificao

bayes, redes neurais, SVMs...

Depois de escolhida uma tcnica, vrios

A partir deste ponto trataremos:

Mtodos para avaliao

Foco na capacidade preditiva de um

que um modelo faz ao predizer as classes

Seja f(ab) a frequncia em que a classe real

Mtricas para avaliao

Mtricas para avaliao

Considere um problema de 2 classes

Se o modelo prev tudo para ser classe 0, a

detectar qualquer exemplo uma classe

Taxa de erro possui mesma limitao

Confiabilidade positiva Sensitividade

Em alguns casos, preciso utilizar uma medida

Nestes casos, utilizada a medida F

Penalizao imposta ao sistema no caso

c(i | j): custo de

A partir deste ponto trataremos:

Mtodos para estimar

Como obter uma estimativa confivel do

Desempenho de um modelo pode

importante, ao estimar uma medida

Este estimador divide os exemplos em

Quantos casos de teste so necessrios

Por exemplo, para um conjunto de teste

L hipteses, L<<n, so induzidas a partir

O erro final calculando como sendo a

Em r-fold cross-validation (CV) os

Similar validao cruzada, mas a

Como a validao cruzada, em que cada

Amostragens so feitas com reposio

A partir deste ponto trataremos:

ROC (Receiver Operating

Desenvolvido em 1950 para a teoria de

Conjunto unidimensional com 2 classes

classe (1,1): declara tudo como

Use classificador que produz

Classificar os casos de acordo

Aplicar limiar para cada valor

Contar o nmero de VP, FP, VN,

Dado dois modelos:

Podemos dizer M1 melhor do que M2?

Testes de hipteses so testes estatsticos que

(hiptese nula) que os resultados obtidos de um

No exemplo anterior, se aplica o teste de

Entre dois classificadores

V. TAN, STEINBACH, M., KUMAR, P. Introduo

Duda, R.O., Hart, P. E. and Stork, D. G. Pattern

You might also like