You are on page 1of 44

Aula 05 Prof.

Murilo Naldi

Agradecimentos

Parte do material utilizado nesta aula foi cedido pelos


professores Jos Augusto Baranauskas, Maria Carolina
Monard e Solange Rezende e, por esse motivo, o
crdito deste material deles

Copyright Apresentao 2011 por Jos Augusto


BaranauskasUniversidade de So Paulo

Parte do material utilizado nesta aula foi disponibilizado


por M. Kumar no endereo:
www-users.cs.umn.edu/~kumar/dmbook/index.php
2

Aula anterior

Classificao
Consiste na tarefa de organizar objetos em

categorias pr-definidas

Duas partes:
Induzir um modelo
Aplica o modelo induzido

rvores de deciso

Problemas

Existem vrias tcnicas de classificao


Exemplos: rvores de deciso, regras, vizinhos,

bayes, redes neurais, SVMs...

Depois de escolhida uma tcnica, vrios


mtodos de induzir um modelo
Gera as perguntas:
Como avaliar a desempenho de um modelo?
Como obter estimativas confiveis?
Como comparar o desempenho relativo de

diferentes modelos?
4

Avaliando o desempenho

A partir deste ponto trataremos:


Como avaliar a desempenho de um modelo?
Como obter estimativas confiveis?
Como comparar o desempenho relativo de

modelos comparados?

Mtodos para avaliao


de desempenho

Foco na capacidade preditiva de um


modelo
Ignora custo computacional...

Matriz confuso
Matriz que possibilita visualizar a confuso

que um modelo faz ao predizer as classes


de um problema

Matriz de confuso

Seja f(ab) a frequncia em que a classe real


a e a classe prevista b
Seja n o nmero total de objetos

f(11):VP (verdadeiro

CLASSE PREDITA

CLASSE
REAL

1
0

positivo)

f(10): FN (falso

f(11)

f(10)

f(01): FP (falso

f(01)

f(00)

negativo)
positivo)

f(00):VN (verdadeiro
negativo)
7

Mtricas para avaliao


de desempenho

Medida de preciso:
mtodo bastante utilizado...

Mtricas para avaliao


de desempenho

Taxa de erro:
complemento da preciso

Limitaes da preciso

Considere um problema de 2 classes


Nmero de exemplos Classe 0 = 9990
Nmero de exemplos de Classe 1 = 10

Se o modelo prev tudo para ser classe 0, a


preciso 9990/10000 = 99,9%
A preciso enganosa porque o modelo no

detectar qualquer exemplo uma classe

Taxa de erro possui mesma limitao


10

Mtricas Derivadas da
Matriz de Confuso

Confiabilidade positiva Sensitividade

Confiabilidade
negativa

Especificidade

Cobertura

Suporte
11

Medida F

Em alguns casos, preciso utilizar uma medida


que considere todos os objetos, menos os
verdadeiros negativos
geralmente 0 indica falta de uma caracterstica

Nestes casos, utilizada a medida F

12

Matriz de custos

Penalizao imposta ao sistema no caso


deste cometer um dado tipo de erro
O custo a soma da frequncia
multiplicada por essas penalizaes
CLASSE PREDITA

CLASSE
REAL

c(1/1)

c(1/0)

c(0/1)

c(0/0)

c(i | j): custo de


classificar um
objeto da
classe j
erroneamente
como classe i
13

Exemplo
Matriz
de custo
CLASSE
REAL
Modelo
M1
CLASSE
REAL

CLASSE PREDITA

150

40

60

250

Preciso = 80%
Custo = 3910

CLASSE PREDITA
C(i|j)

-1

100

Modelo
M2
CLASSE
REAL

CLASSE PREDITA

250

45

200

Preciso = 90%
Custo= 4255

14

Preciso X Custo
Confuso

CLASSE
REAL

CLASSE PREDITA

Custo

CLASSE PREDITA

1
CLASSE
REAL

Preciso proporcional ao
custo se:
1. c(1|0)=c(1|0) = q
2. c(1|1)=c(0|0) = p
N=a+b+c+d
Preciso = (a + d)/N

Custo = p (a + d) + q (b + c)
= p (a + d) + q (N a d)
= q N (q p)(a + d)
= N [q (q-p) * Preciso
15

Avaliando o confiabilidade

A partir deste ponto trataremos:


Como avaliar a desempenho de um modelo?
Como obter estimativas confiveis?
Como comparar o desempenho relativo de

diferentes modelos?

16

Mtodos para estimar


confiabilidade

Como obter uma estimativa confivel do


desempenho de um classificador?

Desempenho de um modelo pode


depender de outros fatores alm do
algoritmo de aprendizagem:
distribuio de classe
custo de m classificao
tamanho dos conjuntos de treinamento e teste
17

Curva de aprendizado

Curva de
aprendizagem mostra
como a preciso
varia com o tamanho
da amostra

Efeito do pequeno
tamanho da amostra:
Vis na estimativa
Varincia da estimativa
18

Mtodos de amostragem

importante, ao estimar uma medida


verdadeira (por exemplo, o erro verdadeiro),
que a amostra seja aleatria, isto , os
exemplos no devem ser pr-selecionados
Para problemas reais, normalmente tomada
uma amostra de tamanho n e o objetivo
consiste em estimar uma medida para aquela
populao em particular (no para todas as
populaes)
Alguns mtodos para estimar medidas
(estimadores) so descritos a seguir...
19

Mtodos de amostragem

20

Holdout

Este estimador divide os exemplos em


uma porcentagem fixa de exemplos p
para treinamento e (1-p) para teste,
Valores tpicos so p = 2/3 e (1-p) = 1/3,
embora no existam fundamentos
tericos sobre estes valores

21

Mtodos de
Treinar-e-Testar

Quantos casos de teste so necessrios


para uma estimativa precisa?
Quantos casos deve conter cada
conjunto de treinamento e teste?
No grfico a seguir mostrada a relao
entre a taxa de erro do conjunto de teste
e a taxa de erro verdadeira mxima para
conjuntos de teste de vrios tamanhos,
com 95% de confiabilidade.
22

Qualidade da predio

23

Qualidade da predio

Por exemplo, para um conjunto de teste


de 50 exemplos, se a taxa de erro no
conjunto de teste for 0%, h uma alta
probabilidade (95%) que a taxa de erro
verdadeira seja no mximo 10%.
Se isso acontecer com 1000 exemplos
de teste, a taxa de erro verdadeira ser,
com alta probabilidade, menor que 1%

24

Amostragem Aleatria

L hipteses, L<<n, so induzidas a partir


de L amostras do conjunto de dados
Holdout L vezes

25

Amostragem aleatria

O erro final calculando como sendo a


mdia dos erros de todas as hipteses
induzidas e calculados em conjuntos de
teste independentes e extrados
aleatoriamente
Amostragem aleatria pode produzir
melhores estimativas de erro que o
estimador holdout

26

Validao Cruzada

Em r-fold cross-validation (CV) os


exemplos so aleatoriamente divididos em
r parties mutuamente exclusivas (folds)
de tamanho aproximadamente igual
Os exemplos nos (r-1) folds so usados
para treinamento e a hiptese induzida
testada no fold remanescente
Este processo repetido r vezes, cada vez
considerando um fold diferente para teste
O erro a mdia dos erros entre os r folds
27

Validao Cruzada

28

Validao Cruzada

Qual melhor
valor para r?
Quando maior
o valor de r,
maior o
conjunto de
treinamento
Mais parecida
cada amostra
29

Validao Cruzada
Estratificada

Similar validao cruzada, mas a


distribuio de classe (proporo de
exemplos em cada uma das classes)
mantida ao gerar os folds mutuamente
exclusivos
Isto significa, por exemplo, que se o
conjunto original de exemplos possui duas
classes com distribuio de 20% e 80%,
ento cada fold tambm ter esta mesma
proporo de classes

30

Leave-one-out

Como a validao cruzada, em que cada


partio possui um objeto, ou seja, r=n
computacionalmente dispendioso e, por
isso, usado em amostras pequenas
Embora o leave-one-out um estimador
praticamente no tendencioso (ou seja, o
estimador, aps vrias aplicaes, tende
para a taxa de erro verdadeira), sua
variana para pequenas amostras alta.
31

Leave-one-out

32

Bootstraping

Amostragens so feitas com reposio


Excelente para conjuntos de dados
pequenos, especialmente se for feito
estratificado
Mais conhecida a verso e0, que
consiste em amostrar com reposio
objetos para o conjunto de treino
O que no foram selecionados so
amostrados para o conjunto de teste
33

Bootstraping e0

34

Comparando modelos

A partir deste ponto trataremos:


Como avaliar a desempenho de um modelo?
Como obter estimativas confiveis?
Como comparar o desempenho relativo de

diferentes modelos?

35

ROC (Receiver Operating


Characteristic)

Desenvolvido em 1950 para a teoria de


deteco de sinais para analisar sinais
ruidosos
Curva ROC compara VP (no eixo y) contra FP
(no eixo x)
Desempenho de cada modelo gerador
representado como um ponto na curva ROC
Diferentes modelos so gerados mudando o
limiar do algoritmo, a distribuio de amostra
ou matriz de custos
36

Curva ROC

Conjunto unidimensional com 2 classes


Se x>t, o objeto pertence a classe +, seno
pertence a classe -

37

Curva ROC

(VP,FP):
(0,0): declara tudo como

classe (1,1): declara tudo como


classe +
(1,0): ideal

Linha diagonal:
Sorteio aleatrio

Abaixo da linha:
a predio contrria a

classe verdadeira
38

Como construir?
Modelo

P(+|A)

Classe

0.95

0.93

0.87

0.85

0.85

0.85

0.76

0.53

0.43

10

0.25

Use classificador que produz


probabilidade a posteriori para
cada modelo de teste P (+ | A)

Classificar os casos de acordo


com P (+ | A) ordem decrescente

Aplicar limiar para cada valor


nico de P (+ | A)

Contar o nmero de VP, FP, VN,


FN em cada limiar
taxa VP, VPR = VP / (VP + FN)
taxa FP, FPR = FP / (FP + VN)

39

Como construir?
+

0.25

0.43

0.53

0.76

0.85

0.85

0.85

0.87

0.93

0.95

1.00

TP

FP

TN

FN

TPR

0.8

0.8

0.6

0.6

0.6

0.6

0.4

0.4

0.2

FPR

0.8

0.8

0.6

0.4

0.2

0.2

Class

Limiar >=

Curva ROC:

40

Teste de significncia

Dado dois modelos:


M1: preciso = 85%, testado em 30 casos
M2: preciso = 75%, testado em 5000 casos

Podemos dizer M1 melhor do que M2?


Quanta confiana podemos colocar na
preciso do M1 e M2?
Pode a diferena de medir o desempenho
ser explicada como resultado de flutuaes
aleatrias no conjunto de teste?
41

Testes de hipteses

Testes de hipteses so testes estatsticos que


comparam duas amostras segundo uma
determinada hiptese
Exemplo: geralmente se assume uma hiptese

(hiptese nula) que os resultados obtidos de um


modelo no poderiam ser obtidos por um outro, ou
seja, que os resultados de ambos no provm da
mesma populao

No exemplo anterior, se aplica o teste de


hiptese para verificar se a diferena de
preciso de M1 significante em relao M2
42

Testes de hipteses

Entre dois classificadores


teste t
Assume que os dados seguem a distribuio normal

Wilcoxon
Teste no paramtrico que utiliza ranks

Mltiplas comparaes
ANOVA
Assume que os dados seguem a distribuio normal

Friedman
Teste no paramtrico que utiliza ranks
Demsar, J. (2006). Statistical comparisons of classifiers over
multiple data sets. Journal of Machine Learning Research 7, 130.
43

Bibliografia

V. TAN, STEINBACH, M., KUMAR, P. Introduo


ao Data Mining (Minerao de Dados). Edio 1.
Cincia Moderna 2009. ISBN 9788573937619.
Inteligncia Artificial - Uma Abordagem de
Aprendizado de Mquina. Katti Faceli, Ana
Carolina Lorena, Joo Gama, Andr C. P. L. F. de
Carvalho. Grupo Gen 2011

Duda, R.O., Hart, P. E. and Stork, D. G. Pattern


Classification (2nd Edition). Wiley-Interscience
44

You might also like