Professional Documents
Culture Documents
Sistemas Inteligentes
Uma Abordagem tpicas em
aprendizagem simblica
Crescente interesse
CART (Breiman, Friedman, et.al.)
C4.5 (Quinlan), C5
S plus , Statistica, SPSS, SAS, WEKA
rvores de Deciso
X1 X2
<a1 >a1
N
a3
X2 X2
<a3 >a3 >a2
<a2
a2
X1
<a4 >a4
a4 a1 X1
O que uma rvore de Deciso
Representao por rvores
Raz
Regra de deciso:
X1
<a1 >a1
Cada n de deciso contem
N
um teste num atributo.
X2 X2
<a3 >a3 >a2 Cada ramo descendente
<a2
corresponde a um possvel
valor deste atributo.
X1
<a4 >a4 Cada Folha est associada a
Folhas uma classe.
Cada percurso na rvore (da
raiz folha) corresponde a
uma regra de classificao.
rvores de Deciso
No espao definido pelos
X2
atributos:
Cada folha corresponde a
a3
uma regio: Hiper-retngulo
A interseco dos hiper -
retngulos vazia
a2
A unio dos hiper-retngulos
o espao completo
a4 a1 X1
Quando usar rvores de deciso?
Qual o melhor
atributo?
Critrios para Escolha do Atributo
Como medir a habilidade de um dado atributo
discriminar as classes?
Existem muitas medidas.
Todas concordam em dois pontos:
Uma diviso que mantm as propores de classes
em todas as parties intil.
Uma diviso onde em cada partio todos os
exemplos so da mesma classe tem utilidade mxima.
Critrios para Escolha do Atributo
Qual o melhor atributo?
# Exs
ganho( Exs, Atri ) entropia( Exs) entropia( Exs )
# Exs
Sobre-ajustamento (overfitting)
Definio:
Uma rvore de deciso d faz sobre-ajustamento aos
dados se existir uma rvore d tal que:
d tem menor erro que d no conjunto de treinamento
mas d tem menor erro na populao.
Como pode acontecer:
Rudo nos dados;
O nmero de parmetros de uma rvore de
deciso cresce linearmente com o nmero de
exemplos.
Uma rvore de deciso pode obter um ajuste perfeito
aos dados de treinamento.
Sobre-ajustamento (overfitting)
Occams razor: preferncia pela hiptese mais
simples.
Existem menos hipteses simples do que complexas.
Se uma hiptese simples explica os dados pouco
provvel que seja uma coincidncia.
Uma hiptese complexa pode explicar os dados
apenas por coincidncia.
Simplificar a rvore
Duas possibilidades:
Parar o crescimento da rvore mais cedo (pre-
pruning).
Construir uma rvore completa e podar a rvore
(pos-pruning).
Growing and pruning is slower but more reliable
Quinlan, 1988
Um algoritmo bsico de pruning
Transforma o n
em folha
Elimina os ns
descendentes.
Critrios de como escolher a
melhor rvore.
..........
Porqu Regras ?