You are on page 1of 7

Exerccios sobre rvores de Deciso

1. Para cada uma das funes booleanas seguintes apresente uma rvore de deciso
que as representem:
a) A B
b) (A B) (C D)
2. Construa o conjunto completo de rvores de deciso a partir dos dados seguintes:
A1
0
1
0
1

A2
1
0
0
1

Y
0
1
0
1

3. Suponha que se pretende construir a rvore de deciso, atravs do algoritmo ID3,


com base no conjunto de dados apresentados tabela seguinte
A1
0
1
0
1

A2
1
0
0
1

A3
1
1
0
1

Y
1
1
0
0

a) Calcule a entropia mdia de cada um dos atributos


b) Qual dos atributos seria escolhido para dividir os dados?
c) Construa a rvore de deciso.
4. Considere o seguinte conjunto de exemplos de treino:
Exemplo
A1
A2
1
escuro alto
2
claro
alto
3
claro baixo
4
escuro baixo
5
escuro alto
6
claro
alto

Classe
+
+
+

a) Calcule a informao esperada ou entropia deste conjunto de exemplos e o


ganho de informao relativo ao atributo A2. A2 poder ser raiz da rvore de
deciso obtida pelo algoritmo ID3?
b) Apresente a rvore de deciso completa que seria produzida pelo algoritmo
ID3.
c) Calcule a informao esperada ou entropia deste conjunto de exemplos e o
ganho de informao relativo ao atributo A2. A2 poder ser raiz da rvore de
deciso obtida pelo algoritmo ID3?
d) Apresente a rvore de deciso completa que seria produzida pelo algoritmo
ID3.

Aprendizagem: Exerccios de rvores de deciso

5. Considere o conjunto de dados seguinte:


A1
0
0
0
0
0
0
1
1
1
1
1
1

A2
0
0
0
1
1
1
0
0
0
1
1
1

Y
1
0
1
0
0
1
1
0
1
1
1
1

a)
b)
c)
d)

possvel obter uma hiptese sem nenhum erro a partir destes dados?
Qual ser a entropia mdia se escolhermos o atributo A1?
E se escolhermos A2?
Qual a rvore obtida, tendo em conta que se as folhas no puderem ser
uniformes, se escolhe como valor a classe mais comum?
e) Essa rvore poderia ainda ser simplificada?

6. Imagine que quer utilizar o algoritmo ID3 para aprender uma funo e que lhe so
apresentados um conjunto de exemplos e de contra-exemplos:
A1
0
1
1
0
1
0

A2
1
0
1
0
0
1

A3
1
1
1
0
0
0

A4
0
0
0
1
1
1

A5
0
0
1
1
0
0

a) Construa a rvore de deciso


b) Como ficaria a rvore de deciso caso o processo de sub-diviso da rvore
pare sempre que no se puder melhorar o ganho mdio e se escolher para valor
das folhas a classe mais comum?
7. Os candidatos a alunos de doutoramento na fictcia Universidade da Martinlndia
baseia-se em quatro critrios: a nota de fim de curso, o ranking da universidade
onde realizou o curso, o registo de publicaes e as cartas de recomendao. Para
simplificar a nota pode tomar trs valores, que so 4.0, 3.7 e 3.5. A universidade
pode ser classificada entre as 10 melhores (top-10), entre as 10 e as 20 melhores
(top-20) e entre as 20 e 30 melhores (top-30). O registo de publicaes um
atributo binrio o candidato publicou ou no; e as cartas de recomendao
podem ser boas ou normais. Finalmente, os candidatos podem ser classificados
como aceites (A) ou rejeitados (R). A tabela seguinte mostra um conjunto de
exemplos de candidatos a doutoramento e a respectiva classificao.

Aprendizagem: Exerccios de rvores de deciso

Nota
4.0
4.0
4.0
3.7
3.7
3.7
3.7
3.7
3.5
3.5
3.5
3.5

Ranking
top-10
top-10
top-20
top-10
top-20
top-30
top-30
top-10
top-20
top-10
top-30
top-30

Publicou
sim
no
no
sim
no
sim
no
no
sim
no
sim
no

Recomendao
boa
boa
normal
boa
boa
boa
boa
boa
normal
normal
normal
boa

Classe
A
A
A
A
R
A
R
R
R
R
R
R

Apresente a rvore de deciso completa que seria produzida pelo algoritmo ID3.
8. Considere o problema de esperar ou no esperar por uma mesa num restaurante. O
objectivo aprender uma definio para o objectivo Esperar ,sendo essa definio
expressa sob a forma de uma rvore de deciso. Existem os seguintes atributos
para descrever as situaes exemplo:
Alternativa: existe ou no um restaurante na vizinhana que seja uma alternativa.
Bar: O restaurante tem ou no tem um bar.
Sexta/Sbado: Se esse dia uma sexta ou um sbado.
Fome: estamos ou no com fome.
Clientes: Quantas pessoas esto no restaurante (nenhuma, algumas, cheio)
Preo: Trs preos possveis: ($, $$, $$$)
Chuva: Est a chover l fora ou no.
Reserva: Foi feita uma reserva ou no.
Tipo: O tipo de restaurante: (francs, italiano, tailands e hamburgueria
Estimativa do tempo de espera: (0-10 minutos, 10-30, 30-60, >60).
Alter Bar Sexta Fome Clientes Preo Chuva Reserva
Sim No No Sim Alguns

$$$

No

Sim

Cheio

No

No Sim No No Alguns

Sim No Sim Sim

Cheio

Sim No Sim No

Tipo

0-10

Sim

No

Tailands 30-60

No

No

No

Hamburg

0-10

Sim

No

No

Tailands 10-30

Sim

Cheio

$$$

No

Sim

Francs

>60

No

No Sim No Sim Alguns

$$

Sim

Sim

Italiano

0-10

Sim

No Sim No No Nenhuns

Sim

No

Hamburg

0-10

No

No No No Sim Alguns

$$

Sim

Sim

Tailands

0-10

Sim

No Sim Sim No

Cheio

Sim

No

Hamburg

>60

No

Sim Sim Sim Sim

Cheio

$$$

No

Sim

Italiano

10-30

No

No No No No Nenhuns

No

No

Tailands

0-10

No

Sim Sim Sim Sim

No

No

Hamburg 30-60

Sim

Sim No No Sim

Cheio

Francs

TmpEsp Esperar

Aprendizagem: Exerccios de rvores de deciso

a) Utilize a ferramenta Weka, atravs do algoritmo ID3, para construir a rvore


que representa estes a partir destes dados.
b) Assumindo que D1 e D2 so rvores de deciso representando funes
booleanas, e que D2 considerada uma elaborao de D1 se o algoritmo ID3
pode extender D1 em D2, indique se a frase seguinte verdadeira ou falsa: Se
a rvore D2 uma elaborao de D1, ento D1 mais geral do que D2. Se
considerar que verdadeira, prove-o; se considerer que falsa, apresente um
contra-exemplo.
9. O algoritmo ID3 encontra apenas uma hiptese consistente enquanto o algoritmo
do espao de verses (tambm chamado algoritmo de eliminao de candidatos)
encontra todas as hipteses consistentes. Considere a correspondncia entre esses
2 algoritmos:
a) apresente os resultados obtidos por cada um destes dois algoritmos a partir dos
exemplos de treino seguintes, para o conceito alvo fazDesporto:
Exemplos de treino:
Cu
0
sol
1
sol
2 chuva
3
sol

Temp. Hum. Prev fazDesporto


quente normal igual
sim
quente
alta
igual
sim
frio
alta
muda
no
quente
alta
muda
sim

b) Qual a relao entre a rvore de deciso aprendida e o espao de verses


obtido? A rvore de deciso equivalente a algum dos membros do espao de
verses?
c) Suponha que quer definir um algoritmo de aprendizagem que, como o ID3,
efectua uma procura no espao das rvores de deciso e, como o espao de
verses, encontra todas as hipteses consistentes com os dados. Isto ,
pretende-se aplicar o algoritmo do espao de verses procura num espao de
hipteses em que as hipteses so rvores de deciso. Apresente os conjuntos
S e G que resultam do 1 exemplo de treino dado. Mostre como que S e G
seriam refinados pelo segundo exemplo de treino (pode omitir rvores
sintacticamente distintas que representem o mesmo conceito). Que
dificuldades antev na aplicao do espao de verses a espaos de hipteses
de rvores de deciso?
10. Use os dados da tabela 1 como conjunto de treino para aprender a classificar,
segundo as 3 classes indicadas no atributo Queimadura.
a.

Calcule a entropia (ou informao esperada) do conjunto de treino. Calcule o


ganho de informao (gain) relativo a cada um dos atributos e indique o
atributo que seria escolhido, de acordo com essa medida, para raiz da rvore
de deciso pelo algoritmo ID3. Comente o resultado obtido.
b. Eliminando agora o atributo Nome, e continuando a usar a medida de
ganho de informao, determine a rvore de deciso completa que seria
produzida pelo ID3.

Aprendizagem: Exerccios de rvores de deciso

c.

Usando como medida a razo de ganhos (gain ratio) e considerando todos


os atributos (incluindo Nome), qual seria o atributo escolhido para raiz da
rvore de deciso?
Nome
Emlia
Sara
Diana
Andreia
Leonor
Emlia
Diana
Ferno
Carlos
Joana

Cabelo
Castanho
Louro
Louro
Louro
Louro
Ruivo
Castanho
Ruivo
Ruivo
Castanho

Pele
Morena
Morena
Morena
Branca
Branca
Branca
Branca
Morena
Morena
Branca

LooSolar
No
No
Sim
Sim
No
Sim
No
No
Sim
Sim

Queimadura
Sem
ligeira
Sem
Sem
grave
grave
Sem
ligeira
ligeira
Sem

Tabela 1: Dados relativos a queimaduras solares

11. Polbio, na sua apreciao das refeies em restaurantes, considera os seguintes


atributos e respectivos valores possveis:
Restaurante: {Coplia, Palma, Primavera}
Qualidade: {boa, m}
Preo: um inteiro
Refeio: {almoo, jantar, pequeno_almoo}
Polbio usa afirmaes em portugus para exprimir os seus processos de
classificao das refeies como satisfatrias ou no satisfatrias, em lugar de
usar rvores de deciso. Por exemplo, ele diria:
Fico satisfeito com qualquer refeio de 10 ou menos, mas no existe
nenhuma refeio do restaurante Palma por 7 ou menos que me agrade.
Afirmaes como esta podem traduzir-se em diferentes rvores de deciso. Uma
das rvores que poderamos indicar para a frase acima a seguinte, podendo haver
outras com diferente nmero de ns, possivelmente testando os atributos por
ordem diferente ou realizando diferentes testes:

Indique rvores de deciso, com nmero mnimo de ns, correspondentes a cada


uma das seguintes afirmaes:
a) Fico satisfeito com qualquer refeio de boa qualidade que no custe mais do
que 10 e satisfeito com refeies de m qualidade que no custem mais do
que 5.

Aprendizagem: Exerccios de rvores de deciso

b) Fico satisfeito com um pequeno almoo de 8 ou menos ou com um jantar de


15 ou menos. Nunca fico satisfeito com uma refeio de m qualidade nem
se tenho de pagar por um almoo (j que almoo bem e de borla) .
12. Imagine que temos o seguinte conjunto de dados, onde Y o atributo alvo da
classificao.
A
0
0
1
1

B
0
1
0
1

C
0
0
0
1

Y
0
1
1
0

Qual a rvore de deciso escolhida pelo algoritmo ID3? No existir outra rvore
que envolva testar menos atributos (e possivelmente com menor profundidade)
capaz de representar correctamente os dados? Qual a justificao que encontra
para que o ID3 no devolva essa rvore?
13. Considere os dados apresentados na quadrcula abaixo, descritos por dois atributos
(eixos x e y, com valores inteiros entre 0 e 8) e classificados em 3 classes,
representadas por quadrados, cruzes ou crculos. Usando o algoritmo ID3
estendido para fazer testes binrios sobre atributos numricos, construa a rvore
de deciso de forma a classificar correctamente os dados.

14. A tabela de dados seguinte baseia-se no livro do Tolkien O senhor dos anis. A
tabela apresenta informao sobre um conjunto de pessoas/entidades que
aparecem nesse livro.
Nome
Raa
Peso
Senhor-do-anel
Classe
Frodo
Hobbit
Leve
Sim
Bom
Rosie
Hobbit
Leve
No
Bom
Bilbo
Hobbit
Leve
Sim
Bom
Gollum
Hobbit
Leve
Sim
Mau
Faramir
Humano
Mdio
No
Bom
Aragorn
Humano
Mdio
No
Bom
Wormtongue
Humano
Mdio
No
Mau
Celeborn
Elves
Leve
No
Bom
Galadriel
Elves
Leve
Sim
Bom
Sharku
Orc
Pesado
No
Mau

Aprendizagem: Exerccios de rvores de deciso

Cada entidade possui trs atributos (Raa, Peso, Senhor-anel) e classificado como
sendo Bom ou Mau (i.e., se quer ou no quer matar o Frodo). O atributo "Senhoranel" indica se a pessoa/entidade alguma vez possuiu o anel mgico. Aplique o
algoritmo ID3 aos dados na tabela, tendo em conta que os ns folhas so classificados
com a classe maioritria. No entanto, introduza, uma pequena variao na qual se
expandem os ns apenas quando resultar numa melhoria do ganho.
15. Considere o seguinte conjunto de dados, onde Y corresponde ao atributo classe.
Vamos considerar formas de poda da rvore de deciso produzida pelo ID3 que no
envolvem o uso de um conjunto de teste.
V
0
0
1
1
1

W
0
1
0
1
1

X
0
0
0
0
1

Y
0
1
1
0
0

a) Apresente a rvore de deciso que seria construda pelo ID3, sem poda.
b) Uma possvel forma de podar a rvore consiste em, comeando pelo n raiz da
rvore, podar a subrvore com origem num n se o ganho de informao (ou
outro critrio dado) associado a esse n for inferior a uma pequena quantidade .
Este tipo de poda chamada poda descendente (top-down pruning). Qual a
rvore de deciso retornada aplicando este tipo de poda com =0.0001? Qual o
erro produzido por essa rvore podada para o conjunto de treino dado (% de
exemplos mal classificados)?
c) Outra forma possvel de podar a rvore consiste em, comeando pelos ns pais de
folhas da rvore, podar subrvores com origem num n se o ganho de informao
(ou outro critrio dado) for inferior a uma pequena quantidade . Segundo este
mtodo, nenhum antepassado de um n com alto ganho de informao podado.
Este tipo de poda chamada poda ascendente (bottom-up pruning). Qual a
rvore de deciso retornada aplicando este tipo de poda com =0.0001? Qual o
erro produzido por essa rvore podada para o conjunto de treino dado (% de
exemplos mal classificados)?
d) iscuta as possveis vantagens e desvantagens destes dois tipos de poda, tendo em
conta por exemplo a complexidade computacional envolvida e a preciso da
classificao.

You might also like