You are on page 1of 1

Escola Superior de Tecnologia

Análise de Dados Biomédicos

Ficha 5 – Meta-algoritmos

O site www.istockphoto.com dedica-se à venda de fotografias. Um dos aspectos importantes


(e secreto) do modelo de negócio deste site é o algoritmo que ordena as imagens quando
estas são apresentadas ao utilizador na procura por defeito (best match). O objectivo desta
ficha consiste na construção de um modelo de previsão numérica que permita ter uma ideia
de quais os atributos de uma imagem que mais a beneficiam em termos de procura,
fazendo assim o “reverse engineering” do algoritmo de best match utilizado pelo site.

1. No site www.istock.com faça uma procura de imagens à sua escolha. Confirme que na
barra de procura, a seguir a Sort, está seleccionada a procura “Best Match” e que
procurou apenas “Photos”. Construa um ficheiro Arff em que as instâncias correspondem
às primeiras 100 imagens da sua busca descritas pelos seguintes atributos: Exclusive (0
ou 1), Downloads, Views, Age (em dias=meses*30), Average Rating, Total Rating,
LightBoxes, Class. Como não temos forma de saber a Class, que basicamente é o valor
que permite ordenar as imagens na busca, vamos atribuir o valor 1000 à primeira
imagem, 990 à segunda, 980 à terceira, … e 10 à última imagem. Entregue junto com a
ficha uma impressão do seu ficheiro Arff.

2. Utilize o Weka para analisar o ficheiro resultante, utilizando os algoritmos que lhe
pareçam adequados a este problema. Apresente os três melhores modelos que obteve,
juntamente com o seu desempenho.

3. Analise a importância dos atributos nos modelos que obteve e, partindo dessa análise,
experimente remover alguns dos atributos que lhe pareçam menos importantes (Tab
Preprocess do Weka). Consegue melhorar algum dos modelos anteriores? Apresente-os
aqui.

4. Nos algoritmos de classificação do weka existe um conjunto de algoritmos na pasta meta


denominados meta-algoritmos. Investigue qual o principio genérico destes algoritmos e
descreva o funcionamento dos métodos de Stacking, Bagging e Vote.

5. Tente, utilizando os meta-algoritmos que descreveu anteriormente, melhorar os


resultados que obteve até agora no problema apresentado. Discuta aqui os novos
resultados.

6. A partir dos resultados que foi obtendo que conclusões pode tirar em relação ao
problema inicial? Quais os atributos mais importantes na ordenação dos ficheiros e quais
aqueles que não são utilizados? Atendendo ao conhecimento que já tem do problema
apresente sugestões de novas abordagens (por exemplo na criação do ficheiro .arff) que
possam permitir conhecer melhor o algoritmo de ordenação utilizado neste site.

Licenciatura em Informática para a Saúde ADB – Análise de Dados Biomédicos

You might also like