You are on page 1of 42

Avaliao da Recuperao

Profa. Patrcia Proena Avila

Roteiro

Introduo;
Paradigma de Cranfield;
Mtricas de recuperao;
Adequao das mtricas.

Introduo
Para avaliar um sistema de RI, necessrio medir
o quo bem o sistema atende a necessidade de
informao do usurio;
Isso pode ser um problema, pois um mesmo conjunto
resposta pode ser interpretado de maneiras diferentes
por usurios distintos;

Mesmo assim, possvel definir mtricas


aproximadas, que, na mdia, tm uma correlao
com as preferncias de uma populao.

Introduo
Sem uma avaliao adequada, no temos
como saber como o sistema de RI est
desempenhando, nem podemos comparar
objetivamente a qualidade e recuperao com
a de outros sistemas.

Introduo
Assim a avaliao sistemtica de um sistema de RI permite
responder a questes que surgem na prtica durante sua
manuteno:
i.

ii.
iii.

Uma modificao na funo de ranqueamento proposta: devemos


ir adiante e implant-la?
Uma nova funo de ranqueamento probabilstica foi projetada: ela
superior ao ranqueamento do modelo vetorial?
Para quais tipos de consultas Web, como consultas sobre
negcios, produtos ou consultas geogrficas, uma modificao no
ranking funciona melhor?

A falta de avaliao adequada impede que essas questes sejam


respondidas de forma objetiva e impossibilita o ajuste da funo de
ranqueamento.

Introduo
Avaliao da recuperao um processo
sistemtico no qual se associa uma mtrica
quantitativa aos resultados produzidos por um
sistema de RI em resposta a um conjunto de
consultas de usurio. Essa mtrica deve ser
diretamente associada relevncia dos
resultados para os usurios. Uma abordagem
comum para computar tal mtrica comparar o
resultado produzido pelo sistema com os
resultados sugeridos por humanos para o
mesmo conjunto de consultas.

Introduo
Avaliao da recuperao significa avaliar a
qualidade dos resultados, no o desempenho
do sistema;
A definio anterior no cobre aspectos que
afetam o julgamento do usurio:
Interface do usurio;
Contexto da busca (preferncias, perodo, etc) ;

Introduo
Apesar dessas deficincias, 0 processo de
associar uma mtrica aos resultados da
consulta continua sendo amplamente
utilizado:
simplicidade;
repetido muitas vezes a custos relativamente
baixos.
permite estudar lotes de consultas maiores e seus
resultados em pouco tempo.

Paradigma de Cranfield
Em 1952, Cyril Cleverdon, bibliotecrio da escola
de aeronutica de Cranfield, Inglaterra, conheceu
o sistema Uniterm proposto por Mortimer Taube,
bibliotecrio nos EUA;
Uniterm 40 mil ttulos formados por 7 mil
palavras distintas;
Cleverdon achou o sistema interessante, indexou
200 documentos manualmente usando o sistema
Uniterm e pediu para um colega que fizesse
diversas consultas.

Paradigma de Cranfield
Em 1952, Cyril Cleverdon, bibliotecrio da escola de
aeronutica de Cranfield, Inglaterra, conheceu o
sistema Uniterm proposto por Mortimer Taube,
bibliotecrio nos EUA;
Uniterm 40 mil ttulos formados por 7 mil palavras
distintas;
O nome do sistema os documentos eram indexados
utilizando somente esses termos (palavras).

Cleverdon achou o sistema interessante, indexou 200


documentos manualmente usando o sistema Uniterm
e pediu para um colega que fizesse diversas consultas.

Paradigma de Cranfield
Sistemas Uniterm x Sistemas de indexao mais
sofisticados: briga entre os defensores de cada um deles;
pois o Uniterm parecia simples e no contemplava a semntica
toda dos documentos.
mas no
havia dados concretos que permitissem uma
comparao direta entre os sistemas.

Ento Cleverdon props um estudo para comparar os


diversos sistemas de indexao existentes;
Cada consulta era baseada em um s documento e a busca era
considerada bem-sucedida se aquele documento fosse
localizado no catlogo;

Paradigma de Cranfield
Como foi realizado:
Indexao manual de 18000 artigos sobre Engenharia Aeronutica e
avaliao de 1200 consultas;
Utilizao de quatro sistemas de indexao;
Os resultados mostraram que os quatro sistemas de indexao eram
basicamente equivalentes em termos da preciso dos resultados;
Alm disso os experimentos mostraram constataes interessantes:
A revocao (frao dos documentos relevantes recuperados) era
pouco til se no estivesse acompanhada pela informao da preciso
(frao dos documentos recuperados que de fato relevante).
Mas posteriormente experimentos mostraram que h um
relacionamento inverso entre preciso e revocao, ou seja, no
possvel aumentar simultaneamente a preciso e a revocao.

Paradigma de Cranfield
Segundo experimento:
1400 documentos e 279 consultas;
Para cada consulta, todos os documentos da coleo foram
examinados e sua relevncia em relao consulta foi determinada;
Seis estudantes passaram trs meses examinando cada documento
em relao a consulta e decidindo quais documentos eram
relevantes;
O resultado foi uma coleo de referncia.
Composta por: documentos, consultas e julgamentos de relevncia de
cada par consulta-documento.
Coleo ficou conhecida como Granfield-2.

Paradigma de Cranfield
Nos experimentos foi observado tambm:
Em situaes prticas, a maioria das buscas no requer uma
revocao (recuperao) alta;
A maioria dos usurios requer apenas algumas respostas
relevantes (preciso);

Os experimentos Cranfield 2 estabeleceram a base para a


experimentao moderna em RI:
O mesmo conjunto de documentos e consultas pode ser usado
para avaliar sistemas de ranqueamento diferentes
comparando-os com os julgamentos de relevncia produzidos
por especialistas humanos.
Alm disso, preciso e revocao so hoje as mtricas
escolhidas para avaliar a qualidade do ranking.

Coleo de referncia
Colees de referncia permitem comparar
diretamente os resultados produzidos por diferentes
funes de ranqueamento;

Coleo de referncia: composta por um


conjunto D de documentos pr-selecionados,
um conjunto I de necessidade de informao
usadas para teste e um conjunto de
julgamentos de relevncia binrios associados
a cada par [im, dj].

Coleo de referncia
Os julgamentos de relevncia so produzidos por
humanos especialistas e idealmente devem fornecer uma
deciso de relevncia para cada par necessidade de
informao-documento.
Claramente, isso s vivel para colees de documento
pequenas, como as dos experimentos Cranfield;
Os julgamentos de relevncia so fornecidos para as
descries das necessidades de informao, e no para
as consultas.
traduzir a necessidade de consulta faz parte do sistema de RI, e
cada um trata de uma maneira.

Coleo de referncia
Vantagens:
Dada uma coleo de referncia, uma avaliao do
sistema de RI pode ser feita rapidamente;
Avaliaes de sistemas de RI podem ser reproduzidas
posteriormente para fins de verificao (Repetibilidade);
Colees de referncia diferentes podem ser construdas
focando em tipos particulares de necessidade de
informao.

Mtricas de Recuperao
Na literatura podemos encontrar vrias
mtricas para a avaliao da qualidade da
recuperao de um sistema de RI, isto a
qualidade dos resultados.
As mais amplamente utilizadas so preciso e
revocao.

Mtricas de Recuperao
Preciso e Revocao:
As medidas de preciso e revocao so definidas
da seguinte forma:
Preciso (frao dos documentos recuperados que
relevante):
p = |RA| / |A|

Revocao (frao dos documentos relevantes que foi


recuperada):
r = |RA| / |R|

Mtricas de Recuperao
Preciso e Revocao:
RA: documentos relevantes
no conjunto resposta

R: documentos relevantes

Coleo de documentos

A: conjunto resposta

Mtricas de Recuperao
Preciso e Revocao:
Tais mtricas supem que todos os documentos no conjunto
resposta A foram examinados;
Contudo, o usurio no normalmente apresentado a todos os
documentos do conjunto resposta A de uma vez;
Em vez disso, os documentos do conjunto A so primeiro
ordenados de acordo com uma funo de ranqueamento;
O usurio examina essa lista ordenada iniciando pelo documento
do topo:
Nesse caso, as medidas de preciso e revocao variam conforme o
usurio procede com seu exame do conjunto resposta.

Mtricas de Recuperao
Preciso e Revocao:
Portanto, uma avaliao adequada requer a
plotagem da curva de preciso x revocao.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 1:
Coleo referncia e um conjunto de consultas
para teste.
Supondo que R1 conjunto de documentos
relevantes para uma dada consulta q1
(determinado por especialistas).
R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 1:
Supondo um novo algoritmo de recuperao que
retorne para a consulta q1 o ranking:
1.
2.
3.
4.
5.

d123
d84
d56
d6
d8

6. d9
7. d511
8. d129
9. d187
10. d25

11. d38
12. d48
13. d250
14. d113
15. d3

Os documentos relevantes para a consulta esto em


negrito.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 1:
Primeiro d123: um documento relevante (RA) e um
documento recuperado (A)
p = 1/1 = 100%
r = 1/10 = 10%

Segundo d56: dois documentos relevantes (RA) e trs


documentos recuperados (A)
p = 2/3 = 66,67%
r = 2/10= 20%

Terceiro d9: trs documentos relevantes (RA) e seis


documentos recuperados (A)
p = 3/6 = 50%
r = 3/10= 30%

Mtricas de Recuperao

* A preciso para os nveis de revocao maiores que 50% cai para 0 porque nem todos os
documentos relevantes foram recuperados.
* Revocao 0 obtida por meio de interpolao.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Considere uma segunda consulta q2, cujo conjunto
de documentos relevantes, de acordo com
especialistas humanos, seja:
R2 = {d3, d56, d129}

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Supondo o mesmo algoritmo de recuperao do exemplo
anterior, retorne para a consulta q2 o ranking:
1.
2.
3.
4.
5.

d425
d87
d56
d32
d124

6. d615
7. d512
8. d129
9. d4
10. d130

11. d193
12. d715
13. d810
14. d5
15. d3

Os documentos relevantes para a consulta esto em


negrito.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Primeiro d56: um documento relevante (RA) e 3 documentos
recuperado (A)
p = 1/3 = 33,3%
r = 1/3 = 33,3%

Segundo d129: dois documentos relevantes (RA) e oito


documentos recuperados (A)
p = 2/8 = 25%
r = 2/3= 66,6%

Terceiro d3: trs documentos relevantes (RA) e quinze


documentos recuperados (A)
p = 3/15 = 20%
r = 3/3= 100%

Mtricas de Recuperao
Preciso e Revocao:
Preciso nos 11 nveis padro de revocao:
Utiliza-se um mtodo de interpolao para se obter a
preciso em 11 pontos de revocao (0%, 10%, 20%,
...,100%)
Seja rj, j {0,1,2,...,10}, uma referncia ao j-simo
nvel padro de revocao (isto , r5 uma referncia
ao nvel de revocao 50%).
P(rj) = max P(r)
Ou seja, a preciso mxima conhecida entre todos os nveis de
revocao maior ou igual a rj.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Voltando ao exemplo para calcular os 11 pontos de
revocao.
Nos nveis de revocao 0%, 10%, 20% e 30%, a preciso
interpolada 33,3%, pois a revocao conhecida 33,3%
que maior ou igual do que esses pontos.
Nos nveis de revocao 40%, 50% e 60%, a preciso
interpolada 25%, pois a revocao conhecida 66,6%
que maior ou igual a esses pontos.
Nos nveis demais nveis, a preciso 20%, conforme
analisado anteriormente.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:

Mtricas de Recuperao
Preciso e Revocao:
Geralmente os algoritmos so avaliados sobre
diversas consultas de teste. Neste caso uma
curva de preciso x revocao gerada para
cada consulta.
Para avaliar a qualidade de recuperao de
um algoritmo sobre um conjunto de N
consultas, calculamos a mdia das precises
para cada nvel de revocao.

Mtricas de Recuperao
Preciso e Revocao:
Exemplo (mdia entre q1 e q2)

Mtricas de Recuperao
Preciso e Revocao:
As mdias dos valores de preciso e revocao
podem tambm se utilizadas para comparar
diferentes algoritmos de recuperao.

Primeiro: voltados para a busca Web, poisSegundo:


devem aplicaes especficas como as da
apresentar nveis de preciso mais altos rea da sade ou jurdica necessitam de nveis altos de
revocao

Adequao das Mtricas


Preciso e revocao tm sido amplamente
utilizadas para avaliar a qualidade de
algoritmos de recuperao;
Uma reflexo mais cuidadosa revela problemas
com essas medidas;

Veremos cada um deles.

Adequao das Mtricas


Problemas:
1. A estimativa da revocao mxima para uma consulta
requer um conhecimento detalhado de todos os
documentos da coleo para colees grandes tal
conhecimento no est disponvel;
2. Preciso e revocao so medidas relacionadas que
capturam diferentes aspectos do conjunto de documentos
recuperados em certos casos uma s medida pode ser
mais apropriada;
3. Preciso e revocao medem a eficcia para um conjunto
de consultas processadas em lotes sistemas modernos a
interatividade um aspecto fundamental do processo de
recuperao.

Adequao das Mtricas


Apesar dessas desvantagens, preciso e
revocao continuam sendo amplamente
utilizadas, porque, dada uma coleo de
referncia, elas so simples de calcular e
permitem a comparao direta de diferentes
estratgias de ranqueamento.

Concluso
Como avaliar um modelo de recuperao da
informao usando uma coleo de
referncia;
Duas mtricas amplamente utilizadas foram
apresentadas: preciso e revocao.
Preciso representa a frao de documentos
recuperados que so relevantes;
Revocao representa a frao de documentos
relevantes que foram recuperados.

Exerccio
Considere uma coleo de referncia e um
conjunto de consultas para teste. Suponha que os
conjuntos R1, R2 e R3 de documentos relevantes
para as consultas q1, q2 e q3, respectivamente,
tenham sido determinados por um grupo de
especialistas.
R1 = {d3, d7, d12, d13, d26, d68}
R2 = {d1, d2, d9, d24, d51, d52, d70, d82}
R3 = {d2, d3, d6, d16, d20}

Exerccio
Considere que um novo algoritmo de
recuperao chamado XYZ foi recm projetado.
Suponha que esse algoritmo retorne, para as
consultas q1, q2 e q3, os seguintes rankings de
documentos (primeiras quinze posies):
Consulta q1 (algoritmo XYZ) = {d1, d9, d26, d15, d2,
d10, d74, d68, d32, d3, d53, d39, d56, d11, d4}.
Consulta q2 (algoritmo XYZ) = {d3, d7, d8, d9, d19,
d16, d37, d24, d20, d80, d67, d50, d46, d51, d29}.
Consulta q3 (algoritmo XYZ) = {d2, d30, d25, d3, d9,
d7d6, d39, d75, d19, d26 d16, d20, d51, d1}.

Exerccio
a)Calcule os nveis de preciso e revocao
para cada uma das consultas.
b) Construa o grfico de preciso versus
revocao para cada uma das consultas.
c) Encontre a preciso mdia do algoritmo XYZ
e faa o grfico dos valores mdio de preciso
versus revocao.

You might also like