Avaliação Da Recuperação

Avaliao da Recuperao
Profa. Patrcia Proena Avila
Roteiro
Introduo;
Paradigma de Cranfield;
Mtricas de recuperao;
Adequao das mtricas.
Introduo
Para avaliar um sistema de RI, necessrio medir
o quo bem o sistema atende a necessidade de
informao do usurio;
Isso pode ser um problema, pois um mesmo conjunto
resposta pode ser interpretado de maneiras diferentes
por usurios distintos;
Mesmo assim, possvel definir mtricas

aproximadas, que, na mdia, tm uma correlao
com as preferncias de uma populao.
Introduo
Sem uma avaliao adequada, no temos
como saber como o sistema de RI est
desempenhando, nem podemos comparar
objetivamente a qualidade e recuperao com
a de outros sistemas.
Introduo
Assim a avaliao sistemtica de um sistema de RI permite
responder a questes que surgem na prtica durante sua
manuteno:
i.
ii.
iii.
Uma modificao na funo de ranqueamento proposta: devemos

ir adiante e implant-la?
Uma nova funo de ranqueamento probabilstica foi projetada: ela
superior ao ranqueamento do modelo vetorial?
Para quais tipos de consultas Web, como consultas sobre
negcios, produtos ou consultas geogrficas, uma modificao no
ranking funciona melhor?
A falta de avaliao adequada impede que essas questes sejam

respondidas de forma objetiva e impossibilita o ajuste da funo de
ranqueamento.
Introduo
Avaliao da recuperao um processo
sistemtico no qual se associa uma mtrica
quantitativa aos resultados produzidos por um
sistema de RI em resposta a um conjunto de
consultas de usurio. Essa mtrica deve ser
diretamente associada relevncia dos
resultados para os usurios. Uma abordagem
comum para computar tal mtrica comparar o
resultado produzido pelo sistema com os
resultados sugeridos por humanos para o
mesmo conjunto de consultas.
Introduo
Avaliao da recuperao significa avaliar a
qualidade dos resultados, no o desempenho
do sistema;
A definio anterior no cobre aspectos que
afetam o julgamento do usurio:
Interface do usurio;
Contexto da busca (preferncias, perodo, etc) ;
Introduo
Apesar dessas deficincias, 0 processo de
associar uma mtrica aos resultados da
consulta continua sendo amplamente
utilizado:
simplicidade;
repetido muitas vezes a custos relativamente
baixos.
permite estudar lotes de consultas maiores e seus
resultados em pouco tempo.
Paradigma de Cranfield
Em 1952, Cyril Cleverdon, bibliotecrio da escola
de aeronutica de Cranfield, Inglaterra, conheceu
o sistema Uniterm proposto por Mortimer Taube,
bibliotecrio nos EUA;
Uniterm 40 mil ttulos formados por 7 mil
palavras distintas;
Cleverdon achou o sistema interessante, indexou
200 documentos manualmente usando o sistema
Uniterm e pediu para um colega que fizesse
diversas consultas.
Em 1952, Cyril Cleverdon, bibliotecrio da escola de
aeronutica de Cranfield, Inglaterra, conheceu o
sistema Uniterm proposto por Mortimer Taube,
bibliotecrio nos EUA;
Uniterm 40 mil ttulos formados por 7 mil palavras
distintas;
O nome do sistema os documentos eram indexados
utilizando somente esses termos (palavras).
Cleverdon achou o sistema interessante, indexou 200

documentos manualmente usando o sistema Uniterm
e pediu para um colega que fizesse diversas consultas.
Sistemas Uniterm x Sistemas de indexao mais
sofisticados: briga entre os defensores de cada um deles;
pois o Uniterm parecia simples e no contemplava a semntica
toda dos documentos.
mas no
havia dados concretos que permitissem uma
comparao direta entre os sistemas.
Ento Cleverdon props um estudo para comparar os

diversos sistemas de indexao existentes;
Cada consulta era baseada em um s documento e a busca era
considerada bem-sucedida se aquele documento fosse
localizado no catlogo;
Como foi realizado:
Indexao manual de 18000 artigos sobre Engenharia Aeronutica e
avaliao de 1200 consultas;
Utilizao de quatro sistemas de indexao;
Os resultados mostraram que os quatro sistemas de indexao eram
basicamente equivalentes em termos da preciso dos resultados;
Alm disso os experimentos mostraram constataes interessantes:
A revocao (frao dos documentos relevantes recuperados) era
pouco til se no estivesse acompanhada pela informao da preciso
(frao dos documentos recuperados que de fato relevante).
Mas posteriormente experimentos mostraram que h um
relacionamento inverso entre preciso e revocao, ou seja, no
possvel aumentar simultaneamente a preciso e a revocao.
Segundo experimento:
1400 documentos e 279 consultas;
Para cada consulta, todos os documentos da coleo foram
examinados e sua relevncia em relao consulta foi determinada;
Seis estudantes passaram trs meses examinando cada documento
em relao a consulta e decidindo quais documentos eram
relevantes;
O resultado foi uma coleo de referncia.
Composta por: documentos, consultas e julgamentos de relevncia de
cada par consulta-documento.
Coleo ficou conhecida como Granfield-2.
Nos experimentos foi observado tambm:
Em situaes prticas, a maioria das buscas no requer uma
revocao (recuperao) alta;
A maioria dos usurios requer apenas algumas respostas
relevantes (preciso);
Os experimentos Cranfield 2 estabeleceram a base para a

experimentao moderna em RI:
O mesmo conjunto de documentos e consultas pode ser usado
para avaliar sistemas de ranqueamento diferentes
comparando-os com os julgamentos de relevncia produzidos
por especialistas humanos.
Alm disso, preciso e revocao so hoje as mtricas
escolhidas para avaliar a qualidade do ranking.
Coleo de referncia
Colees de referncia permitem comparar
diretamente os resultados produzidos por diferentes
funes de ranqueamento;
Coleo de referncia: composta por um

conjunto D de documentos pr-selecionados,
um conjunto I de necessidade de informao
usadas para teste e um conjunto de
julgamentos de relevncia binrios associados
a cada par [im, dj].
Coleo de referncia
Os julgamentos de relevncia so produzidos por
humanos especialistas e idealmente devem fornecer uma
deciso de relevncia para cada par necessidade de
informao-documento.
Claramente, isso s vivel para colees de documento
pequenas, como as dos experimentos Cranfield;
Os julgamentos de relevncia so fornecidos para as
descries das necessidades de informao, e no para
as consultas.
traduzir a necessidade de consulta faz parte do sistema de RI, e
cada um trata de uma maneira.
Coleo de referncia
Vantagens:
Dada uma coleo de referncia, uma avaliao do
sistema de RI pode ser feita rapidamente;
Avaliaes de sistemas de RI podem ser reproduzidas
posteriormente para fins de verificao (Repetibilidade);
Colees de referncia diferentes podem ser construdas
focando em tipos particulares de necessidade de
informao.
Mtricas de Recuperao
Na literatura podemos encontrar vrias
mtricas para a avaliao da qualidade da
recuperao de um sistema de RI, isto a
qualidade dos resultados.
As mais amplamente utilizadas so preciso e
revocao.
Preciso e Revocao:
As medidas de preciso e revocao so definidas
da seguinte forma:
Preciso (frao dos documentos recuperados que
relevante):
p = |RA| / |A|
Revocao (frao dos documentos relevantes que foi

recuperada):
r = |RA| / |R|
Preciso e Revocao:
RA: documentos relevantes
no conjunto resposta
R: documentos relevantes
Coleo de documentos
A: conjunto resposta
Preciso e Revocao:
Tais mtricas supem que todos os documentos no conjunto
resposta A foram examinados;
Contudo, o usurio no normalmente apresentado a todos os
documentos do conjunto resposta A de uma vez;
Em vez disso, os documentos do conjunto A so primeiro
ordenados de acordo com uma funo de ranqueamento;
O usurio examina essa lista ordenada iniciando pelo documento
do topo:
Nesse caso, as medidas de preciso e revocao variam conforme o
usurio procede com seu exame do conjunto resposta.
Preciso e Revocao:
Portanto, uma avaliao adequada requer a
plotagem da curva de preciso x revocao.
Preciso e Revocao:
Exemplo 1:
Coleo referncia e um conjunto de consultas
para teste.
Supondo que R1 conjunto de documentos
relevantes para uma dada consulta q1
(determinado por especialistas).
R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
Preciso e Revocao:
Exemplo 1:
Supondo um novo algoritmo de recuperao que
retorne para a consulta q1 o ranking:
1.
2.
3.
4.
5.
d123
d84
d56
d6
d8
6. d9
7. d511
8. d129
9. d187
10. d25
11. d38
12. d48
13. d250
14. d113
15. d3
Os documentos relevantes para a consulta esto em

negrito.
Preciso e Revocao:
Exemplo 1:
Primeiro d123: um documento relevante (RA) e um
documento recuperado (A)
p = 1/1 = 100%
r = 1/10 = 10%
Segundo d56: dois documentos relevantes (RA) e trs

documentos recuperados (A)
p = 2/3 = 66,67%
r = 2/10= 20%
Terceiro d9: trs documentos relevantes (RA) e seis

p = 3/6 = 50%
r = 3/10= 30%
* A preciso para os nveis de revocao maiores que 50% cai para 0 porque nem todos os
documentos relevantes foram recuperados.
* Revocao 0 obtida por meio de interpolao.
Preciso e Revocao:
Exemplo 2:
Considere uma segunda consulta q2, cujo conjunto
de documentos relevantes, de acordo com
especialistas humanos, seja:
R2 = {d3, d56, d129}
Preciso e Revocao:
Exemplo 2:
Supondo o mesmo algoritmo de recuperao do exemplo
anterior, retorne para a consulta q2 o ranking:
1.
2.
3.
4.
5.
d425
d87
d56
d32
d124
6. d615
7. d512
8. d129
9. d4
10. d130
11. d193
12. d715
13. d810
14. d5
15. d3
Os documentos relevantes para a consulta esto em

negrito.
Preciso e Revocao:
Exemplo 2:
Primeiro d56: um documento relevante (RA) e 3 documentos
recuperado (A)
p = 1/3 = 33,3%
r = 1/3 = 33,3%
Segundo d129: dois documentos relevantes (RA) e oito

p = 2/8 = 25%
r = 2/3= 66,6%
Terceiro d3: trs documentos relevantes (RA) e quinze

p = 3/15 = 20%
r = 3/3= 100%
Preciso e Revocao:
Preciso nos 11 nveis padro de revocao:
Utiliza-se um mtodo de interpolao para se obter a
preciso em 11 pontos de revocao (0%, 10%, 20%,
...,100%)
Seja rj, j {0,1,2,...,10}, uma referncia ao j-simo
nvel padro de revocao (isto , r5 uma referncia
ao nvel de revocao 50%).
P(rj) = max P(r)
Ou seja, a preciso mxima conhecida entre todos os nveis de
revocao maior ou igual a rj.
Preciso e Revocao:
Exemplo 2:
Voltando ao exemplo para calcular os 11 pontos de
revocao.
Nos nveis de revocao 0%, 10%, 20% e 30%, a preciso
interpolada 33,3%, pois a revocao conhecida 33,3%
que maior ou igual do que esses pontos.
Nos nveis de revocao 40%, 50% e 60%, a preciso
interpolada 25%, pois a revocao conhecida 66,6%
que maior ou igual a esses pontos.
Nos nveis demais nveis, a preciso 20%, conforme
analisado anteriormente.
Preciso e Revocao:
Exemplo 2:
Preciso e Revocao:
Geralmente os algoritmos so avaliados sobre
diversas consultas de teste. Neste caso uma
curva de preciso x revocao gerada para
cada consulta.
Para avaliar a qualidade de recuperao de
um algoritmo sobre um conjunto de N
consultas, calculamos a mdia das precises
para cada nvel de revocao.
Preciso e Revocao:
Exemplo (mdia entre q1 e q2)
Preciso e Revocao:
As mdias dos valores de preciso e revocao
podem tambm se utilizadas para comparar
diferentes algoritmos de recuperao.
Primeiro: voltados para a busca Web, poisSegundo:

devem aplicaes especficas como as da
apresentar nveis de preciso mais altos rea da sade ou jurdica necessitam de nveis altos de
revocao
Adequao das Mtricas

Preciso e revocao tm sido amplamente
utilizadas para avaliar a qualidade de
algoritmos de recuperao;
Uma reflexo mais cuidadosa revela problemas
com essas medidas;
Veremos cada um deles.
Adequao das Mtricas

Problemas:
1. A estimativa da revocao mxima para uma consulta
requer um conhecimento detalhado de todos os
documentos da coleo para colees grandes tal
conhecimento no est disponvel;
2. Preciso e revocao so medidas relacionadas que
capturam diferentes aspectos do conjunto de documentos
recuperados em certos casos uma s medida pode ser
mais apropriada;
3. Preciso e revocao medem a eficcia para um conjunto
de consultas processadas em lotes sistemas modernos a
interatividade um aspecto fundamental do processo de
recuperao.
Adequao das Mtricas

Apesar dessas desvantagens, preciso e
revocao continuam sendo amplamente
utilizadas, porque, dada uma coleo de
referncia, elas so simples de calcular e
permitem a comparao direta de diferentes
estratgias de ranqueamento.
Concluso
Como avaliar um modelo de recuperao da
informao usando uma coleo de
referncia;
Duas mtricas amplamente utilizadas foram
apresentadas: preciso e revocao.
Preciso representa a frao de documentos
recuperados que so relevantes;
Revocao representa a frao de documentos
relevantes que foram recuperados.
Exerccio
Considere uma coleo de referncia e um
conjunto de consultas para teste. Suponha que os
conjuntos R1, R2 e R3 de documentos relevantes
para as consultas q1, q2 e q3, respectivamente,
tenham sido determinados por um grupo de
especialistas.
R1 = {d3, d7, d12, d13, d26, d68}
R2 = {d1, d2, d9, d24, d51, d52, d70, d82}
R3 = {d2, d3, d6, d16, d20}
Exerccio
Considere que um novo algoritmo de
recuperao chamado XYZ foi recm projetado.
Suponha que esse algoritmo retorne, para as
consultas q1, q2 e q3, os seguintes rankings de
documentos (primeiras quinze posies):
Consulta q1 (algoritmo XYZ) = {d1, d9, d26, d15, d2,
d10, d74, d68, d32, d3, d53, d39, d56, d11, d4}.
d16, d37, d24, d20, d80, d67, d50, d46, d51, d29}.
d7d6, d39, d75, d19, d26 d16, d20, d51, d1}.
Exerccio
a)Calcule os nveis de preciso e revocao
para cada uma das consultas.
b) Construa o grfico de preciso versus
revocao para cada uma das consultas.
c) Encontre a preciso mdia do algoritmo XYZ
e faa o grfico dos valores mdio de preciso
versus revocao.

Avaliação Da Recuperação

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Avaliação Da Recuperação

Uploaded by

Copyright:

Available Formats

Avaliao da Recuperao

Profa. Patrcia Proena Avila

Mesmo assim, possvel definir mtricas

Uma modificao na funo de ranqueamento proposta: devemos

A falta de avaliao adequada impede que essas questes sejam

Cleverdon achou o sistema interessante, indexou 200

Ento Cleverdon props um estudo para comparar os

Os experimentos Cranfield 2 estabeleceram a base para a

Coleo de referncia: composta por um

Revocao (frao dos documentos relevantes que foi

Os documentos relevantes para a consulta esto em

Segundo d56: dois documentos relevantes (RA) e trs

Terceiro d9: trs documentos relevantes (RA) e seis

Os documentos relevantes para a consulta esto em

Segundo d129: dois documentos relevantes (RA) e oito

Terceiro d3: trs documentos relevantes (RA) e quinze

Primeiro: voltados para a busca Web, poisSegundo:

Adequao das Mtricas

Veremos cada um deles.

Adequao das Mtricas

Adequao das Mtricas

You might also like