Professional Documents
Culture Documents
Roteiro
Introduo;
Paradigma de Cranfield;
Mtricas de recuperao;
Adequao das mtricas.
Introduo
Para avaliar um sistema de RI, necessrio medir
o quo bem o sistema atende a necessidade de
informao do usurio;
Isso pode ser um problema, pois um mesmo conjunto
resposta pode ser interpretado de maneiras diferentes
por usurios distintos;
Introduo
Sem uma avaliao adequada, no temos
como saber como o sistema de RI est
desempenhando, nem podemos comparar
objetivamente a qualidade e recuperao com
a de outros sistemas.
Introduo
Assim a avaliao sistemtica de um sistema de RI permite
responder a questes que surgem na prtica durante sua
manuteno:
i.
ii.
iii.
Introduo
Avaliao da recuperao um processo
sistemtico no qual se associa uma mtrica
quantitativa aos resultados produzidos por um
sistema de RI em resposta a um conjunto de
consultas de usurio. Essa mtrica deve ser
diretamente associada relevncia dos
resultados para os usurios. Uma abordagem
comum para computar tal mtrica comparar o
resultado produzido pelo sistema com os
resultados sugeridos por humanos para o
mesmo conjunto de consultas.
Introduo
Avaliao da recuperao significa avaliar a
qualidade dos resultados, no o desempenho
do sistema;
A definio anterior no cobre aspectos que
afetam o julgamento do usurio:
Interface do usurio;
Contexto da busca (preferncias, perodo, etc) ;
Introduo
Apesar dessas deficincias, 0 processo de
associar uma mtrica aos resultados da
consulta continua sendo amplamente
utilizado:
simplicidade;
repetido muitas vezes a custos relativamente
baixos.
permite estudar lotes de consultas maiores e seus
resultados em pouco tempo.
Paradigma de Cranfield
Em 1952, Cyril Cleverdon, bibliotecrio da escola
de aeronutica de Cranfield, Inglaterra, conheceu
o sistema Uniterm proposto por Mortimer Taube,
bibliotecrio nos EUA;
Uniterm 40 mil ttulos formados por 7 mil
palavras distintas;
Cleverdon achou o sistema interessante, indexou
200 documentos manualmente usando o sistema
Uniterm e pediu para um colega que fizesse
diversas consultas.
Paradigma de Cranfield
Em 1952, Cyril Cleverdon, bibliotecrio da escola de
aeronutica de Cranfield, Inglaterra, conheceu o
sistema Uniterm proposto por Mortimer Taube,
bibliotecrio nos EUA;
Uniterm 40 mil ttulos formados por 7 mil palavras
distintas;
O nome do sistema os documentos eram indexados
utilizando somente esses termos (palavras).
Paradigma de Cranfield
Sistemas Uniterm x Sistemas de indexao mais
sofisticados: briga entre os defensores de cada um deles;
pois o Uniterm parecia simples e no contemplava a semntica
toda dos documentos.
mas no
havia dados concretos que permitissem uma
comparao direta entre os sistemas.
Paradigma de Cranfield
Como foi realizado:
Indexao manual de 18000 artigos sobre Engenharia Aeronutica e
avaliao de 1200 consultas;
Utilizao de quatro sistemas de indexao;
Os resultados mostraram que os quatro sistemas de indexao eram
basicamente equivalentes em termos da preciso dos resultados;
Alm disso os experimentos mostraram constataes interessantes:
A revocao (frao dos documentos relevantes recuperados) era
pouco til se no estivesse acompanhada pela informao da preciso
(frao dos documentos recuperados que de fato relevante).
Mas posteriormente experimentos mostraram que h um
relacionamento inverso entre preciso e revocao, ou seja, no
possvel aumentar simultaneamente a preciso e a revocao.
Paradigma de Cranfield
Segundo experimento:
1400 documentos e 279 consultas;
Para cada consulta, todos os documentos da coleo foram
examinados e sua relevncia em relao consulta foi determinada;
Seis estudantes passaram trs meses examinando cada documento
em relao a consulta e decidindo quais documentos eram
relevantes;
O resultado foi uma coleo de referncia.
Composta por: documentos, consultas e julgamentos de relevncia de
cada par consulta-documento.
Coleo ficou conhecida como Granfield-2.
Paradigma de Cranfield
Nos experimentos foi observado tambm:
Em situaes prticas, a maioria das buscas no requer uma
revocao (recuperao) alta;
A maioria dos usurios requer apenas algumas respostas
relevantes (preciso);
Coleo de referncia
Colees de referncia permitem comparar
diretamente os resultados produzidos por diferentes
funes de ranqueamento;
Coleo de referncia
Os julgamentos de relevncia so produzidos por
humanos especialistas e idealmente devem fornecer uma
deciso de relevncia para cada par necessidade de
informao-documento.
Claramente, isso s vivel para colees de documento
pequenas, como as dos experimentos Cranfield;
Os julgamentos de relevncia so fornecidos para as
descries das necessidades de informao, e no para
as consultas.
traduzir a necessidade de consulta faz parte do sistema de RI, e
cada um trata de uma maneira.
Coleo de referncia
Vantagens:
Dada uma coleo de referncia, uma avaliao do
sistema de RI pode ser feita rapidamente;
Avaliaes de sistemas de RI podem ser reproduzidas
posteriormente para fins de verificao (Repetibilidade);
Colees de referncia diferentes podem ser construdas
focando em tipos particulares de necessidade de
informao.
Mtricas de Recuperao
Na literatura podemos encontrar vrias
mtricas para a avaliao da qualidade da
recuperao de um sistema de RI, isto a
qualidade dos resultados.
As mais amplamente utilizadas so preciso e
revocao.
Mtricas de Recuperao
Preciso e Revocao:
As medidas de preciso e revocao so definidas
da seguinte forma:
Preciso (frao dos documentos recuperados que
relevante):
p = |RA| / |A|
Mtricas de Recuperao
Preciso e Revocao:
RA: documentos relevantes
no conjunto resposta
R: documentos relevantes
Coleo de documentos
A: conjunto resposta
Mtricas de Recuperao
Preciso e Revocao:
Tais mtricas supem que todos os documentos no conjunto
resposta A foram examinados;
Contudo, o usurio no normalmente apresentado a todos os
documentos do conjunto resposta A de uma vez;
Em vez disso, os documentos do conjunto A so primeiro
ordenados de acordo com uma funo de ranqueamento;
O usurio examina essa lista ordenada iniciando pelo documento
do topo:
Nesse caso, as medidas de preciso e revocao variam conforme o
usurio procede com seu exame do conjunto resposta.
Mtricas de Recuperao
Preciso e Revocao:
Portanto, uma avaliao adequada requer a
plotagem da curva de preciso x revocao.
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 1:
Coleo referncia e um conjunto de consultas
para teste.
Supondo que R1 conjunto de documentos
relevantes para uma dada consulta q1
(determinado por especialistas).
R1 = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123}
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 1:
Supondo um novo algoritmo de recuperao que
retorne para a consulta q1 o ranking:
1.
2.
3.
4.
5.
d123
d84
d56
d6
d8
6. d9
7. d511
8. d129
9. d187
10. d25
11. d38
12. d48
13. d250
14. d113
15. d3
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 1:
Primeiro d123: um documento relevante (RA) e um
documento recuperado (A)
p = 1/1 = 100%
r = 1/10 = 10%
Mtricas de Recuperao
* A preciso para os nveis de revocao maiores que 50% cai para 0 porque nem todos os
documentos relevantes foram recuperados.
* Revocao 0 obtida por meio de interpolao.
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Considere uma segunda consulta q2, cujo conjunto
de documentos relevantes, de acordo com
especialistas humanos, seja:
R2 = {d3, d56, d129}
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Supondo o mesmo algoritmo de recuperao do exemplo
anterior, retorne para a consulta q2 o ranking:
1.
2.
3.
4.
5.
d425
d87
d56
d32
d124
6. d615
7. d512
8. d129
9. d4
10. d130
11. d193
12. d715
13. d810
14. d5
15. d3
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Primeiro d56: um documento relevante (RA) e 3 documentos
recuperado (A)
p = 1/3 = 33,3%
r = 1/3 = 33,3%
Mtricas de Recuperao
Preciso e Revocao:
Preciso nos 11 nveis padro de revocao:
Utiliza-se um mtodo de interpolao para se obter a
preciso em 11 pontos de revocao (0%, 10%, 20%,
...,100%)
Seja rj, j {0,1,2,...,10}, uma referncia ao j-simo
nvel padro de revocao (isto , r5 uma referncia
ao nvel de revocao 50%).
P(rj) = max P(r)
Ou seja, a preciso mxima conhecida entre todos os nveis de
revocao maior ou igual a rj.
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Voltando ao exemplo para calcular os 11 pontos de
revocao.
Nos nveis de revocao 0%, 10%, 20% e 30%, a preciso
interpolada 33,3%, pois a revocao conhecida 33,3%
que maior ou igual do que esses pontos.
Nos nveis de revocao 40%, 50% e 60%, a preciso
interpolada 25%, pois a revocao conhecida 66,6%
que maior ou igual a esses pontos.
Nos nveis demais nveis, a preciso 20%, conforme
analisado anteriormente.
Mtricas de Recuperao
Preciso e Revocao:
Exemplo 2:
Mtricas de Recuperao
Preciso e Revocao:
Geralmente os algoritmos so avaliados sobre
diversas consultas de teste. Neste caso uma
curva de preciso x revocao gerada para
cada consulta.
Para avaliar a qualidade de recuperao de
um algoritmo sobre um conjunto de N
consultas, calculamos a mdia das precises
para cada nvel de revocao.
Mtricas de Recuperao
Preciso e Revocao:
Exemplo (mdia entre q1 e q2)
Mtricas de Recuperao
Preciso e Revocao:
As mdias dos valores de preciso e revocao
podem tambm se utilizadas para comparar
diferentes algoritmos de recuperao.
Concluso
Como avaliar um modelo de recuperao da
informao usando uma coleo de
referncia;
Duas mtricas amplamente utilizadas foram
apresentadas: preciso e revocao.
Preciso representa a frao de documentos
recuperados que so relevantes;
Revocao representa a frao de documentos
relevantes que foram recuperados.
Exerccio
Considere uma coleo de referncia e um
conjunto de consultas para teste. Suponha que os
conjuntos R1, R2 e R3 de documentos relevantes
para as consultas q1, q2 e q3, respectivamente,
tenham sido determinados por um grupo de
especialistas.
R1 = {d3, d7, d12, d13, d26, d68}
R2 = {d1, d2, d9, d24, d51, d52, d70, d82}
R3 = {d2, d3, d6, d16, d20}
Exerccio
Considere que um novo algoritmo de
recuperao chamado XYZ foi recm projetado.
Suponha que esse algoritmo retorne, para as
consultas q1, q2 e q3, os seguintes rankings de
documentos (primeiras quinze posies):
Consulta q1 (algoritmo XYZ) = {d1, d9, d26, d15, d2,
d10, d74, d68, d32, d3, d53, d39, d56, d11, d4}.
Consulta q2 (algoritmo XYZ) = {d3, d7, d8, d9, d19,
d16, d37, d24, d20, d80, d67, d50, d46, d51, d29}.
Consulta q3 (algoritmo XYZ) = {d2, d30, d25, d3, d9,
d7d6, d39, d75, d19, d26 d16, d20, d51, d1}.
Exerccio
a)Calcule os nveis de preciso e revocao
para cada uma das consultas.
b) Construa o grfico de preciso versus
revocao para cada uma das consultas.
c) Encontre a preciso mdia do algoritmo XYZ
e faa o grfico dos valores mdio de preciso
versus revocao.