Professional Documents
Culture Documents
octombrie 2017
Presupunem ca
document d = colectie de ` zone z1 , . . . , z`
Interogare q
si {0, 1} indica potrivirea interogarii q cu zona zi , 1 i `
`
X
(q, d) 7 scor (q, d) = gi si
i=1
P`
unde g1 , . . . , g` [0..1] astfel ncat i=1 gi = 1.
Acest model de extragere a informatiilor se numeste si model de
extragere booleana bazat pe scoruri.
Bibliografie: Christopher D. Manning, Prabhakar Raghavan,
Hinrich Schutze: An Introduction to Information Retrieval.
Capitolul 6. Editie online (c) 2009 Cambridge UP.
Se considera cunoscute:
o colectie de documente cu zonele z1 , . . . , z`
o multime de exemple de antrenare j = (qj , dj , r (qj , dj ))
unde
1 daca d este relevant pentru interogarea q
r (qj , dj ) =
0 n caz contrar
Dorim sa nvatam vectorul de greutati g = hg1 , . . . , g` i pentru
zonele de document z1 , . . . , z` , pentru a calcula
`
X
scor (q, d) = gi si
i=1
d (g , )
= 0 2(n01R + n10I )g + (n10R + n01I ) (2g 2) = 0
dg
n10R + n01I 1
g= =
n10R + n10I + n01R + n01I 4
V~ (d1 ) V~ (d2 )
sim(d1 , d2 ) =
~ (d1 )| |V
|V ~ (d2 )|
~ (d)
V
Notatie: ~v (d) := .
~ (d)|
|V
V~ (q) V~ (d)
scor (q, d) =
~ (q)| |V
|V ~ (d)|
V~ (q) V~ (d)
scor (q, d) =
~ (q)| |V
|V ~ (d)|
tft,d
ntft,d = a + (1 a)
tfmax (d)