Professional Documents
Culture Documents
N i Dung
y Gi i thi u y y y y y y y y y
Gi i Thi u
y Ngy nay
i bng n thng tin y Thng tin ngy cng nhi u v ph bi n y Ho t ng thng tin c nhi u thay i y Internet y Th vi n i n t y ng d ng CNTT y Con ng i c n ph i x l nhi u thng tin h n y Ch c n 1 ph n, hay nh ng thng tin chnh trong thng tin ngu n y Th i gian c h n, khng cho php c h t t t c cc thng tin C n m t h th ng c v a ra nh ng thng tin chnh.
3
y Th i
nh Ngh a
y Tm t t v n b n l qu trnh rt trch nh ng thng tin quan tr ng
nh t t m t ho c nhi u ngu n
t o ra phin b n c
ng, ng n
i dng c th , hay m t ho c
The process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks). [Mani 2001]
Cc ng d ng c a tm t t v n b n
y Tm t t tin t c a ph y y y y y y y y
5
hay khng ? H tr bc s : tm t t v so snh cc phc i u tr khc nhau Thng tin trn search engine : tm t t thng tin tm ki m trn cc search engine Thu th p d li u thng minh : tm t t ti u s 500 t c a Osama Bin Laden Tm t t bi bo khoa h c : cho bi t bi bo c ch a thng tin ti c n hay khng ? Tm t t n i dung h i ngh , cu c h p : cho ti bi t cu c h p bn th o v v n g ? Tm t t n i dung video, audio, Tr l i t ng : tm cu tr l i ng n g n v ph h p nh t
ng ti n : cho bi t ti c c n
c tin t c
Phn lo i
y Theo k t qu (output) y Tm t t rt trch (Extract) y Tm t t tm l
c (Abstract)
y Theo m c ch hay ch c n ng tm t t (Function) y Tm t t ch th (Indicative) y Tm t t thng tin (Information) y Tm t t nh gi (Evaluation) y Theo n i dung : y Tm t t chung (Generalized) y Tm t t h
6
ng truy v n (Query-based)
Phn lo i (tt)
y Theo mi y Tm t y Tm t y Tm t
n d li u t trn 1 mi n d li u (Domain) t trn 1 th lo i (Genre) t c l p (Independent) y Theo m c chi ti t y Tm t t t ng quan (overview) y Tm t t t p trung s ki n (event) y Theo s l ng y Tm t t n v n b n y Tm t t a v n b n. y Theo ngn ng y Tm t t n ngn ng y Tm t t a ngn ng y Tm t t xuyn ngn ng (cross-language)
7
Cc thu t ng
y T l nn (Compression Rate) :
c c
ng trong v n b n tm t t.
tm t t / chi u di v n b n g c.
y
n i b t hay lin quan (Salient or Relevance) : tr ng s gn cho thng tin trong v n b n th hi n tin i v i ton v n b n hay i v i yu c u truy v n c a ng i dng.
quan tr ng c a thng
y S m ch l c (coherence) : m t v n b n
c g i l m ch l c n u
Cc thu t ng (tt)
y C u trc di n ngn, di n
v t , ng php v ngh a nh m di n
y
ng
ng (Similary) :
o th hi n s lin quan gi a 2
o th hi n s lin quan v
ngh a gi a cc
9
n v v n b n.
Cc giai o n c a m t h th ng tm t t
y 3 giai o n chnh : y Phn tch (Analysis or Interpretation) : bi u di n v hi u v n b n
10
Cc
y M c y y
c tr ng
y y y y y
hnh thi c tr ng v ch (Thematic) : th ng k t , t n su t t , stop words, TF.IDF. c tr ng v v tr (Location) : v tr cu trong v n b n hay o n v n (cu u tin trong m i o n, n cu u tin c a v n b n), ph ng php tiu (cu ch a t c trong tiu ), cue-words hay fixed-phrased (cu ch a nh ng ng c nh). c tr ng v s t ng ng (similarity) : cc t c cng d n xu t (common stem), t ng ng gi a cc cu. c tr ng v kho ng cch g n (Proximity) : kho ng cch gi a cc n v v n b n ph i g n nhau. c tr ng v ng xu t hi n (co-ocurrence) : cc t cng xu t hi n trong nhi u v n b n. c tr ng v tn ring (proper name). c tr ng v chi u di cu (short-length cutoff) : b nh ng cu ng n.
11
Cc
y M c y
c tr ng (tt)
c php c tr ng v m i quan h c php (grammatical cohension) :
trng l p (anaphora), t nh l
y y y y
c tr ng v
c tr ng v ch
12
Cc
y M c y
c tr ng (tt)
ng ngh a c tr ng v m i lin quan gi a cc t theo t i n (lexical
cohension) : l i (repetition).
y y y
c tr ng v
13
Ph
y
ng php nh gi
nh gi k t qu tm t t v n b n l m t vi c lm kh kh n trong th i i m hi n t i. y Khng t n t i tm t t l t ng y Tiu chu n nh gi c a m i ng i khc nhau y Vi c s d ng ki n nh gi c a cc chuyn gia ngn ng c xem l cch nh gi t t nh t y Cch lm ny l i t n r t nhi u chi ph. y V n nh gi t ng k t qu tm t t c ng nh n c nhi u s ch . y Cc ph ng php nh gi tm t t hi n t i : y nh gi th cng (Human & Automatic Evaluation) y nh gi t ng v i o ROUGE
14
Ph
y
ng php nh gi (tt)
nh gi th cng (Human & Automatic Evaluation) y So snh tm t t t ng v i tm t t l t ng (ideal summary) ho c tm t t c s (baseline summary). y Tm t t c phn tch thnh cc n v (cu). yM i n v trong tm t t l t ng (tm t t chu n model unit) s c so snh v i cc n v trong tm t t t ng. y h i quy (recall) cho tm t t c o l ng nh sau
15
Ph
y
ng php nh gi (tt)
nh gi th cng (Human & Automatic Evaluation) y H n ch : y Vi c gn i m cho cc n v khc nhau qua th i gian yS ng thu n gi a nh ng ng i v i m cho cc n v khc nhau.
16
Ph
y
ng php nh gi (tt)
nh gi t ng v i o ROUGE y Recall-Oriented Understudy for Gisting Evaluation y c xu t b i Lin (2004) y Cho y l t p cc tm t t l t ng, s l tm t t t ng. y vector nh phn th hi n gi tr n-gram c a cc thnh ph n trong v n b n d. y o ROUGE c tnh nh sau
17
Cc h
y Tm t t
ng ti p c n
nv nb n y Ti p c n d a trn c tr ng y c tr ng thng th ng y c tr ng TF.IDF y Ti p c n my h c y Nave-Bayes y Optimal Position Policy y Decision Tree y Hidden Makov Model y Log-Linear y M ng Neural y Ti p c n phn tch ngn ng t nhin
18
Cc h
ng ti p c n (tt)
y Tm t t a v n b n y Ti p c n template y Ti p c n gom c m
t ng ng y Gom c m (cluster-based) v i MMR y Gom c m v i l thuy t th y Gom c m d a trn tr ng tm y Ti p c n kch ho t lan truy n trn th
y Gom c m v i
19
Ti p c n d a trn th ng
y Giai o n
c tr ng thng
u c a l nh v c tm t t v n b n t ng y Baxendale (1958), Luhn (1959), Edmundson (1969) y T p trung trn nh ng v n b n k thu t y T p trung vo cc c tr ng hnh thi tnh i m cho cc cu v rt trch cc cu quan tr ng a vo tm t t. y Framework chung cho h th ng tm t t [Edmundson (1969)]
c1
20
c2
Ti p c n d a trn th ng (tt)
y t
c tr ng thng
ng chnh c a h ng ti p c n : y Thu t p ng li u y T o cc b n tm t t th cng y Thi t k cc cng th c ton hay logic tnh i m cho cc cu y L p cho n khi tm t t t ng t c tnh t ng ng v i tm t t th cng : y Tnh i m cho t ng cu t o ra b n tm t t cho t ng v n b n trong ng li u d a vo cc c tr ng v hnh thi. y So snh tm t t ct ot ng v i tm t t c t o th cng y C i thi n l i ph ng th c tnh i m cho cu
21
Ti p c n d a trn th ng (tt)
y Edmundson (1969) y
c tr ng thng
i n hnh nh t trong ph ng php c i n y c tr ng : word frequency, stop words, position, cue words, title y K t n i tuy n tnh k t h p cc i m c tr ng l i v i nhau
44% (recall so v i tm t t l t
ng).
22
Ti p c n d a My h c
y M hnh chung cho h th ng my h c
23
Ti p c n d a My h c (tt)
y Svore (2007) y S d ng m ng Neural
hu n luy n v phn l p. y c tr ng : position, n-grams frequency y S d ng c tr ng c a hng th ba Microsoft y Query log c a search engine y S d ng Wordnet xc nh ng ngh a cc t y K t q a : v t qua k t qu baseline c a DUC 2002
24
ng s d ng m t s cc heuristic
t o rt trch.
t (th hi n) c a v n b n, nh :
y c u trc cc section c a v n b n y lin k t ng php (trng l p, t nh l y lin k t t v ng (
c, lin h p),
ph .
25
Ti p c n cho tm t t a v n b n
y Cc v n
pht sinh y S trng l p v b sung thng tin yV n th i gian trong thng tin y Do , ngoi rt trch thng tin n i b t, cn : y m b o tnh m i y Khng d th a y Tnh k t dnh, m ch l c
26
Ti p c n gom c m v i MMR
y Cc v n b n th
ng
c vi t
gi i quy t nhi u ch
khc
nhau. y Ph ng php gom c m l nh m phn lo i cc cu vo cc c m theo t ng ch m chng ni n trong n i dung. y Ph ng php MMR (Maximal Marginal Relevance c a Carbonell v Jade Goldstein (1998). y c xu t cho l nh v c IR
27
Ganapathiraju (2002) y H th ng tm t t v i MMR bao g m cc ch c n ng : y Phn o n v n b n thnh cc cu. y Phn c m cc cu v i thu t ton gom tch t . y Tnh i m MMR cho cc cu ch n cu thch h p vo tm t t.
28
Ti p c n gom c m v i MMR
y Phn c m cu y Cc cu c bi u di n d i d ng vector. y s d ng gi i thu t gom c tch t (agglomerative clustering) y Cc b c gom c m : y Cho P1, P2,PN l t p h p cc cu trong v n b n. y nh ngh a cc cluster C1, C2,..CN nh sau P1 C1 , P2 C2
ng gi a 2
y D ng tr n khi
29
Ti p c n gom c m v i MMR
y Tnh i m cho cu y Cc cu
trn.
30
Ti p c n gom c m v i MMR
y K t qu : y S d ng ng li u c a DUC 2002. y K t qu d a trn MMR cao h n baseline c a DUC 2002 3.5% y Vi c phn c m ch a th c s hi u qu y S c m ch th c s hi u c a y
31
Q&A
32