You are on page 1of 32

Automatic Text Summarization

Nguy n Minh Thnh - 1012042 Nguy n Thng - 1012049 GVHD : Ts H B o Qu c

N i Dung
y Gi i thi u y y y y y y y y y

nh ngh a Cc ng d ng c a tm t t v n b n Phn lo i tm t t Cc thu t ng Cc c tr ng s d ng Cc giai o n c a m t h th ng tm t t Ph ng php nh gi h th ng tm t t Cc h ng ti p c n Q&A

Gi i Thi u
y Ngy nay

i bng n thng tin y Thng tin ngy cng nhi u v ph bi n y Ho t ng thng tin c nhi u thay i y Internet y Th vi n i n t y ng d ng CNTT y Con ng i c n ph i x l nhi u thng tin h n y Ch c n 1 ph n, hay nh ng thng tin chnh trong thng tin ngu n y Th i gian c h n, khng cho php c h t t t c cc thng tin  C n m t h th ng c v a ra nh ng thng tin chnh.
3

y Th i

nh Ngh a
y Tm t t v n b n l qu trnh rt trch nh ng thng tin quan tr ng

nh t t m t ho c nhi u ngu n

t o ra phin b n c

ng, ng n

g n ph c v cho m t ho c nhi u ng nhi u nhi m v c th . [Mani 2001]

i dng c th , hay m t ho c

The process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks). [Mani 2001]

Cc ng d ng c a tm t t v n b n
y Tm t t tin t c a ph y y y y y y y y
5

hay khng ? H tr bc s : tm t t v so snh cc phc i u tr khc nhau Thng tin trn search engine : tm t t thng tin tm ki m trn cc search engine Thu th p d li u thng minh : tm t t ti u s 500 t c a Osama Bin Laden Tm t t bi bo khoa h c : cho bi t bi bo c ch a thng tin ti c n hay khng ? Tm t t n i dung h i ngh , cu c h p : cho ti bi t cu c h p bn th o v v n g ? Tm t t n i dung video, audio, Tr l i t ng : tm cu tr l i ng n g n v ph h p nh t

ng ti n : cho bi t ti c c n

c tin t c

Phn lo i
y Theo k t qu (output) y Tm t t rt trch (Extract) y Tm t t tm l

c (Abstract)

y Theo m c ch hay ch c n ng tm t t (Function) y Tm t t ch th (Indicative) y Tm t t thng tin (Information) y Tm t t nh gi (Evaluation) y Theo n i dung : y Tm t t chung (Generalized) y Tm t t h
6

ng truy v n (Query-based)

Phn lo i (tt)
y Theo mi y Tm t y Tm t y Tm t

n d li u t trn 1 mi n d li u (Domain) t trn 1 th lo i (Genre) t c l p (Independent) y Theo m c chi ti t y Tm t t t ng quan (overview) y Tm t t t p trung s ki n (event) y Theo s l ng y Tm t t n v n b n y Tm t t a v n b n. y Theo ngn ng y Tm t t n ngn ng y Tm t t a ngn ng y Tm t t xuyn ngn ng (cross-language)
7

Cc thu t ng
y T l nn (Compression Rate) :

o th hi n bao nhiu thng tin c tnh nh sau : chi u di

c c

ng trong v n b n tm t t.

tm t t / chi u di v n b n g c.
y

n i b t hay lin quan (Salient or Relevance) : tr ng s gn cho thng tin trong v n b n th hi n tin i v i ton v n b n hay i v i yu c u truy v n c a ng i dng.

quan tr ng c a thng

ch s lin quan c a thng tin

y S m ch l c (coherence) : m t v n b n

c g i l m ch l c n u

t t c cc thnh ph n trong n tun theo m t th th ng nh t v m t


8

n i dung v khng c s trng l p no gi a cc thnh ph n.

Cc thu t ng (tt)
y C u trc di n ngn, di n

t (Discourse structure) : cc c u trc t n i dung v n b n.

v t , ng php v ngh a nh m di n
y

ng

ng (Similary) :

o th hi n s lin quan gi a 2

vector (cu, v n b n, c m).


y

ng tham chi u (Co-reference) : ng ngh a c a 2 th c th (t ).

o th hi n s lin quan v

y S k t dnh (cohesion) : s lin quan v ng php, t v ng, ng

ngh a gi a cc
9

n v v n b n.

Cc giai o n c a m t h th ng tm t t
y 3 giai o n chnh : y Phn tch (Analysis or Interpretation) : bi u di n v hi u v n b n

ngu n y Bi n i (Transformation) : trch ch n nh ng n i dung quan tr ng y T ng h p (Synthesis or Realization) : t o v n b n m i ch a nh ng i m chnh, quan tr ng c a v n b n g c.

10

Cc
y M c y y

c tr ng

y y y y y

hnh thi c tr ng v ch (Thematic) : th ng k t , t n su t t , stop words, TF.IDF. c tr ng v v tr (Location) : v tr cu trong v n b n hay o n v n (cu u tin trong m i o n, n cu u tin c a v n b n), ph ng php tiu (cu ch a t c trong tiu ), cue-words hay fixed-phrased (cu ch a nh ng ng c nh). c tr ng v s t ng ng (similarity) : cc t c cng d n xu t (common stem), t ng ng gi a cc cu. c tr ng v kho ng cch g n (Proximity) : kho ng cch gi a cc n v v n b n ph i g n nhau. c tr ng v ng xu t hi n (co-ocurrence) : cc t cng xu t hi n trong nhi u v n b n. c tr ng v tn ring (proper name). c tr ng v chi u di cu (short-length cutoff) : b nh ng cu ng n.

11

Cc
y M c y

c tr ng (tt)
c php c tr ng v m i quan h c php (grammatical cohension) :

trng l p (anaphora), t nh l
y y y y

c (ellipsis), lin t (conjuction).

c tr ng v

nh d ng (format). trong v n b n (Threads of topic).

c tr ng v ch

c tr ng v c u trc l lu n (Rhetorical structure). c tr ng v c u trc chu i t v ng (Lexical chains).

12

Cc
y M c y

c tr ng (tt)
ng ngh a c tr ng v m i lin quan gi a cc t theo t i n (lexical

cohension) : l i (repetition).
y y y

ng ngh a (synonymy), bao hm (hypernymy), l p

c tr ng v

ng tham chi u (co-reference)

c tr ng v m i quan h logic. c tr ng v m i quan h bi u di n ng ngh a.

13

Ph
y

ng php nh gi

nh gi k t qu tm t t v n b n l m t vi c lm kh kh n trong th i i m hi n t i. y Khng t n t i tm t t l t ng y Tiu chu n nh gi c a m i ng i khc nhau y Vi c s d ng ki n nh gi c a cc chuyn gia ngn ng c xem l cch nh gi t t nh t y Cch lm ny l i t n r t nhi u chi ph. y V n nh gi t ng k t qu tm t t c ng nh n c nhi u s ch . y Cc ph ng php nh gi tm t t hi n t i : y nh gi th cng (Human & Automatic Evaluation) y nh gi t ng v i o ROUGE
14

Ph
y

ng php nh gi (tt)

nh gi th cng (Human & Automatic Evaluation) y So snh tm t t t ng v i tm t t l t ng (ideal summary) ho c tm t t c s (baseline summary). y Tm t t c phn tch thnh cc n v (cu). yM i n v trong tm t t l t ng (tm t t chu n model unit) s c so snh v i cc n v trong tm t t t ng. y h i quy (recall) cho tm t t c o l ng nh sau

15

Ph
y

ng php nh gi (tt)

nh gi th cng (Human & Automatic Evaluation) y H n ch : y Vi c gn i m cho cc n v khc nhau qua th i gian yS ng thu n gi a nh ng ng i v i m cho cc n v khc nhau.

16

Ph
y

ng php nh gi (tt)

nh gi t ng v i o ROUGE y Recall-Oriented Understudy for Gisting Evaluation y c xu t b i Lin (2004) y Cho y l t p cc tm t t l t ng, s l tm t t t ng. y vector nh phn th hi n gi tr n-gram c a cc thnh ph n trong v n b n d. y o ROUGE c tnh nh sau

17

Cc h
y Tm t t

ng ti p c n

nv nb n y Ti p c n d a trn c tr ng y c tr ng thng th ng y c tr ng TF.IDF y Ti p c n my h c y Nave-Bayes y Optimal Position Policy y Decision Tree y Hidden Makov Model y Log-Linear y M ng Neural y Ti p c n phn tch ngn ng t nhin

18

Cc h

ng ti p c n (tt)

y Tm t t a v n b n y Ti p c n template y Ti p c n gom c m

t ng ng y Gom c m (cluster-based) v i MMR y Gom c m v i l thuy t th y Gom c m d a trn tr ng tm y Ti p c n kch ho t lan truy n trn th

y Gom c m v i

19

Ti p c n d a trn th ng
y Giai o n

c tr ng thng

u c a l nh v c tm t t v n b n t ng y Baxendale (1958), Luhn (1959), Edmundson (1969) y T p trung trn nh ng v n b n k thu t y T p trung vo cc c tr ng hnh thi tnh i m cho cc cu v rt trch cc cu quan tr ng a vo tm t t. y Framework chung cho h th ng tm t t [Edmundson (1969)]

c1

20

c2

Ti p c n d a trn th ng (tt)
y t

c tr ng thng

ng chnh c a h ng ti p c n : y Thu t p ng li u y T o cc b n tm t t th cng y Thi t k cc cng th c ton hay logic tnh i m cho cc cu y L p cho n khi tm t t t ng t c tnh t ng ng v i tm t t th cng : y Tnh i m cho t ng cu t o ra b n tm t t cho t ng v n b n trong ng li u d a vo cc c tr ng v hnh thi. y So snh tm t t ct ot ng v i tm t t c t o th cng y C i thi n l i ph ng th c tnh i m cho cu

21

Ti p c n d a trn th ng (tt)
y Edmundson (1969) y

c tr ng thng

i n hnh nh t trong ph ng php c i n y c tr ng : word frequency, stop words, position, cue words, title y K t n i tuy n tnh k t h p cc i m c tr ng l i v i nhau

y K t qu : Th nghi m v i 400 v n b n k thu t v k t qu

44% (recall so v i tm t t l t

ng).

22

Ti p c n d a My h c
y M hnh chung cho h th ng my h c

23

Ti p c n d a My h c (tt)
y Svore (2007) y S d ng m ng Neural

hu n luy n v phn l p. y c tr ng : position, n-grams frequency y S d ng c tr ng c a hng th ba Microsoft y Query log c a search engine y S d ng Wordnet xc nh ng ngh a cc t y K t q a : v t qua k t qu baseline c a DUC 2002

24

Ti p c n phn tch ngn ng t nhin


y Th

ng s d ng m t s cc heuristic

t o rt trch.

y D a trn c u trc di n ngn (discourse tructure) hay c u trc di n

t (th hi n) c a v n b n, nh :
y c u trc cc section c a v n b n y lin k t ng php (trng l p, t nh l y lin k t t v ng (

c, lin h p),

ng ngh a, bao hm, l p l i), c u trc chnh

ph .

25

Ti p c n cho tm t t a v n b n
y Cc v n

pht sinh y S trng l p v b sung thng tin yV n th i gian trong thng tin y Do , ngoi rt trch thng tin n i b t, cn : y m b o tnh m i y Khng d th a y Tnh k t dnh, m ch l c

26

Ti p c n gom c m v i MMR
y Cc v n b n th

ng

c vi t

gi i quy t nhi u ch

khc

nhau. y Ph ng php gom c m l nh m phn lo i cc cu vo cc c m theo t ng ch m chng ni n trong n i dung. y Ph ng php MMR (Maximal Marginal Relevance c a Carbonell v Jade Goldstein (1998). y c xu t cho l nh v c IR

27

Ti p c n gom c m v i MMR (tt)


y M hnh MMR

c p d ng cho Text Summarization b i

Ganapathiraju (2002) y H th ng tm t t v i MMR bao g m cc ch c n ng : y Phn o n v n b n thnh cc cu. y Phn c m cc cu v i thu t ton gom tch t . y Tnh i m MMR cho cc cu ch n cu thch h p vo tm t t.

28

Ti p c n gom c m v i MMR
y Phn c m cu y Cc cu c bi u di n d i d ng vector. y s d ng gi i thu t gom c tch t (agglomerative clustering) y Cc b c gom c m : y Cho P1, P2,PN l t p h p cc cu trong v n b n. y nh ngh a cc cluster C1, C2,..CN nh sau P1 C1 , P2 C2

,...,PN CN yL p tr n Cluster : cho Sim(Ci,Cj) l t ng tr ng tm c a cluster, tr n hai cluster khi tho :

ng gi a 2

y D ng tr n khi
29

Ti p c n gom c m v i MMR
y Tnh i m cho cu y Cc cu

c tnh i m theo cng th c MMR

trn.

30

Ti p c n gom c m v i MMR
y K t qu : y S d ng ng li u c a DUC 2002. y K t qu d a trn MMR cao h n baseline c a DUC 2002 3.5% y Vi c phn c m ch a th c s hi u qu y S c m ch th c s hi u c a y

m c ng xu t gi i thu t gom c m d a trn ch

ng 0.4 0.5 (topical MMR)

31

Q&A

32

You might also like