Professional Documents
Culture Documents
(1)
maka
Model Jaccard:
(4)
d
136
(5)
seb
uah
que
ry
terh
ada
p
suat
u
dok
um
en
dipan
dan
g
seb
aga
i
pen
guk
ura
n
kes
am
aan
ant
ara
vek
tor
que
ry
den
gan
vek
tor
dok
ume
n.
Se
ma
kin
bes
ar
nila
i
kesam
aan
vektor
query
denga
n
vektor
doku
men
maka
query
terseb
ut
dipan
dang
semak
in
relevan
denga
n
doku
men.
Saat
mesin
mener
i- ma
query,
mesin
akan
memb
angun
sebu-
Model
Cosine
similarity
Larson dan
Herast:
ah
,w )
vekto , b
r Q w er
(w
d
as
ar
k
a
n
q1
qt
istilahistilah
pada
query dan
sebuah
vektor ,d )
D beruku
(d ran t
,d untuk
i1 i2
se- it
(6)
2.4 Pembobotan
TF-IDF
Pembobotan
dapat diperoleh
berda-
sarkan jumlah
kemunculan
suatu term
dalam sebuah
dokumen term
frequency
(tf) dan jumlah
kemunculan
term dalam
k
o
l
e
k
s
i
tiap
dok
ume
n.
Pad
a
um
um
nya
cosi
ne
simil
arit
y
(CS
)
dihi
tun
g
den
gan
rum
us
cosin
e
me
asu
re
(Gr
oss
ma
n,
199
8).
d
o
k
u
m
e
n
i
n
v
e
r
s
e
d
o
c
u
m
e
n
t
f
r
e
-
t =k
D=
D1
doku
men
(4)
d
136
q
u
e
n
c
y
ika
istilah
terseb
ut
sering
munc
ul
dalam
suatu
doku
men
dan
sema
kin
kecil
jika
istilah
terseb
ut
munc
ul
dalam
banya
k
doku
men
(Gros
sman,
1998)
.
Nilai
idf sebuah
term
(kata)
dapat
dihitu
ng
meng
gunakan
persa
maan
sebag
ai
berik
ut:
(
i
d
f
)
.
B
o
b
o
t
s
u
a
t
u
i
s
t
i
l
a
h
s
e
m
a
k
i
n
b
e
s
a
r
j
Q
D adalah jumlah
dokumen yang
berisi
algoritma yang
digunakan untuk
menghit
G
u
a
n
m (
g
b
b
a
o
r
b
1
o
.
t
V
(
e
W
k
)
t
m
o
a
r
si
S
n
k
g
a
l
m
a
a
r
si
n
g
d
o
Keteran
k
gan:
u
T
=
m
term
e
dalam
n
kalimat
t
e
r
h
d
(7)
(4)
136
a
d
a
p
d
,
t
k
a
t
a
term
k
u
n
c
i
(
q
u
w
t,b =1
w
t,b =
2
*
I
D
F
t
(
8
)
Ketera
ngan :
d=
dokum
en ke
d
t=
term
ket
dari
kata
kunc
i
tf =
term
frek
uens
i/fre
kuen
si
kata
W
=
b
o
b
o
t
d
o
k
u
m
e
n
k t
e e
Model Dot
product:
CS(Q,Di) =
(Di)(Q)
(3) Model
Dice:
rhad
ap
ter
m
ket
Se
telah
bobot
(W)
masi
ngmasi
ng
doku
men
diket
ahui,
maka
dilak
ukan
prose
s
peng
uruta
n
(sorti
ng)
dima
na
sema
kin
besar
nilai
W,
sema
kin
besar
tingk
at
kesa
maan
(simi
larity
)
doku
men t
ersebut terhadap kata yang
demikian pula sebaliknya.
(4)
136
dicari,
Sufiks
Pengganti
Kondisi
Tambahan
Contoh
Kah NULL
NULL
bukukahbuku
lah NULL
NULL
terimalahterima
tah NULL
NULL
apatah apa
pun NULL
NULL
bukupunbuku
Sufiks
Pengganti
Kondisi
Tambahan
Contoh
ku
NULL
NULL
bukukubuku
mu
NULL
NULL
bukumubuku
nya
NULL
NULL
bukunyabuku
2.5.5 Stemming
Stemming merupakan proses mencari
akar (root) kata dari tiap token kata yaitu
dengan pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem) (Tala,
2003). Pada penelitian ini menggunakan
porter stemming untuk bahasa indonesia
(Tala, 2003). Terdapat lima aturan pada
proses stemming untuk bahasa Indonesia
menggunakan porter stemmer, yaitu ada
lima aturan tahap dalam proses stemming
pada bahasa Indonesia, yaitu :
1) Penanganan terhadap partikel inflek
sional, yaitu: lah, tah, kah. Contoh: duduklah, makanlah.
2) Penanganan terhadap kata ganti infleksional, yaitu: ku, mu, dan nya. Contoh:
sepedaku, bukunya.
3) Penanganan terhadap prefiks derivasional pertama, yaitu : meng dan semua variasinya, peng dan semua variasinya, di, ter, dan ke. contoh : membakar, pengukur, kekasih.
4) Penanganan terhadap prefix derivasional kedua, yaitu : ber dan semua variasinya serta per dan semua variasinya.
Contoh: berlari, belajar, perkata.
5) Penanganan terhadap Sufiks derivasional, yaitu kan, am dan i. Contoh: ambilkan, janjian dan dapati.
Karena struktur morfologi bahasa
I donesia yang rumit maka kelima tahap
a uran tidak cukup untuk menangani prot
a
t
Contoh :
- sekolah sekolah (kata dasar, tidak
dilakukan stemming)
- duduklah duduk (dilakukan proses
stemming)
Berdasarkan urutan tahapan pada penanganan kata berimbuhan, maka terdapat beberapa kemungkinan dalam kesulitan membedakan suatu suku kata merupakan imbuhan atau bagian kata dasar :
1) Kata dasar mempunyai suku kata terakhir (partikel infleksional) serta kata
tersebut tidak mendapat imbuhan apapun. Contoh: istilah.
2) Kata dasar mempunyai suku kata terakhir (partikel infleksional) dan mempunyai prefiks. Contoh: bersalah.
3) Kata dasar mempunyai suku kata terakhir (kata ganti infleksional) serta kata
dasar tersebut tidak mendapatkan imbuhan apapun. Contoh : bangku.
4) Kata dasar mempunyai suku kata terakhir (kata ganti infleksional) dan mengandung prefiks. Contoh: bertanya.
5) Kata dasar mempunyai suku kata pertama (prefiks derivasional pertama)
serta kata dasar tersebut tidak mendapatkan imbuhan apapun. Contoh: diagram, kenang.
6) Kata dasar mempunyai suku kata pertama (prefiks derivasional pertama)
dan mempunyai sufiks derivasional.
Contoh: disiplinkan, pentungan.
7) Kata dasar mempunyai suku kata pertama (prefiks derivasional kedua) serta
kata dasar tersebut tidak mendapatkan
imbuhan apapun. Contoh : pelangi,
perban.
8) Kata dasar mempunyai suku kata pertama (prefiks derivasional) dan mempunyai sufiks derivasional. Contoh:
belakangan, pejamkan.
9) Kata dasar mempunyai suku kata terakhir (sufiks derivasional). Contoh: koleksi, dominan.
Berdasarkan
dari
permasalahan
tersebut, maka dibuat kamus-kamus kecil
untuk melengkapi proses stemming ini.
Terdapat 9 kamus kecil, yaitu :
1) Kamus partikel. Seperti: masalah
Pengganti
Kondisi
Tambahan
Contoh
meng
NULL
NULL
mengukurukur
meny
V*
menyapu sapu
men
NULL
NULL
menduga duga
men
menuduhtuduh
mem
memilah pilah
mem
NULL
NULL
membaca baca
me
NULL
NULL
merusak rusak
peng
NULL
NULL
pengukur ukur
peny
penyelamselam
pen
NULL
NULL
pendaki daki
pen
penari tari
pem
pemilahpilah
pem
NULL
NULL
pembacabaca
di
NULL
NULL
diukurukur
ter
NULL
NULL
tersipusipu
ke
NULL
NULL
kekasihkasih
Pengganti
Ber
NULL
Bel
Be
Kondisi
Tambahan
Contoh
NULL
berlarilari
NULL
Ajar
belajarajar
NULL
Kerja
bekerjakerja
Per
NULL
NULL
perjelasjelas
Pel
NULL
Ajar
pelajar ajar
Pe
NULL
NULL
pekerjakerja
Pengganti
Kondisi
Tambahan
Contoh
kan
NULL
prefiks
{ke, peng}
tarikkantarik
(meng)ambilkan
ambil
An
NULL
NULL
prefiks
{ber,
peng}
ke,
tandai tanda
(men)dapati
dapat
10
(10)
2 * precision *
f measure recall recall
precision
(11)
6
)
K
a
m
u
s
p
r
e
f
i
k
s
1
stemming.
b
e
r
s
u
f
i
k
s
.
S
e
p
e
r
t
i
:
tera
pan
.
7
)
K
a
m
u
s
p
r
e
f
i
k
s
2
.
S
e
p
e
r
t
i
:
p
e
r
c
a
y
a
.
8
)
K
a
m
u
s
p
r
e
f
i
k
s
2
b
ersufiks.
Seperti:
perasaan.
9)
Kamus
sufiks.
Seperti:
pantai.
Kondisi
ukuran adalah
jumlah
minimum suku kata
dalam
sebuah
kata. Kare- na
dalam
bahasa
Indonesia, kata
dasar
setidaknya
mempunyai
2
suku kata. Maka
kondisi ukuran
dalam
proses
stemming bahasa
Indonesia adalah
dua. Suku kata
didefinisikan
memiliki
satu
vokal.
2
.
6
T
i
p
e
E
v
a
l
u
a
s
i
Metode untuk
mengevaluasi
hasil
ringkasan
merupakan
topik
yang
s
i
k
Ha
nya
diu
kur
dari
kua
lita
s
hasi
l
(
o
u
t
p
u
t
)
r
i
n
g
k
a
s
a
n
y
a
n
g
d
i
h
a
s
i
l
k
a
n
.
E
v
a
l
u.
aP
se
i n
sg
i e
sv
t a
el
mu
a
ps
ei
rm
i e
nn
gc
ki
ap
st
ya
ak
na
gn
s
ae
dk
au
sm
ap
au
t l
i a
nn
i ri
an
dg
ak
l a
as
ha
n
i y
na
t n
rg
i m
na
sn
i u
ka
l,
m
a
si
n
g
m
a
si
n
g
s
a
t
u
u
n
t
u
k
m
e
n
g
u
ji
t
e
k
s.
K
e
m
u
d
i
a
n
m
e
m
b
a
n
d
i
n
g
k
a
n
h
a
s
i
l
r
i
n
g
k
a
s
a
n
s
i
s
t
e
m
d
e
n
g
a
n
r
i
n
g
k
a
s
a
n
i
d
e
a
l
.
Y
a
n
g
d
i
u
k
u
r
a
d
a
l
a
h
o
v
e
r
l
a
p
d
a
r
i
i
s
i
,
s
e
r
i
n
g
k
a
l
i
d
i
s
e
b
u
t
d
e
n
Precision
(persamaan
9) dan
recall
(persamaan 10)
digunakan untuk
mengukur
kualitas sebuah
ringkasan.
Pengukuran
precision
dan
recall ini sangat
dipengaruhi
oleh
panjang
ringkasan
manual dan juga
panjang
ringkasan yang
dievaluasi.
Akurasi
menurun sejalan
dengan
bertambahnya
panjang
ringkasan. Sulit
untuk
mengambil
kesimpulan
terhadap
performance
sistem dari nilai
precision
dan
recall.
Untuk
standarisasi
proses eva- luasi
belum
dieksplorasi.
Masalah utama
dari evaluasi ini
adalah
sangat
nyata, yai- tu
tidak
ada
satupun
ringkasan yang
benar
(Edmudson,
1969).
Kombinasi
antara
nilai
recall
dan
precision
m
e
n
g
h
a
s
i
l
k
a
n
f
m
e
a
s
u
r
e
(
p
e
r
s
a
m
a
a
n
1
1
)
.
3
.
M
E
T
O
D
O
L
O
Gp
Ia
Pk
da
a
pn
ns
li
is
t
ine
m
p
p
ne
kr
si
n
tg
ks
k
oa
ts
oa
mn
ad
te
in
sg
a
bn
ei
rn
ip
tu
at
a
yn
ab
ne
gr
u
dip
ba
us
ai
tn
g
ml
ee
rd
uo
k
u
m
e
n
d
a
n
s
e
c
a
r
a
o
t
o
m
a
ti
s
m
e
n
g
h
a
s
il
k
a
n
ri
n
g
k
a
s
a
n
(
s
u
m
m
a
r
y
).
P
r
1)
teks dokumen
yang
akan
diringkas dan
memasukkan
kalimat
query.
Proses awal
peringkasan
user
memasukkan
teks dokumen
dan
query
sesuai Tabel
6.
2)
Sistem
melakukan
penyiapan
teks
(text
preprosessing
)
dokumen
yang terdiri
dari
tahap
pemecahan
kalimat, case
folding,
tokenizing
kata,
filtering dan
Text preprocesing
Pembobotan tf-idf
P
e
m
b
o
b
o
t
a
n
q
u
e
r
y
r
e
l
e
v
a
n
c
e
,
s
i
m
i
l
a
r
i
t
y
k
a
l
i
m
a
t
Pemb
obota
n
MMR
kstr
aks
i
Rin
gka
san
Gamb
ar 2.
Proses
Pering
kasan
Tab
el 6.
Tek
s
Asa
l
dan
Que
ry
Isi: Tempo
interaktif,
london:
hubungan
mesra antara
chelsea
dengan didier
drogba
tampaknya
akan segera
berakhir.
Striker pantai
gading
itu
kemungkinan
akan
mendapat
denda
100,000
poundstering
(rp
1,5
miliar) akibat
mengkritik
klub
yang
menurutnya
tidak
mendukung
performanya
di stamford
bridge musim
ini.
Nilai
denda
itu
setara
gaji
sepekan
yang
diterima
drogba. Dia
juga mengaku
tidak
berminat
untuk
kembali
bermain
setelah
dibekap
cedera lutut
dan
mengkritik
gaya
pemilihan
pemain yang
ditunjukkan
luiz
felipe
scolari.
Komentarnya
jelas
membuat big
phil dan ceo
the
blues
peter kenyon
marah. Atas
aksinya
ini
klub
telah
memanggil
drogba
yang
mungkin
memilih
mengakhiri
kariernya
bersama
chelsea yang
dimulainya
sejak
2004
setelah
hengkang dari
marseille.
No
1
2
3
4
5
Q
u
e
r
y
:
c
h
e
l
s
e
a
d
e
n
d
a
d
r
o
g
b
a
start
3
merupakan
Kalimat hasil
.
proses
Tempo interaktif, London: hubungan mesra antara
1
pemecahan
Chelsea dengan Didier Drogba tampaknya akan segera
berakhir
dokumen
Striker pantai gading itu kemungkinan akan mendapa
P
menjadi
denda 100,000 poundstering (rp 1,5 miliar) akiba
mengkritik
klub yang menurutnyakumpulan
tidak mendukung
e
performanya di Stamford Bridge musim ini
m
kalimat
Nilai denda itu setara gaji sepekan yang diterima Drogba
dengan
Diae juga mengaku tidak berminat
untuk kembal
bermain setelah dibekap cedera lutut dan mengkritik
c
inputan
gaya pemilihan pemain yang ditunjukkan Luiz Felipe
a
artikel (tabel
Scolari
Komentarnya
jelas membuat big phil
h
6).dan ceo the blue
Peter Kenyon marah
a aksinya ini klub telah memanggil Drogba yang
Atas
mungkin
memilih mengakhiri 3
kariernya bersama
n
Chelsea yang dimulainya sejak 2004 setelah hengkang
.
dari Marseille
K
2
a
l
C
i
a
m
s
a
e
t
Tahap
F
pemecaha
o
n kalimat
l
adalah
d
mei
mecah
n
string
g
dokumen
Tahap ini,
menjadi
kumpulan
kumpulan
kalimat
kalimat
hasil
dengan
pemecahan
menghilang
diubah
kan
tanda
menjadi
tanda akhir
huruf kecil
kalimat
(lower case),
(delimiter).
menghilangk
Tanda baca
an
angka,
akhir
tanda
baca
kalimat
maupun
seperti tanda
simbo
dan
titik
.,
hanya
tanda tanya
menerima
?,
dan
karakter
tanda seru
UTF8
!. Gambar
dengan kode
3
adalah
0061- 007A).
activity
Alur activity
diagram
diagram case
pemecahan
folding pada
kalimat.
Gambar 4.
Tabel
7
D
o
K
a
s
t
Hapus
Delimiter
(
?
U
b(
h
u
r
uf
k
ec
il)
Kalimat-kalimat
HIlangkan
a
n
g
k
a
d
a
n
t
a
n
d
a
b
a
c
a
(
,
/
:
;
'
"
{
}
[
]
\
|
=
+
_
&
^
%
$
#
@
!
~
)
stop
Ga
mb
ar
3.
Acti
vity
Dia
gra
m
Pemec
ahan
Kalima
t
o
p
140
3
4
5
6
T
a
b
e
l
8
m
e
r
u
p
a
k
a
n
h
a
s
i
l
c
a
s
e
d
19
f
o
l
d
i
Kalimat
tempo interaktif london hubungan mesra antara
chelsea dengan didier drogba tampaknya akan
segera berakhir
striker pantai gading itu kemungkinan akan
mendapat denda poundstering rp miliar akibat
mengkritik klub yang menurutnya tidak
mendukung performanya di stamford bridge
musim ini
nilai denda itu setara gaji sepekan yang diterima
drogba
dia juga mengaku tidak berminat untuk kembali
bermain setelah dibekap cedera lutut dan
mengkritik gaya pemilihan pemain yang
ditunjukkan luiz felipe scolari
komentarnya jelas membuat big phil dan ceo the
blues peter kenyon marah
atas aksinya ini klub telah memanggil drogba
yang mungkin memilih mengakhiri kariernya
bersama chelsea yang dimulainya sejak setelah
hengkang dari marseille
n
g
i
m
a
t
d
a
r
i
d
i
u
b
a
h
d
a
t
a
m
e
n
j
a
d
i
d
i
t
a
b
e
l
h
u
r
u
f
7
.
H
u
r
u
f
k
e
c
i
l
.
a
w
a
l
P
a
d
a
d
a
r
i
k
a
l
i
m
a
t
s
e
t
i
a
p
k
a
l
d
20
p
e
r
t
a
m
a
,
t
a
n
d
a
d
a
n
k
e
d
u
a
b
a
c
a
s
t
r
i
n
g
k
o
m
a
a
n
g
k
a
,
t
a
n
d
a
t
a
n
d
a
k
u
r
u
n
g
b
a
c
a
b
u
k
a
t
i
t
i
k
d
a
n
d
u
a
d
21
t
u
t
u
p
(
)
d
i
h
i
l
a
n
g
k
a
n
.
3
.
3
T
o
k
e
n
i
z
i
n
g
Kumpu
lan
kalimat
hasil
dari
case
folding
kemudian
dilakukan
proses
tokenizin
g
kata
yaitu
menghila
ngkan
karakter
pemisah
(delimiter
)
yang
Kata
Kata
Kata
aksinya
Drogba
marseille
bermain
Felipe
memanggil
berminat
Gading
memilih
big
Gaji
mendukung
blues
t
Gaya
mengakhiri
bridge
r
hengkang
mengkritik
cedera
interaktif
s
mesra
ceo
kariernya
a
miliar
chelsea
s
kenyon
i
denda
Klub
"
dibekap
komentarnya
"
3musim
. nilai
4pantai
didier
London
pemain
dimulainya
diterima
pemilihan
F
Luiz
Lutut Kata
performanya
i
ditunjukkan
Marah
l peter
phil
Scolari
stamford
t
sto
estriker
rp
rtempo
Ga Setara
hubungan
Antara
dengan
i
mba
akan
Segera
n itu
r 5.
kemungkinan
Akibat
gyang
Acti
menurutnya
diPada tahap ini,
vity Tidak
ini
Dia
juga
dilakukan
Dia
setelah
jelas
pembuangan
gra Dan
the
Atas
telah
kata-kata
m
mungkin
bersama
yang
sejak
T
dianggap
o
kurang
k
penting.
e
Stopwor
n
d adalah
i
kata-kata
z
yang
i
kurang
n
deskripti
g
f
yang
dapat
dibuang
dalam
pendekatan
bag-ofwords.
Pembuan
gan stopword
dilakuka
n dengan
mengece
k kamus
stopword
.
Jika
enurutnya, ini, dia, juga, setelah,
dan,
elas, the, atas, telah, mungkin, terdapat
bersama
kata
dan sejak.
poundstering
menyusunnya
berupa
karakter spasi
(UTF8 kode
0020). Alur
activity
diagram
tokenizing
dapat
ditunjukkan
pada Gambar
5.
Berdasarkan
tabel 9, proses
tokenizing
menghasilkan
token
kata
sejumlah 56
kata.
start
Kalim
at
hasil
case
foldin
g
H
a
p
u
s
k
a
r
a
22
sepekan
y
a
n
g
v
i
t
y
s
a
m
a
f
i
l
t
e
r
i
n
g
d
e
n
g
a
n
k
a
m
u
s
m
a
k
a
a
k
a
n
d
i
h
a
p
u
s
.
A
l
u
r
a
c
t
i
ter
leb
ih
da
hul
u
unt
uk
dico
co
kk
an
de
ng
an
ka
mu
s
sto
pw
or
d.
Jik
a
dal
am
pe
nc
oc
ok
an
ter
p
a
d
a
G
a
m
b
a
r
5
.
K
a
t
a
h
a
s
i
l
t
o
k
e
n
d
i
c
e
k
d
23
dapat
kata
yang sama
dalam
kamus
maka
kata
tersebut
dihilangkan.
Berdasar
kan
Tabel 10
kata-kata
yang
termasuk
dalam
stopword
adalah :
antara,
akan,
dengan,
hubunga
n, segera,
itu,
kemungk
inan,
akibat,
yang,
tidak, di,
m
j
Cek
kamus
partikel
t
Cek kamus partikel
berprefiks
t
Hapus partikel
Hapus prefiks
Kata
Kata
Kata
aksinya
drogba
marseille
bermain
felipe
memanggil
berminat
gading
memilih
big
gaji
mendukung
blues
gaya
mengakhiri
bridge
hengkang
mengkritik
cedera
interaktif
mesra
ceo
kariernya
miliar
chelsea
kenyon
musim
denda
klub
nilai
dibekap
komentarnya
pantai
didier
london
pemain
dimulainya
luiz
pemilihan
diterima
Lutut
performanya
ditunjukkan
marah
peter
phil
scolari
stamford
poundstering
sepekan
striker
rp
setara
tempo
t
Hapus milik
Cek
kamus
prefiks1
t
Cek kamus prefiks1
bersufiks
y
t
Hapus prefiks1
Cek
kamus
prefiks2
t
t
Hapus prefiks2
y
Cek
kamus
sufiks
t
Hapus sufiks
3.5 Stemming
Hasil filtering kemudian di-stemming
untuk mendapatkan kata dasar (root).
Proses stemming menggunakan bantuan
kamus-kamus kecil dengan untuk
membedakan
suatu
kata
yang
mengandung imbuhan baik prefiks
maupun sufiks yang salah satu suku
katanya merupakan bagian dari imbuhan,
suku
K
a
t
a
stop
d
a
s
a
r
(
s
t
e
m
)
25
Kata
Kata
aksi
drogba
marseille
main
felipe
panggil
minat
gading
pilih
big
gaji
dukung
blues
gaya
akhir
bridge
hengkang
kritik
cedera
interaktif
mesra
ceo
karier
miliar
chelsea
kenyon
musim
denda
klub
nilai
bekap
komentar
pantai
didier
london
main
mulai
luiz
pilih
terima
lutut
performa
tunjuk
marah
peter
phil
scolari
stamford
poundstering
sepekan
striker
rp
setara
tempo
H
n
t
f
u
i
H
i
u
n
g
d
o
c
u
m
e
n
f
e
k
u
e
n
s
(
f
Hasil proses
text
preprosessing
dilakukan
pembobotan tfidf.
Pembobotan
secara otomatis
biasanya
berdasarkan
jumlah
kemunculan
df=1
Cek df==0
jumlah
kemunculann
ya
dalam
koleksi
dokumen
(inverse
document
frequency).
Bobot
kata
semakin besar
jika
sering
muncul dalam
suatu
dokumen dan
semakin kecil
jika muncul
dalam banyak
dokumen.
Pembobotan
tf-idf
dilakukan
untuk
pembobotan
tahap
selanjutnya,
yaitu untuk
menghitung
bobot query
relevance dan
bobot
similarity
kalimat. Alur
activity pada
bobot tf-idf
untuk
relevance
query adalah
sama seperti
activity pada
bobot tf-idf
untuk
similarity
kalimat. Alur
activity bobot
tf-idf
pada
Gambar 8.
Perhitunga
n bobot query
relevance
merupakan
bobot
hasil
perbandingan
kemiripan
(similaritas)
H
i
t
u
n
g
D
/
d
f
=
J
u
m
l
a
h
K
a
l
i
m
a
t
/
d
f
C
e
k
D
/
d
f
=
=
1
D
/
d
f
=
1
0
H
i
t
u
n
g
i
d
f
=
l
o
g
(
D
/
d
f
)
s
t
o
p
S2
S3
S4
S5
S6
0.202
0.109
0.235
0.205
S2
S3
S4
S5
S6
S1
S2
0.023
0.071
0.044
0.028
0.038
S3
0.023
0.044
0.024
S4
0.028
0.038
S5
S6
0.071
0.038
0.024
0.038
start
bobot(W) tf-idf kata
Hitung Sqrt Si
s
t
a
r
t
Hit
ung
si
mil
arit
y
bobot
(W)
simil
arity
Hitung Sqrt
kata kunci(Q)
Hitung Sqrt Si
Hitung
Sum (
stop
Gambar
10.
Activity
Diagram
Bobot
S
i
m
i
l
a
r
i
t
y
kk dot
Si)
Hitung
Query
Relevan
start
ce Si
e
bob
ot(
W)
Qu
ery
R
el
e
v
a
n
c
29
stop
Dokumen
& Lamda
=
l
a
m
d
a
*
W
H
i
t
u
n
g
M
M
R
Gambar
9.
Activity
Diagra
m Bobot
Q
u
e
r
y
R
e
l
e
v
a
n
c
e
Pembobot
an
MMR
kalimat
menggunakan algoritma
maximum
marginal relevance,
kalimat
dirangking
sebagai
tanggapan
terhadap
query yang
diberikan
b
o
b
o
t
menetapkan
pada nilai yang
lebih
dekat
dengan
.
Kalimat
R
e
l
e
v
a
n
c
e
b
o
b
o
t
i
n
p
u
t
fokus
untuk
memperkuat
dokumendokumen lebih
relevan, maka
harus
M
M
R
1
v
e
c
t
o
r
oleh user.
Perhitunga
n
MMR
dilakukan
dengan
perhitungan
iterasi
antara
kombinasi
dua matrik
cosine
similarity
yaitu query
relevance
dan
similarity
kalimat.
Pengguna
yang
mengingin
kan ruang
sampel
informasi
disekitar
query,
maka
harus
menetapka
H
i
t
u
n
g
m
a
x
W
S
i
m
i
l
a
r
i
t
y
Hitung Argmax
MMR=lamda*WRelev
ance - (1lamda)*maxWsimliarit
y
i
n
p
u
t
M
M
R
ve
ct
or
n
pada
nilai yang
lebih
rendah.
Sedangkan
bagi
pengguna
yang ingin
30
b
o
b
ot
M
M
R
stop
31
0.141
0.076
0.165
S
5
0
0.134
0.063
0.137
0.120
0.065
0.063
0.011
S1
S2
S3
S4
S6
0.144
Kalima
t
MMRMAX(1)
S3
0.165
MMRMAX(2)
S6
0.137
MMRMAX(3)
S1
0.120
MMRMAX(4)
S2
0.063
S1
S2
Kalimat
Nilai denda itu setara gaji sepekan yang
diterima Drogba
Atas aksinya ini klub telah memanggil
Drogba yang mungkin memilih mengakhiri
kariernya bersama Chelsea yang dimulainya
sejak 2004 setelah hengkang dari Marseille
Tempointeraktif, London: hubungan mesra
antara Chelsea dengan Didier Drogba
tampaknya akan segera berakhir
Striker pantai gading itu kemungkinan akan
mendapat denda 100,000 poundstering (rp
1,5 miliar) akibat mengkritik klub yang
menurutnya tidak mendukung performanya
di Stamford Bridge musim ini
Jumlah
Kalimat
Ringkasan
(No. Kalimat)
1,5,6,7
1,4,6,11
1,2,3,4,7,8,9,13
1,2,3,4,8,10,11
1,7,10
1,4,7,12,13
1,3,6
1,10
T
a
h
a
p
t
e
r
a
k
h
i
r
a
d
a
l
a
h
e
k
s
1,2,4,10
10
1,2,3,6,9
11
1,2,5,8
12
1,2,3,4,5,9
13
1,2,3,4,5,10,11
14
1,2,3,5,6,7,8,9
15
1,3
16
1,3,4,6,7,8,12
17
1,2,3,5
18
1,3,4,5,8,10,17
19
1,2,5,6
20
1,6,7,9,12,14
21
1,3,4,5,9,10,11,12,13
22
1,2,3,6
23
1,3,4,9
24
1,2,3,5,10,12,13,16
25
1,7,11
26
2,3,5,6,7
27
1,2,3,4,6,7,9,10
28
1,2,7,8
29
2,7,8,9,13,15
30
1,2,5
t
r
a
k
s
i
r
i
n
g
k
a
s
a
n
d
a
r
i
h
a
s
i
l
b
o
b
o
t
M
M
R
k
a
l
i
m
a
t
.
D
a
r
i
h
a
s
i
l
p
e
r
h
i
t
u
n
g
a
n
m
m
r
d
i
k
e
t
a
h
u
i
k
a
l
i
m
a
t
y
a
n
g
m
e
n
j
a
d
i
r
i
n
g
k
a
s
a
n
b
e
r
d
a
s
a
r
k
a
n
u
r
u
t
a
n
b
o
b
o
t
M
M
R
k
a
l
i
m
a
t
t
e
r
t
i
n
g
g
i
4
.
H
A
S
I
L
U
J
I
C
O
B
A
Data yang digunakan sebagai uji cob
a
s
e
j
u
m
l
a
h
3
0
b
e
r
i
t
a
.
D
a
t
a
u
j
i
c
o
b
a
d
i
a
m
b
i
l
s
e
c
a
r
a
n
t
e
r
a
k
t
i
f
y
a
n
g
a
c
a
k
d
i
u
n
d
u
h
d
a
r
i
d
a
r
i
k
o
r
a
n
b
u
l
a
n
b
e
r
i
t
a
J
a
n
u
a
r
i
o
n
l
i
n
e
2
0
0
9
T
e
m
p
o
s
a
m
p
a
i
u
n
i
2
0
0
9
.
U
j
i
c
o
b
a
d
i
l
a
k
u
k
a
n
d
e
n
g
a
n
m
e
n
g
u
j
i
e
r
i
t
a
.
P
e
n
g
u
j
i
a
n
d
i
l
a
k
u
k
a
n
d
e
n
g
a
n
m
e
m
a
s
u
k
k
a
n
t
i
a
p
i
s
i
t
e
k
s
d
a
r
i
e
k
s
t
a
.
b
e
r
i
t
a
K
a
l
i
m
a
t
k
a
l
i
m
a
t
d
a
n
q
u
e
r
y
.
Q
u
e
r
y
m
e
r
u
p
a
k
a
n
j
u
d
u
l
d
a
r
i
b
e
r
i
-
y
a
n
g
t
e
r
a
m
b
i
l
s
e
b
a
g
a
i
r
i
n
g
k
a
s
a
n
m
e
r
u
p
a
k
a
n
k
a
l
i
m
a
t
y
a
n
g
m
e
r
e
p
r
e
s
e
n
t
a
s
i
k
a
n
q
u
e
r
y
,
k
a
r
e
n
a
m
e
m
i
l
i
k
i
k
e
s
a
m
a
a
n
k
a
t
a
k
a
t
a
p
a
d
a
k
a
l
i
m
a
t
q
u
e
r
y
,
d
a
n
Overlap
Kalimat
Recall
Precision
Fmeasure
80%
100%
89%
43%
75%
55%
88%
88%
88%
86%
86%
86%
30%
100%
46%
38%
60%
46%
50%
67%
57%
10%
50%
17%
33%
75%
46%
10
63%
100%
77%
11
80%
100%
89%
12
80%
67%
73%
13
100%
100%
100%
14
86%
75%
80%
15
17%
50%
25%
16
71%
71%
71%
17
75%
75%
75%
18
50%
71%
59%
19
60%
75%
67%
20
63%
83%
71%
21
75%
67%
71%
22
75%
75%
75%
23
60%
75%
67%
24
60%
75%
67%
25
43%
100%
60%
26
67%
80%
73%
27
71%
63%
67%
28
60%
75%
67%
29
40%
67%
50%
30
50%
67%
57%
DAFTAR PUSTAKA
Das and Martins. 2007. A Survey on
Automatic
Text
Summarization.
Language
Technologies
Institute
Carnegie Mellon University
Erwin A.H., Muhammad. 2005. Sistem
Pengidentifikasi Otomatis Pokok Kalimat
Suatu Paragraf Dalam Dokumen
Ekspositori Dengan Model Ruang Vektor.
Laboratorium
Pemrograman
dan
Informatika Teori. Yogyakarta: Jurusan
Teknik Informatika Fakultas Teknologi
Industri Universitas Islam Indonesia.
Firmin, T and M.J Chrzanowski. 1999.
An Evaluation of Automatic Text
Summarization System. The MIT Press:
Cambrige
Golstein, Jade and Carbonell, Jaime.
1998. Summarization: Using MMR for
Diversity
Based-Reranking
and
Evaluating
Summaries.
Langauge
Technologies Istitute. Carnegie Mellon
University.
Golstein, Jade. 2008. Genre Oriented
Summarization.
Thesis.
Pittsburgh:
Language Technologies Institute School
of
Computing
Carnegie
Mellon
University.
Garcia, E. 2006. The Classic Vector
Space
Model.
http://www.miislita.com/informationretrieval-tutorial/. Diakses tanggal 25
Maret 2011.
Grossman, D., dan Ophir, F. 1998.
Information Retrieval: Algorithm and
Heuristics. Kluwer Academic Publisher.
Hovy, E. and Lin, C. Y. (1999).
Automated text summarization in
summarist. In Mani, I. and Maybury, M.
T., editors, Advances in Automatic Text
Summarization, pages 81-94. MIT Press
Husni, Muchammad dan Zaman, Badrus.
2005. Perangkat lunak Peringkas
Dokumen Berbahasa Indonesia dengan
Hybrid Stemming. Surabaya: Teknik
Informatika
Fakultas
Teknologi
Bahasa
Tinggi.