SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN
Abstrak: Coverage dan saliency
merupakan masalah utama dalam peringkasan multi dokumen. Hasil ringkasan yang
baik harus mampu mampu mencakup (coverage) sebanyak mungkin konsep penting
(salient) yang ada pada dokumen sumber. Penelitian ini bertujuan untuk
mengembangkan metode baru peringkasan multi dokumen dengan teknik semantic clustering
dan pemilihan kalimat
representatif cluster. Metode
yang diusulkan berdasarkan
prinsip kerja Latent Semantic
Indexing (LSI) dan
Similarity Based Histogram
Clustering (SHC) untuk
pembentukan cluster kalimat secara semantik, serta mengkombinasikan
fitur Sentence Information Density (SID) dan Sentence Cluster Keyword
(SCK) untuk pemilihan
kalimat representatif cluster.
Pengujian dilakukan pada
dataset Document
Understanding Conference (DUC)
2004 Task 2
dan hasilnya diukur
menggunakan Recall-Oriented Understudy for
Gisting Evaluation (ROUGE).
Hasil pengujian menunjukkan
bahwa metode yang
diusulkan mampu mencapai nilai ROUGE-1 rata-rata sebesar 0,395 dan nilai
ROUGE-2 rata-rata sebesar 0,106.
Kata kunci:
peringkasan multi dokumen,
latent semantic indexing,
similarity based histogram
clustering, sentence information density, sentence cluster keyword
Penulis: Pasnur, Putu Praba
Santika,Gus Nanang Syaifuddin
Kode Jurnal: jptinformatikadd140142