SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN

Abstrak: Coverage dan saliency merupakan masalah utama dalam peringkasan multi dokumen. Hasil ringkasan yang baik harus mampu mampu mencakup (coverage) sebanyak mungkin konsep penting (salient) yang ada pada dokumen sumber. Penelitian ini bertujuan untuk mengembangkan metode baru peringkasan multi dokumen dengan teknik semantic  clustering  dan  pemilihan  kalimat  representatif  cluster.  Metode  yang  diusulkan  berdasarkan  prinsip kerja  Latent  Semantic  Indexing  (LSI)  dan  Similarity  Based  Histogram  Clustering  (SHC)  untuk  pembentukan cluster kalimat secara semantik, serta mengkombinasikan fitur Sentence Information Density (SID) dan Sentence Cluster  Keyword  (SCK)  untuk  pemilihan  kalimat  representatif  cluster.  Pengujian  dilakukan  pada  dataset Document  Understanding  Conference  (DUC)  2004  Task  2  dan  hasilnya  diukur  menggunakan  Recall-Oriented Understudy  for  Gisting  Evaluation  (ROUGE).  Hasil  pengujian  menunjukkan  bahwa  metode  yang  diusulkan mampu mencapai nilai ROUGE-1 rata-rata sebesar 0,395 dan nilai ROUGE-2 rata-rata sebesar 0,106.
Kata  kunci:  peringkasan  multi  dokumen,  latent  semantic  indexing,  similarity  based  histogram  clustering, sentence information density, sentence cluster keyword
Penulis: Pasnur, Putu Praba Santika,Gus Nanang Syaifuddin
Kode Jurnal: jptinformatikadd140142

Artikel Terkait :