TEMU KEMBALI INFORMASI BERBASIS KLUSTER UNTUK SISTEM TEMU KEMBALI INFORMASI TEKS BAHASA INDONESIA

ABSTRACT: Volume informasi teks yang berkembang eksponensial  menyebabkan kesulitan dalam proses temu kembali informasi, utamanya pada model perolehan informasi linear berbasis word matching yang umumnya tidak efektif. Faktor sinonim dari kata menjadi penyebab  munculnya dokumen tidak  relevan dalam perolehan, sebaliknya faktor  polisemy menyebabkan banyak dokumen yang relevan tidak terpanggil.  Penerapan  clustering  dokumen dipercaya dapat meningkatkan kinerja  berdasar satu  hypothesis bahwa dokumen yang relevan terhadap suatu query cenderung berada dalam kluster yang sama.  Penelitian ini melakukan kajian penerapan clustering  dokumen untuk meningkatkan perolehan informasi dengan cara melakukan  retrieval berbasis kluster (cluster-based retrieval) dengan model ruang vektor.  Koleksi dokumen mula-mula dikluster dan representasi kluster  digunakan vektor pusat kluster. Dokumen-dokuman dalam kluster yang pusat klusternya memiliki similaritas tertinggi terhadap query dipilih sebagai perolehan.   Metode clustering yang dipilih adalah metode partitional, yaitu algoritma Bisecting K-Mean dan Buckshot, dan metode  hierarchical  agglomerative dengan algoritma perhitungan similaritas kluster UPGMA dan  Complete Link.  Kriteria kinerja perolehan informasi diukur dengan parameter F-measure yang diturunkan dari   Precision dan   Recall dari  retrieval. Koleksi dokumen yang digunakan adalah 1000  dokumen berita yang telah diketahui struktur klusternya dan 3000 dokumen berita dengan struktur kluster belum diketahui. 
Hasil penelitian menunjukkan bahwa pada koleksi yang dicobakan terjadi peningkatan kinerja perolehan informasi berbasis kluster sebesar berturut-turut 12.3% dan 9.5% dibandingkan dengan perolehan linear berbasis word –matching.   
Kata Kunci: Perolehan informasi, clustering, cluster-based retrieval

Penulis: Amir Hamzah 
Kode Jurnal: jptinformatikadd090001

Artikel Terkait :