TEMU KEMBALI INFORMASI BERBASIS KLUSTER UNTUK SISTEM TEMU KEMBALI INFORMASI TEKS BAHASA INDONESIA
ABSTRACT: Volume informasi
teks yang berkembang eksponensial
menyebabkan kesulitan dalam proses temu kembali informasi, utamanya pada
model perolehan informasi linear berbasis word matching yang umumnya tidak efektif.
Faktor sinonim dari kata menjadi penyebab
munculnya dokumen tidak relevan
dalam perolehan, sebaliknya faktor
polisemy menyebabkan banyak dokumen yang relevan tidak terpanggil. Penerapan
clustering dokumen dipercaya
dapat meningkatkan kinerja berdasar
satu hypothesis bahwa dokumen yang
relevan terhadap suatu query cenderung berada dalam kluster yang sama. Penelitian ini melakukan kajian penerapan
clustering dokumen untuk meningkatkan
perolehan informasi dengan cara melakukan
retrieval berbasis kluster (cluster-based retrieval) dengan model ruang
vektor. Koleksi dokumen mula-mula dikluster
dan representasi kluster digunakan
vektor pusat kluster. Dokumen-dokuman dalam kluster yang pusat klusternya
memiliki similaritas tertinggi terhadap query dipilih sebagai perolehan. Metode
clustering yang dipilih adalah metode partitional, yaitu algoritma Bisecting
K-Mean dan Buckshot, dan metode
hierarchical agglomerative dengan
algoritma perhitungan similaritas kluster UPGMA dan Complete Link. Kriteria kinerja perolehan informasi diukur
dengan parameter F-measure yang diturunkan dari Precision dan Recall dari
retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen berita yang telah diketahui struktur
klusternya dan 3000 dokumen berita dengan struktur kluster belum
diketahui.
Hasil penelitian menunjukkan bahwa pada koleksi yang dicobakan terjadi
peningkatan kinerja perolehan informasi berbasis kluster sebesar berturut-turut
12.3% dan 9.5% dibandingkan dengan perolehan linear berbasis word
–matching.
Kata Kunci: Perolehan
informasi, clustering, cluster-based retrieval
Penulis: Amir Hamzah
Kode Jurnal: jptinformatikadd090001