METODE WEIGHTED MAXIMUM CAPTURING UNTUK KLASTERISASI DOKUMEN BERBASIS FREQUENT ITEMSETS

ABSTRAK: Klasterisasi  dokumen  berbasis  frequent  itemsets  merupakan  salah  satu  metode  klasterisasi  dokumen baru  yang  dapat  digunakan  untuk  mengatasi  masalah  tingginya  ruang  dimensi  dari  dokumen  yang  akan diklasterisasi.  Teknik  maximum  capturing  merupakan  salah  satu  algoritma  klasterisasi  dokumen  berbasis frequent itemsets yang mampu menghasilkan kualitas klasterisasi yang lebih baik dibandingkan dengan yang dihasilkan  oleh  algoritma  sejenis  lainnya.  Teknik  maximum  capturing  ini  masih  memiliki  kekurangan  atau kelemahan,  yaitu:  tidak  diperhitungkannya  bobot  suatu  kata  (item)  dalam  frequent  itemsets  saat  perhitungan kemiripan  dokumen  dan  dalam  proses  pembentukan  klaster  tidak  memperhitungkan  informasi  global  dari klaster  yang  telah  terbentuk  sebelumnya.  Dalam  penelitian  ini  dikembangkan  suatu  metode  baru  untuk klasterisasi  dokumen  dengan  berbasis  frequent  itemsets  yaitu  metode  weighted  maximum  capturing  (WMC), untuk memperbaiki kekurangan teknik maximum capturing sehingga kualitas akurasi hasil klasterisasi dokumen dapat  ditingkatkan.  Pada  metode  weighted  maximum  capturing  ini  kemiripan  dokumen  dihitung  dengan menggabungkan  metode  cosine  similarity  dan  jaccard  coefficient  berdasarkan  jumlah  frequent  itemsets  yang sama  yang  dimiliki  sehingga  bobot  dari  item  dalam  itemsets  dapat  diperhitungkan,  sedangkan  pada  proses pembentukan klaster diadaptasi algoritma single linkage agglomerative hierarchical clustering.  Hasil uji coba dengan  data  uji  Reuters  21578  menunjukkan  nilai  F-measure  dan  purity  dari  metode  WMC  lebih  baik dibandingkan dengan metode awal, yaitu  sebesar 0,723  untuk nilai  F-measure  dengan rasio perbaikan  2,8% dan 0,73 untuk nilai purity dengan rasio perbaikan 3,3%.
Kata kunci:  Klasterisasi dokumen,  frequent  itemsets,  weighted  maximum capturing,  cosine similarity, accard coefficient
Penulis: Gede Aditra Pradnyana, Arif Djunaidy
Kode Jurnal: jptkomputerdd130120

Artikel Terkait :