METODE WEIGHTED MAXIMUM CAPTURING UNTUK KLASTERISASI DOKUMEN BERBASIS FREQUENT ITEMSETS
ABSTRAK: Klasterisasi dokumen
berbasis frequent itemsets
merupakan salah satu
metode klasterisasi dokumen baru
yang dapat digunakan
untuk mengatasi masalah
tingginya ruang dimensi
dari dokumen yang
akan diklasterisasi. Teknik maximum
capturing merupakan salah
satu algoritma klasterisasi
dokumen berbasis frequent
itemsets yang mampu menghasilkan kualitas klasterisasi yang lebih baik
dibandingkan dengan yang dihasilkan
oleh algoritma sejenis
lainnya. Teknik maximum
capturing ini masih
memiliki kekurangan atau kelemahan, yaitu:
tidak diperhitungkannya bobot
suatu kata (item)
dalam frequent itemsets
saat perhitungan kemiripan dokumen
dan dalam proses
pembentukan klaster tidak
memperhitungkan informasi global
dari klaster yang telah
terbentuk sebelumnya. Dalam
penelitian ini dikembangkan
suatu metode baru
untuk klasterisasi dokumen dengan
berbasis frequent itemsets
yaitu metode weighted
maximum capturing (WMC), untuk memperbaiki kekurangan teknik
maximum capturing sehingga kualitas akurasi hasil klasterisasi dokumen dapat ditingkatkan.
Pada metode weighted
maximum capturing ini
kemiripan dokumen dihitung
dengan menggabungkan metode cosine
similarity dan jaccard
coefficient berdasarkan jumlah
frequent itemsets yang sama
yang dimiliki sehingga
bobot dari item
dalam itemsets dapat
diperhitungkan, sedangkan pada
proses pembentukan klaster diadaptasi algoritma single linkage
agglomerative hierarchical clustering.
Hasil uji coba dengan data uji
Reuters 21578 menunjukkan
nilai F-measure dan
purity dari metode
WMC lebih baik dibandingkan dengan metode awal,
yaitu sebesar 0,723 untuk nilai
F-measure dengan rasio perbaikan 2,8% dan 0,73 untuk nilai purity dengan rasio
perbaikan 3,3%.
Kata kunci: Klasterisasi dokumen, frequent
itemsets, weighted maximum capturing, cosine similarity, accard coefficient
Penulis: Gede Aditra Pradnyana,
Arif Djunaidy
Kode Jurnal: jptkomputerdd130120