COMPARATIVE STUDY OF CLASSIFICATION ALGORITHMS: HOLDOUTS AS ACCURACY ESTIMATION
Abstrak: Penelitian ini
bertujuan untuk mengukur
dan membandingkan kinerja
lima algoritma klasifikasi teks
berbasis pembelajaran mesin,
yaitu decision rules,
decision tree, k-nearest neighbor (k-NN), naïve Bayes, dan
Support Vector Machine (SVM), menggunakan dokumen teks multi-class. Perbandingan
dilakukan pada efektifiatas
algoritma, yaitu kemampuan
untuk mengklasifikasi dokumen pada
kategori yang tepat,
menggunakan metode holdout
atau percentage split. Ukuran
efektifitas yang digunakan
adalah precision, recall,
F-measure, dan akurasi. Hasil
eksperimen menunjukkan bahwa
untuk algoritma naïve
Bayes, semakin besar persentase dokumen
pelatihan semakin tinggi
akurasi model yang
dihasilkan. Akurasi tertinggi naïve Bayes
pada persentase 90/10,
SVM pada 80/20,
dan decision tree
pada 70/30. Hasil eksperimen juga
menunjukkan, algoritma naïve
Bayes memiliki nilai
efektifitas tertinggi di antara lima algoritma yang diuji, dan
waktu membangun model klasiifikasi yang tercepat, yaitu 0.02 detik.
Algoritma decision tree
dapat mengklasifikasi dokumen
teks dengan nilai
akurasi yang lebih tinggi dibanding SVM, namun waktu membangun modelnya
lebih lambat. Dalam hal waktu membangun model, k-NN adalah yang tercepat namun
nilai akurasinya kurang.
Author: Debby E. Sondakh
Journal Code: jptkomputergg150001