COMPARATIVE STUDY OF CLASSIFICATION ALGORITHMS: HOLDOUTS AS ACCURACY ESTIMATION

Abstrak: Penelitian  ini  bertujuan  untuk  mengukur  dan  membandingkan  kinerja  lima  algoritma klasifikasi  teks  berbasis  pembelajaran  mesin,  yaitu  decision  rules,  decision  tree,  k-nearest neighbor (k-NN), naïve Bayes, dan Support Vector Machine (SVM), menggunakan dokumen teks multi-class.  Perbandingan  dilakukan  pada  efektifiatas  algoritma,  yaitu  kemampuan  untuk mengklasifikasi  dokumen  pada  kategori  yang  tepat,  menggunakan  metode  holdout  atau percentage  split.  Ukuran  efektifitas  yang  digunakan  adalah  precision,  recall,  F-measure,  dan akurasi.  Hasil  eksperimen  menunjukkan  bahwa  untuk  algoritma  naïve  Bayes,  semakin  besar persentase  dokumen  pelatihan  semakin  tinggi  akurasi  model  yang  dihasilkan.  Akurasi  tertinggi naïve  Bayes  pada  persentase  90/10,  SVM  pada  80/20,  dan  decision  tree  pada  70/30.  Hasil eksperimen  juga  menunjukkan,  algoritma  naïve  Bayes  memiliki  nilai  efektifitas  tertinggi  di antara lima algoritma yang diuji, dan waktu membangun model klasiifikasi yang tercepat, yaitu 0.02  detik.  Algoritma  decision  tree  dapat  mengklasifikasi  dokumen  teks  dengan  nilai  akurasi yang lebih tinggi dibanding SVM, namun waktu membangun modelnya lebih lambat. Dalam hal waktu membangun model, k-NN adalah yang tercepat namun nilai akurasinya kurang. 
Kata kunci: klasifikasi teks, dokumen multi-class, mesin learning
Author: Debby E. Sondakh
Journal Code: jptkomputergg150001

Artikel Terkait :