Pengklasifikasian Dokumen Berbahasa Indonesia Dengan Pengindeksan Berbasis LSI
Abstrak: Klasifikasi dokumen
teks bertujuan untuk menentukan kategori suatu dokumen berdasarkan kesamaannya
dengan kumpulan dokumen yang telah berlabel sebelumnya. Namun demikian
kebanyakan metode klasifikasi yang ada saat ini dilakukan berdasarkan kata-kata
kunci atau kata-kata yang dianggap penting dengan mengasumsikan masing-masing
merepresentasikan konsep yang unik. Padahal pada kenyataanya beberapa kata yang
mempunyai makna atau semantik sama seharusnya diwakili satu kata unik. Pada
penelitian ini pendekatan berbasis LSI (Latent Semantic Indexing) digunakan
pada KNN untuk mengklasifikasi dokumen berbahasa Indonesia. Pembobotan term
dari dokumen-dokumen latih maupun uji menggunakan tf-idf, yang direpresentasikan masing-masing dalam
matrik term-dokumen A dan B. Selanjutnya matrik A didekomposisi menggunakan SVD
untuk mendapatkan matrik U dan V yang tereduksi dengan k-rank. Kedua matrik U
dan V digunakan untuk mereduksi B sebagai representasi dokumen uji. Evaluasi kinerja sistem terbaik berdasarkan
hasil diperoleh pada klasifikasi KNN
berbasis LSI tanpa stemming dengan threshould 2. Akan tetapi evaluasi kinerja
terbaik berdasarkan waktu dicapai ketika KNN LSI dengan stemming pada
threshould 5. Kinerja KNN berbasis LSI secara signifikan jauh lebih baik
dibandingkan dengan KNN biasa baik dari sisi hasil maupun waktu.
Penulis: Achmad Ridok, Indriati
Kode Jurnal: jptinformatikadd150562