Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
Abstract: Algoritma
similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti
deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin
penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah
menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma similaritas
semantik belum cukup berhasil terhadap teks bahasa Indonesia karena minimnya
koleksi basis pengetahuanbahasa Indonesia, misalnya terkait keberadaan tesaurus
atau word net. Penelitian ini berfokus pada upaya menghimpun hiponim dan
meronim pada bahasa Indonesia, membangun korpus pasangan kalimat yang direview
oleh penutur bahasa untuk menilai tingkat similaritas, dan mencermati
efektivitas algoritma similaritas semantik dalam mengukur kemiripan kalimat
bahasa Indonesia yang ada dalam korpus. Kemiripan kata diperoleh dari
keterkaitan kata dalam bentuk sinonim, hiponim dan meronim sebagai basis
pengetahuan. Penelitian ini menunjukkan bahwa penggunaan basis pengetahuan
tersebut meningkatkan skor similaritas kalimat yang mengandung kata-kata yang
berkaitan secara leksikal. Pada penelitian ini dihitung korelasi antara skor
similaritas hasil perhitungan algoritma dengan skor kemiripan kalimat
sebagaimana dipersepsikan oleh penutur bahasa. Tiga macam algoritma perhitungan
telah diujicoba. Perhitungan similaritas menggunakan persentase jumlah
kemunculan kata yang sama memberikan angka korelasi sebesar 0,7128. Angka
korelasi untuk perhitungan similaritas menggunakan fungsi kosinus adalah
sebesar 0,7408. Sedangkan perhitungan similaritas menggunakan algoritma
semantik yang memperhatikan keterkaitan kata memberikan tingkat korelasi
tertinggi sebesar 0,7508.
Penulis: Husni Thamrin
Kode Jurnal: jptinformatikadd150865