Sistem Pengidentifikasi Otomatis Pokok Kalimat Suatu Paragraf dalam Dokumen Ekspositori dengan Model Ruang Vektor

Abstract: Suatu dokumen biasanya terdiri dari bermacam-macam topik, berbeda dengan abstraksi yang ringkas dan padat informasi. Identifikasi dan isolasi pokok kalimat dengan membagi-bagi dokumen, yang disebut segmentasi teks, merupakan hal yang penting dalam pemrosesan bahasa alami, termasuk mesin penterjemah dan information retrievel. Dalam information retrievel, pengguna sering kali hanya tertarik pada bagian tertentu dari dokumen yang diambil, bukan pada keseluruhan dokumen itu. Untuk memenuhi kebutuhan tersebut dokumen harus disegmentasi ke dalam bagian-bagian yang koheren atau berkaitan. Segmentasi dokumen ke dalam blok-blok teks dengan pokok kalimat yang sama dapat membantu search engine untuk memilih dan mengambil suatu segmen yang seusai dengan query yang diajukan pengguna. Segmentasi yang secara nyata dapat dilihat adalah adanya pembagian dokumen dalam paragraf-paragraf. Penelitian yang dilakukan bertujuan memberikan kemudahan bagi pengguna dokumen ekspositori untuk memahami dokumen yang akan digunakan. Hasil yang diperoleh setelah dilakukan pengujian terdahap sistem adalah sebesar 50% dinilai dari kesesuaian penentuan pokok kalimat yang ditentukan secara manual dan oleh sistem.
Kata Kunci: information retrievel, segmentasi teks, vector space model, tokenisasi
Penulis: Muhammad Erwin Ashari Haryono
Kode Jurnal: jptinformatikadd050005

Artikel Terkait :