Rancang Bangun Aplikasi Web Scraping Untuk Korpus Paralel Indonesia - Inggris Dengan Metode HTML DOM
Abstract: Korpus paralel
merupakan dua dokumen text yangsaling berhubungan dimana dokumen text pertama
berisikumpulan kalimat sumber dan dokumen kedua berisi kumpulankalimat
terjemahan. Korpus paralel berfungsi sebagai sumberutama dalam mengembangkan
mesin penerjemah statistik.Pengumpulan korpus paralel secara manual memerlukan
waktuyang lama dan biaya yang tidak sedikit. Web scraping adalahsuatu teknik
penggalian informasi dari situs web. Pembuatanaplikasi web scraping dapat
dikombinasikan dengan berbagaimetode, dalam penelitian ini metode yang
digunakan adalahHTML DOM. Sistem ini dibangun untuk mengumpulkan korpusparalel
Bahasa Indonesia dan Inggris. Pengujian dari aplikasi iniadalah menggunakan
metode blackbox, serta beberaparangkaian pengujian secara manual untuk
mengetahui tingkatkeberhasilan aplikasi ini dalam mengumpulkan data
korpusparalel dan kecepatan sistem dalam mengumpulkan korpusparalel. Hasil
implementasi dan pengujian akhir dari aplikasiweb scraping dengan metode HTML
DOM adalah proses yangberjalan dalam aplikasi web scraping dengan metode
HTMLDOM adalah proses scraping, tokenisasi, cleaning, danlowercased, semua
proses tersebut berjalan secara otomatissehingga sangat menghemat waktu dan
biaya dan menghasilkankorpus paralel Bahasa Indonesia dan Inggris.
Penulis: Vivensius Mitra
Kode Jurnal: jptinformatikadd170060