STUDI FORMAT AUDIO DAN TEKS UNTUK MODUL SPEECH TO TEXT
ABSTRACT: Automatic Speech
Recognition (ASR) atau speech to text adalah bidang teknologi identifikasi
ucapan manusia dalam bentuk teks transkripsi. Penelitian ini merupakan studi
pada format masukan dan luaran speech to text, yaitu audio (ucapan) dan teks.
Studi berfokus pada karakteristik dan format sinyal audio, pemrosesan sinyal
audio secara digital dan relasinya dengan modul speech to text, pengetahuan
linguistik, karakteristik dan format teks, serta isu pengembangan modul speech
to text. Sinyal audio untuk ucapan memiliki beberapa karakteristik unik yang
membedakannya dengan sinyal audio lain. Karakter-karakter ini merupakan fitur
yang digunakan untuk identifikasi ucapan dalam sinyal audio masukan. Dalam
modul speech to text sinyal digital mengalami beberapa proses sebelum
identifikasi ucapan dilakukan. Proses sinyal digital ini dilakukan untuk
memperoleh sinyal ucapan dengan tingkat kebisingan terendah dan hasil akurasi
tinggi. Beberapa proses tersebut antara lain: sampling, kuantisasi, Fourier
transform, sistem waktu diskrit, dan digital filter. Modul perlu memiliki
pengetahuan linguistik untuk dapat mengetahui tata bahasa ucapan. Hasil
identifikasi disimpan dalam bentuk teks transkripsi sesuai dengan karakter
huruf bahasa tersebut. Melalui studi ini, diperoleh beberapa isu yang dapat
dijadikan pertimbangan untuk penelitian selanjutnya terkait rancang-bangun
modul speech to text, antara lain: pengaruh sumber dan format sinyal audio pada
akurasi modul, kompleksitas tata bahasa dan pengucapan dan hubungannya dengan
proses sinyal digital, pengaturan format karakter teks untuk luaran modul dan
potensi pengembangan penelitian pada bidang lain.
Penulis: Elizabeth Irenne
Yuwono, Tony Antonio
Kode Jurnal: jptinformatikadd150515