Luar biasa, sebagaimana kita ketahui sekarang bahwa
teknologi penerjemahan memang sangat membantu, terutama dari lahirnya
translate.google.com atau Bing translator yang saya kira pasti sangat
disukai oleh banyak pengguna internet, di mana dengan copy paste teks
atau mengetikkan teks yang ingin diterjemahkan kita bisa mendapatkan
hasil penerjemahan dalam hitungan detik saja. Tapi sayangnya teknologi
penerjemahan teks, seringkali tidak mencukupi dan tidak bisa mengatasi
kebutuhan “penerjemah” manusia apabila seseorang ingin berbicara pada
audiens dalam bahasa yang berbeda secara instan.
Tapi akhirnya masalah kebutuhan penerjemah manusia pun bakal hilang
nantinya dengan adanya demo hasil riset dari Microsoft Research yang
mendemokan penerjemahan secara realtime/instan di mana secara instan
pidato bahasa Inggris yang disampaikan diterjemahkan dalam bahasa
Mandarin melalui mesin/sistem penerjemah Microsoft dan pidato yang
didengar audien pun tidak menggunakan suara orang lain atau seperti
suara mesin yang kaku atau aneh, tapi sistem ini menghasilkan
pidato/perkataan seperti suara asli pembicaranya, maka pendengar pun
seakan-akan mendengar langsung dari pembicara aslinya.
Demo ini memang menunjukkan kecanggihan teknologi dan kecepatan
perkembangan teknologi di masa kita sangatlah cepat dan luar biasa.
Rick Rashid, sang kepala Microsoft Research menggunakan teknologi ini
pada saat beliau berbicara pada acara Asia’s 21st Century Computing di
Tianjin, China belum lama ini.
Teknologi penerjemahan pidato/pembicaraan secara realtime memang
susah, dan selama ini tidak menghasilkan hasil yang benar-benar
memuaskan. Teknologi atau cara yang digunakan pada awalnya menggunakan
pengenalan pola gelombang suara untuk tiap kata namun cara ini tidak
memuaskan karena tidak stabil, karena perbedaan suara manusia yang
sangat bervariasi.
Lalu pada tahun 1970-an sekelompok peneliti di Carnegie Mellon
University membuat terobosan signifikan dalam pengenalan suara dengan
menggunakan teknik yang disebut model hidden Markov yang memungkinkan
mereka untuk menggunakan data pelatihan dari banyak orang/speaker untuk
membangun model statistik speech/pidato yang jauh lebih kuat. Akibatnya,
selama 30 tahun terakhir sistem pengenalan suara mendapatkan hasil
lebih baik. Dan kemudian dalam 10 tahun terakhir kombinasi metode yang
lebih baik, komputer yang lebih cepat dan kemampuan komputasi untuk
memproses data lebih cepat secara dramatis lebih telah memungkinkan
penggunaan teknologi ini secara praktis.
Memang teknologi pengenalan suara/speech saat ini bukan sesuatu yang
wah, namun sebenarnya tingkat error atau kesalahan dari sistem
pengenalan suara terbaik saat ini pun masih menghasilkan persentase
20-25% error.
Menurut Rick Rashid, sejak tahun 2010/dua tahun yang lalu, para
peneliti di Microsoft Research dan University of Toronto telah membuat
terobosan baru dengan menggunakan teknik yang disebut Deep Neural
Networks yang mampu bekerja seperti perilaku otak manusia, sehingga
peneliti mampu melatih sistem recognizer suara lebih diskriminatif dan
lebih baik dari metode sebelumnya. Hasilnya error atau kesalahan
penerjemahan bisa turun sampai 15% saja.
Akhirnya hasil para peneliti ini didemokan oleh Rick Rashid di
hadapan kurang lebih 2000 siswa di China yang merespon dengan sorak
sorai walau sebenarnya masih ada kesalahan penerjemahan dan kadang kala
ada yang lucu juga.