Ringkasan
Pengenalan Ucapan Otomatis (ASR), yang juga dikenal sebagai transkripsi mesin atau Speech-to-Text (STT), menggunakan machine learning untuk mengubah audio yang berisi ucapan menjadi teks. ASR memiliki banyak aplikasi mulai dari subtitling, asisten virtual, Respons Suara Interaktif (IVR), dikte, dan banyak lagi. Namun, sistem machine learning jarang sekali 100% akurat, begitu pula ASR. Jika Anda berencana mengandalkan ASR untuk sistem penting, sangat penting untuk mengukur akurasi atau kualitasnya secara keseluruhan untuk memahami performa ASR dalam sistem yang lebih luas yang mengintegrasikannya.
Setelah mengukur akurasi, Anda dapat menyesuaikan sistem agar memberikan akurasi yang lebih baik untuk situasi tertentu. Di Cloud Speech-to-Text API Google, penyesuaian akurasi dapat dilakukan dengan memilih model pengenalan yang paling sesuai dan dengan menggunakan API Adaptasi Ucapan kami. Kami menawarkan berbagai model yang disesuaikan untuk berbagai kasus penggunaan, seperti audio berdurasi panjang, percakapan medis, atau melalui telepon.
Mendefinisikan akurasi ucapan
Akurasi ucapan dapat diukur dalam berbagai cara. Sebaiknya gunakan beberapa metrik, bergantung pada kebutuhan Anda. Namun, metode standar industri untuk perbandingan adalah Word Error Rate (WER), sering disingkat sebagai WER. WER mengukur persentase transkripsi kata yang salah di seluruh kumpulan. WER yang lebih rendah berarti sistem lebih akurat.
Anda mungkin juga melihat istilah, kebenaran dasar, yang digunakan dalam konteks akurasi ASR. Kebenaran dasar adalah transkripsi yang 100% akurat, biasanya disediakan oleh manusia, yang Anda gunakan untuk membandingkan dan mengukur akurasi.
Tingkat Kesalahan Kata (WER)
WER adalah kombinasi dari tiga jenis error transkripsi yang dapat terjadi:
- Error Penyisipan (I): Kata-kata yang ada dalam transkrip hipotesis yang tidak ada dalam kebenaran dasar.
- Error substitusi (S): Kata-kata yang ada dalam hipotesis dan kebenaran dasar, tetapi tidak ditranskripsikan dengan benar.
- Kesalahan penghapusan (D): Kata-kata yang tidak ada dalam hipotesis, tetapi ada dalam kebenaran dasar.
\[WER = {S+R+Q \over N}\]
Untuk menemukan WER, tambahkan jumlah total setiap kesalahan ini, dan bagi dengan jumlah total kata (N) dalam transkrip kebenaran dasar. WER dapat lebih besar dari 100% dalam situasi dengan akurasi yang sangat rendah, misalnya, saat sejumlah besar teks baru disisipkan. Catatan: Substitusi pada dasarnya adalah penghapusan yang diikuti dengan penyisipan, dan beberapa substitusi tidak seserius yang lain. Misalnya, mungkin ada perbedaan dalam melakukan penggantian satu huruf dan bukannya sebuah kata.
Hubungan WER dengan skor optimis.
Metrik WER tidak bergantung pada skor optimis, dan biasanya tidak berkorelasi satu sama lain. Skor optimis didasarkan pada kemungkinan, sedangkan WER didasarkan pada apakah kata tersebut diidentifikasi dengan benar atau tidak. Jika kata tersebut tidak diidentifikasi dengan benar, ini berarti bahwa kesalahan tata bahasa kecil sekalipun dapat menyebabkan WER yang tinggi. Kata yang diidentifikasi dengan benar akan menyebabkan WER rendah, yang masih dapat menyebabkan kemungkinan rendah, yang menurunkan tingkat keyakinan jika kata itu tidak terlalu sering atau audionya sangat berisik.
Demikian pula, kata yang sering digunakan kemungkinan besar akan ditranskripsikan oleh ASR dengan benar, sehingga mendorong nilai optimis tinggi. Misalnya, jika perbedaan diidentifikasi antara "I" dan "eye", tingkat keyakinan yang tinggi mungkin terjadi, karena "I" adalah kata yang lebih populer, tetapi metrik WER menjadi lebih rendah.
Singkatnya, metrik kepercayaan dan WER bersifat independen dan tidak seharusnya berkorelasi.
Normalisasi
Saat menghitung metrik WER, transkripsi mesin dibandingkan dengan transkripsi kebenaran dasar yang disediakan manusia. Teks dari kedua transkripsi dinormalkan sebelum perbandingan dilakukan. Tanda baca dihapus, dan kapitalisasi diabaikan saat membandingkan transkripsi mesin dengan transkripsi kebenaran dasar yang disediakan manusia.
Konvensi kebenaran nyata
Penting untuk diketahui bahwa tidak ada satu format transkripsi khusus yang telah disetujui manusia untuk setiap audio tertentu. Ada banyak aspek yang perlu dipertimbangkan. Misalnya, audio dapat memiliki vokalisasi non-ucapan lainnya, seperti "huh", "ya", "umm". Beberapa model Cloud STT, seperti "medical_conversation", menyertakan vokalisasi ini, sementara yang lain tidak. Oleh karena itu, penting bahwa konvensi kebenaran dasar sesuai dengan konvensi model yang dievaluasi. Panduan tingkat tinggi berikut digunakan untuk menyiapkan transkripsi teks kebenaran dasar untuk audio tertentu.
- Selain huruf standar, Anda dapat menggunakan angka 0-9.
- Jangan menggunakan simbol seperti "@", "#", "$", ".". Gunakan kata-kata seperti "at", "hash", "dollar", "dot".
- Gunakan "%" tetapi hanya jika diawali dengan angka; jika tidak, gunakan kata "persen".
Gunakan "\$" hanya jika diikuti dengan angka, misalnya "Susu adalah \$3,99".
Gunakan kata untuk angka kurang dari 10.
- Misalnya, "Saya punya empat kucing dan 12 topi".
Gunakan angka untuk mengukur, mata uang, dan faktor besar seperti juta, miliar, atau triliun. Misalnya, "7,5 juta", bukan "tujuh setengah juta".
Jangan gunakan singkatan dalam kasus berikut:
Anjuran Larangan Satria Muda Pertamina versus Lakers Satria Muda Pertamina vs. Lakers Saya tinggal di 123 Main Street Saya tinggal di 123 Main St.
Mengukur akurasi ucapan
Langkah-langkah berikut membantu Anda mulai menentukan akurasi menggunakan audio:
Mengumpulkan file audio pengujian
Kumpulkan sampel perwakilan file audio untuk mengukur kualitasnya. Sampel ini harus acak dan harus sedekat mungkin dengan lingkungan target. Misalnya, jika Anda ingin mentranskripsikan percakapan dari pusat layanan telepon untuk membantu menjamin kualitas, Anda harus secara acak memilih beberapa panggilan sebenarnya yang direkam di peralatan yang sama dengan audio produksi Anda. Jika audio Anda direkam di mikrofon ponsel atau komputer dan tidak mewakili kasus penggunaan Anda, jangan gunakan rekaman audio tersebut.
Rekam audio minimal selama 30 menit untuk mendapatkan metrik akurasi yang signifikan secara statistik. Sebaiknya gunakan audio berdurasi antara 30 menit dan 3 jam. Di lab ini, audio disediakan untuk Anda.
Mendapatkan transkripsi kebenaran dasar
Dapatkan transkripsi audio yang akurat. Proses ini biasanya melibatkan transkripsi audio target tunggal atau double-pass. Sasaran Anda adalah mendapatkan transkripsi yang 100% akurat untuk mengukur hasil otomatis.
Sangat penting saat mendapatkan transkripsi kebenaran dasar agar sesuai dengan konvensi transkripsi sistem ASR target Anda semirip mungkin. Misalnya, pastikan tanda baca, angka, dan kapitalisasi konsisten.
Dapatkan transkripsi mesin, dan perbaiki masalah apa pun dalam teks yang Anda lihat.
Mendapatkan transkripsi mesin
Kirim audio ke Google Speech-to-Text API, dan dapatkan transkripsi hipotesis Anda menggunakan Speech-to-Text UI.
Sambungkan kebenaran dasar ke audio
Di alat UI, klik 'Attach Ground Truth' untuk mengaitkan file audio tertentu dengan kebenaran dasar yang disediakan. Setelah melengkapi lampiran, Anda dapat melihat metrik WER dan visualisasi semua perbedaannya.