Peristiwa aktivitas suara menunjukkan kapan awal atau akhir ucapan terdeteksi di sepanjang streaming. Peristiwa ini dikirim secara real-time saat terdeteksi oleh Speech-to-Text. Peristiwa aktivitas suara dapat berguna untuk mengembangkan aplikasi yang mengandalkan deteksi otomatis saat pengguna telah mulai atau selesai berbicara. Speech-to-Text juga dapat dikonfigurasi untuk menutup streaming secara otomatis berdasarkan aktivitas suara.
Peristiwa aktivitas suara hanya tersedia untuk permintaan gRPC StreamingRecognize.
Aktifkan peristiwa aktivitas suara
Anda dapat mengaktifkan penerimaan respons aktivitas suara dengan menyetel tanda
enable_voice_activity_events
ke benar (true) di bagian
pesan streaming_features
.
Jenis peristiwa aktivitas suara
Peristiwa aktivitas suara biasanya ditampilkan secara real time karena Speech-to-Text mendeteksi ucapan dimulai atau berhenti selama streaming. Teks ini biasanya akan ditampilkan sebelum hasil transkripsi untuk segmen ucapan yang sesuai. Peristiwa aktivitas ucapan dapat dikirim untuk audio yang menghasilkan hasil transkripsi kosong.
Aktivitas Ucapan Dimulai
Dikirim saat Speech-to-Text mendeteksi bahwa ucapan telah dimulai.
{ "speechEventType": "SPEECH_ACTIVITY_BEGIN", "speechEventOffset": "1.070s" }
Aktivitas Ucapan Berakhir
Dikirim saat Speech-to-Text mendeteksi bahwa ucapan telah berakhir.
{ "speechEventType": "SPEECH_ACTIVITY_END", "speechEventOffset": "1.070s" }
SPEECH_ACTIVITY_END
tidak akan dikirim.
Mengaktifkan waktu tunggu aktivitas suara
Anda dapat mengaktifkan waktu tunggu aktivitas suara dengan menetapkan nilai pada
pesan
voice_activity_timeout
di streaming_features
. Waktu tunggu aktivitas suara harus lebih dari 500 md dan
kurang dari 60 dtk. Waktu tunggu awal dan akhir ucapan dapat disetel secara terpisah.
Waktu tunggu memulai ucapan
Jika waktu tunggu dimulainya ucapan ditetapkan, Speech-to-Text akan otomatis menutup streaming jika ucapan belum dimulai sebelum periode waktu tunggu. Setelah peristiwa SPEECH_ACTIVITY_START
terdeteksi dan ditampilkan, waktu tunggu akan dibatalkan selama durasi streaming. Fitur ini berguna untuk aplikasi
yang mengharapkan pengguna mulai berbicara dalam jangka waktu tertentu.
Waktu tunggu akhir ucapan
Jika waktu tunggu akhir ucapan ditetapkan, Speech-to-Text akan otomatis menutup streaming jika tidak ada ucapan lebih lanjut yang terdeteksi dalam durasi waktu tunggu setelah peristiwa SPEECH_ACTIVITY_END
. Setelah peristiwa SPEECH_ACTIVITY_START
terdeteksi dan ditampilkan, waktu tunggu akan dibatalkan dan akan dimulai lagi setelah peristiwa SPEECH_ACTIVITY_END
dikirim.
Pengukuran waktu untuk waktu tunggu
Waktu yang berlalu diukur dengan byte audio yang dikirim dalam permintaan ke Speech-to-Text, bukan waktu server. Hal ini memungkinkan untuk menjaga akurasi selama variasi dalam transmisi stream. Mengirim potongan audio yang sangat besar dalam permintaan, atau mengirim permintaan dalam urutan yang sangat cepat akan mengurangi akurasi pengukuran waktu tunggu. Catatan: batas ukuran untuk potongan audio adalah 15360 byte per permintaan.