Waktu tunggu dan peristiwa aktivitas suara

Peristiwa aktivitas suara menunjukkan kapan awal atau akhir ucapan terdeteksi di sepanjang streaming. Peristiwa ini dikirim secara real-time saat terdeteksi oleh Speech-to-Text. Peristiwa aktivitas suara dapat berguna untuk mengembangkan aplikasi yang mengandalkan deteksi otomatis saat pengguna telah mulai atau selesai berbicara. Speech-to-Text juga dapat dikonfigurasi untuk menutup streaming secara otomatis berdasarkan aktivitas suara.

Peristiwa aktivitas suara hanya tersedia untuk permintaan gRPC StreamingRecognize.

Aktifkan peristiwa aktivitas suara

Anda dapat mengaktifkan penerimaan respons aktivitas suara dengan menyetel tanda enable_voice_activity_events ke benar (true) di bagian pesan streaming_features.

Jenis peristiwa aktivitas suara

Peristiwa aktivitas suara biasanya ditampilkan secara real time karena Speech-to-Text mendeteksi ucapan dimulai atau berhenti selama streaming. Teks ini biasanya akan ditampilkan sebelum hasil transkripsi untuk segmen ucapan yang sesuai. Peristiwa aktivitas ucapan dapat dikirim untuk audio yang menghasilkan hasil transkripsi kosong.

Aktivitas Ucapan Dimulai

Dikirim saat Speech-to-Text mendeteksi bahwa ucapan telah dimulai.

{
  "speechEventType": "SPEECH_ACTIVITY_BEGIN",
  "speechEventOffset": "1.070s"
}

Aktivitas Ucapan Berakhir

Dikirim saat Speech-to-Text mendeteksi bahwa ucapan telah berakhir.

{
  "speechEventType": "SPEECH_ACTIVITY_END",
  "speechEventOffset": "1.070s"
}
Jika streaming ditutup sebelum ucapan berakhir, peristiwa SPEECH_ACTIVITY_END tidak akan dikirim.

Mengaktifkan waktu tunggu aktivitas suara

Anda dapat mengaktifkan waktu tunggu aktivitas suara dengan menetapkan nilai pada pesan voice_activity_timeout di streaming_features. Waktu tunggu aktivitas suara harus lebih dari 500 md dan kurang dari 60 dtk. Waktu tunggu awal dan akhir ucapan dapat disetel secara terpisah.

Waktu tunggu memulai ucapan

Jika waktu tunggu dimulainya ucapan ditetapkan, Speech-to-Text akan otomatis menutup streaming jika ucapan belum dimulai sebelum periode waktu tunggu. Setelah peristiwa SPEECH_ACTIVITY_START terdeteksi dan ditampilkan, waktu tunggu akan dibatalkan selama durasi streaming. Fitur ini berguna untuk aplikasi yang mengharapkan pengguna mulai berbicara dalam jangka waktu tertentu.

Waktu tunggu akhir ucapan

Jika waktu tunggu akhir ucapan ditetapkan, Speech-to-Text akan otomatis menutup streaming jika tidak ada ucapan lebih lanjut yang terdeteksi dalam durasi waktu tunggu setelah peristiwa SPEECH_ACTIVITY_END. Setelah peristiwa SPEECH_ACTIVITY_START terdeteksi dan ditampilkan, waktu tunggu akan dibatalkan dan akan dimulai lagi setelah peristiwa SPEECH_ACTIVITY_END dikirim.

Pengukuran waktu untuk waktu tunggu

Waktu yang berlalu diukur dengan byte audio yang dikirim dalam permintaan ke Speech-to-Text, bukan waktu server. Hal ini memungkinkan untuk menjaga akurasi selama variasi dalam transmisi stream. Mengirim potongan audio yang sangat besar dalam permintaan, atau mengirim permintaan dalam urutan yang sangat cepat akan mengurangi akurasi pengukuran waktu tunggu. Catatan: batas ukuran untuk potongan audio adalah 15360 byte per permintaan.