Transkripsi ucapan

Transkripsi Ucapan mentranskripsikan audio lisan dalam video atau segmen video menjadi teks dan menampilkan blok teks untuk setiap bagian audio yang ditranskripsikan.

Model yang didukung

Video Intelligence hanya mendukung bahasa Inggris (Amerika Serikat). Untuk bahasa lainnya, gunakan Speech-to-Text API, yang mendukung semua bahasa yang tersedia. Untuk mengetahui daftar bahasa yang tersedia, lihat Dukungan bahasa dalam dokumentasi Speech-to-Text.

Untuk mentranskripsikan ucapan dari video, panggil metode annotate dan tentukan SPEECH_TRANSCRIPTION di kolom features.

Anda dapat menggunakan fitur berikut saat mentranskripsikan ucapan:

  • Kata alternatif: Gunakan opsi maxAlternatives untuk menentukan jumlah maksimum opsi untuk terjemahan teks yang dikenali yang akan disertakan dalam respons. Nilai ini dapat berupa bilangan bulat dari 1 hingga 30. Nilai defaultnya adalah 1. API menampilkan beberapa transkripsi dalam urutan menurun berdasarkan nilai keyakinan untuk transkripsi. Transkripsi alternatif tidak menyertakan entri tingkat kata.

  • Pemfilteran kata-kata tidak sopan: Gunakan opsi filterProfanity untuk memfilter kata-kata tidak sopan yang diketahui dalam transkripsi. Kata yang cocok diganti dengan karakter pertama kata tersebut yang diikuti dengan tanda bintang. Secara default, nilainya adalah false.

  • Petunjuk transkripsi: Gunakan opsi speechContexts untuk memberikan frasa umum atau tidak biasa dalam audio Anda. Frasa tersebut kemudian digunakan untuk membantu layanan transkripsi membuat transkripsi yang lebih akurat. Anda memberikan petunjuk transkripsi sebagai objek SpeechContext.

  • Pemilihan trek audio: Gunakan opsi audioTracks untuk menentukan trek mana yang akan ditranskripsikan dari video multi-track. Pengguna dapat menentukan hingga dua jalur. Defaultnya adalah 0. Setelah kode bahasa ditetapkan ke en-US, permintaan akan dirutekan ke mode yang ditingkatkan, yang dilatih dengan audio en-US; mode ini tidak benar-benar mengetahui en-US atau bahasa lain. Jika kita memasukkan audio berbahasa Spanyol ke dalam model yang ditingkatkan, transkripsi akan berjalan sebagaimana mestinya, tetapi mungkin ada output dengan skor keyakinan rendah, atau tidak ada output sama sekali – yang diharapkan dari model yang baik.

  • Tanda baca otomatis: Gunakan opsi enableAutomaticPunctuation untuk menyertakan tanda baca dalam teks yang ditranskripsikan. Secara default, nilainya adalah false.

  • Beberapa pembicara: Gunakan opsi enableSpeakerDiarization untuk mengidentifikasi pembicara yang berbeda dalam video. Dalam respons, setiap kata yang dikenali menyertakan kolom speakerTag yang mengidentifikasi pembicara yang mengucapkan kata yang dikenali tersebut.

Untuk hasil terbaik, sediakan audio yang direkam pada frekuensi sampling 16.000 Hz atau lebih tinggi.

Lihat visualizer Video Intelligence API untuk melihat cara kerja fitur ini.

Untuk contoh permintaan transkripsi ucapan, lihat Transkripsi Ucapan.