Transkripsi ucapan

Transkripsi Ucapan mentranskripsikan audio lisan dalam video atau segmen video menjadi teks dan menampilkan blok teks untuk setiap bagian audio yang ditranskripsikan.

Model yang didukung

Video Intelligence hanya mendukung bahasa Inggris (AS). Untuk bahasa lain, gunakan Speech-to-Text API, yang mendukung semua bahasa yang tersedia. Untuk mengetahui daftar bahasa yang tersedia, lihat Dukungan bahasa dalam dokumentasi Speech-to-Text.

Untuk mentranskripsikan ucapan dari video, panggil metode annotate dan tentukan SPEECH_TRANSCRIPTION di kolom features.

Anda dapat menggunakan fitur berikut saat mentranskripsikan ucapan:

  • Kata alternatif: Gunakan opsi maxAlternatives untuk menentukan jumlah maksimum opsi terjemahan teks yang dikenali untuk disertakan dalam respons. Nilai ini dapat berupa bilangan bulat dari 1 hingga 30. Nilai defaultnya adalah 1. API menampilkan beberapa transkripsi dalam urutan menurun berdasarkan nilai keyakinan untuk transkripsi. Transkripsi alternatif tidak menyertakan entri tingkat kata.

  • Filter kata-kata tidak sopan: Gunakan opsi filterProfanity untuk memfilter kata-kata tidak sopan yang diketahui dalam transkripsi. Kata yang cocok akan diganti dengan karakter awal kata diikuti dengan tanda bintang. Secara default, nilainya adalah false.

  • Petunjuk transkripsi: Gunakan opsi speechContexts untuk memberikan frasa umum atau tidak biasa dalam audio Anda. Frasa tersebut kemudian digunakan untuk membantu layanan transkripsi membuat transkripsi yang lebih akurat. Anda memberikan petunjuk transkripsi sebagai objek SpeechContext.

  • Pemilihan trek audio: Gunakan opsi audioTracks untuk menentukan trek yang akan ditranskripsikan dari video multi-trek. Pengguna dapat menentukan hingga dua jalur. Defaultnya adalah 0. Setelah kode bahasa ditetapkan ke en-US, permintaan akan dirutekan ke mode yang ditingkatkan, yang dilatih dengan audio en-US; mode ini tidak benar-benar mengetahui en-US atau bahasa lain. Jika kita memasukkan audio bahasa Spanyol ke dalam model yang ditingkatkan, transkripsi akan berjalan seperti biasa, tetapi mungkin ada output dengan skor keyakinan yang rendah, atau tidak ada output sama sekali – yang merupakan hal yang diharapkan dari model yang baik.

  • Tanda baca otomatis: Gunakan opsi enableAutomaticPunctuation untuk menyertakan tanda baca dalam teks yang ditranskripsikan. Secara default, nilainya adalah false.

  • Beberapa pembicara: Gunakan opsi enableSpeakerDiarization untuk mengidentifikasi beberapa pembicara dalam video. Dalam respons, setiap kata yang dikenali menyertakan kolom speakerTag yang mengidentifikasi pembicara yang diatribusikan kata yang dikenali.

Untuk hasil terbaik, sediakan audio yang direkam pada frekuensi sampling 16.000 Hz atau lebih.

Lihat Visualisator Video Intelligence API untuk melihat cara kerja fitur ini.

Untuk contoh permintaan transkripsi ucapan, lihat Transkripsi Ucapan.