Membuat teks WebVTT dan SRT

Halaman ini menjelaskan cara menggunakan Speech-to-Text V2 API untuk membuat teks secara otomatis dari file audio, dalam format SRT dan VTT.

Ringkasan

Anda dapat menggunakan kecanggihan Speech-to-Text V2 API untuk secara otomatis menghasilkan teks yang akurat dalam format SubRip (.srt) dan WebVTT (.vtt). Format ini digunakan untuk menyimpan teks dan informasi pengaturan waktu audio, sehingga memungkinkan untuk menampilkan subtitel atau teks secara sinkron dengan media untuk pemberian subtitel dan teks tertutup.

Mengaktifkan output teks dalam permintaan Anda ke Google Speech-to-Text hanya didukung di V2 API. Secara khusus, Anda hanya dapat menggunakan BatchRecognize untuk mentranskripsikan file audio yang panjang. Anda dapat menyimpan output di bucket Cloud Storage, atau output dapat ditampilkan secara inline. Beberapa format dapat ditentukan secara bersamaan untuk konfigurasi output Cloud Storage, yang ditulis ke bucket yang ditentukan dengan ekstensi file yang berbeda.

Mengaktifkan output teks dalam permintaan

Guna membuat output teks SRT atau VTT untuk audio Anda menggunakan Google Speech-to-Text, ikuti langkah berikutnya untuk mengaktifkan output teks dalam permintaan transkripsi Anda:

  1. Buat permintaan ke metode BatchRecognize Speech-to-Text V2 API dengan kolom output_format_config yang sudah terisi. Nilai yang ditentukan adalah:
    • srt, agar output mengikuti format SubRip(.srt).
    • vtt, agar output mengikuti format WebVTT(.vtt).
    • native, yang merupakan format output default jika tidak ada format yang ditentukan sebagai permintaan BatchRecognizeResults serial.
  2. Karena operasi bersifat asinkron, lakukan polling permintaan hingga selesai.

Beberapa format dapat ditentukan secara bersamaan untuk konfigurasi output Cloud Storage. Catatan ini ditulis ke bucket yang ditentukan dengan ekstensi file yang berbeda. Yaitu .json untuk native, .srt untuk SRT, dan .vtt untuk dukungan WebVTT.

Jika beberapa format ditentukan untuk konfigurasi output inline, setiap format akan tersedia sebagai kolom dalam pesan BatchRecognizeFileResult.inline_result.

Cuplikan kode berikut menunjukkan cara mengaktifkan output teks dalam permintaan transkripsi ke Speech-to-Text menggunakan file lokal dan jarak jauh:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

Langkah selanjutnya

  • Pelajari cara [mentranskripsikan file audio panjang][pengenalan batch].
  • Pelajari cara memilih model transkripsi terbaik.
  • Transkripsikan file audio menggunakan [Chirp][chirp].
  • Untuk performa terbaik, akurasi, dan tips lainnya, lihat dokumentasi [praktik terbaik][praktik terbaik].