Genera didascalie WebVTT e SRT

Questa pagina descrive come utilizzare l'API Speech-to-Text V2 per generare automaticamente sottotitoli codificati dai file audio, nei formati SRT e VTT.

Panoramica

Puoi utilizzare la potenza dell'API Speech-to-Text V2 per generare automaticamente sottotitoli codificati accurati nei formati SubRip (.srt) e WebVTT (.vtt). Questi formati vengono utilizzati per memorizzare il testo e le informazioni sulla sincronizzazione dell'audio, consentendo di visualizzare i sottotitoli in sincronizzazione con i contenuti multimediali per i sottotitoli.

L'attivazione degli output dei sottotitoli nella richiesta a Google Speech-to-Text è supportata solo nell'API V2. Nello specifico, puoi usare solo BatchRecognize per trascrivere file audio lunghi. Gli output possono essere salvati in un bucket Cloud Storage oppure restituiti in linea. È possibile specificare più formati contemporaneamente per la configurazione di output di Cloud Storage, che viene scritta nel bucket specificato con estensioni file diverse.

Abilita output dei sottotitoli codificati in una richiesta

Per generare output di sottotitoli SRT o VTT per l'audio utilizzando Google Speech-to-Text, segui i passaggi successivi per attivare gli output dei sottotitoli nella richiesta di trascrizione:

  1. Invia una richiesta al metodo BatchRecognize dell'API Speech-to-Text V2 con il campo output_format_config compilato. I valori specificati sono:
    • srt, affinché l'output segua il formato SubRip(.srt).
    • vtt, affinché l'output segua il formato WebVTT(.vtt).
    • native, che è il formato di output predefinito se non viene specificato alcun formato come richiesta BatchRecognizeResults serializzata.
  2. Poiché l'operazione è asincrona, esegui il polling della richiesta fino al completamento.

È possibile specificare più formati contemporaneamente per la configurazione di output di Cloud Storage. Vengono scritti nel bucket specificato con estensioni dei file diverse. Queste sono rispettivamente .json per il supporto nativo, .srt per SRT e .vtt per il supporto WebVTT.

Se vengono specificati più formati per la configurazione dell'output in linea, ciascuno di questi sarà disponibile come campo nel messaggio BatchRecognitionFileResult.inline_result.

Il seguente snippet di codice mostra come attivare gli output dei sottotitoli codificati in una richiesta di trascrizione in Speech-to-Text utilizzando file locali e remoti:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

Passaggi successivi

  • Scopri come [trascrivere file audio lunghi][riconoscimento in batch].
  • Scopri come scegliere il miglior modello di trascrizione.
  • Trascrizione dei file audio usando [Chirp][chirp].
  • Per prestazioni ottimali, precisione e altri suggerimenti, consulta la documentazione relativa alle [best practice][best practice].