WebVTT- und SRT-Untertitel generieren

Auf dieser Seite wird beschrieben, wie du mit der Speech-to-Text V2 API automatisch Untertitel im SRT- und VTT-Format aus Audiodateien generieren kannst.

Übersicht

Mit der Speech-to-Text V2 API können Sie automatisch präzise Untertitel im SubRip- (.srt) und WebVTT-Format (.vtt) generieren. In diesen Formaten werden der Text und die Zeitinformationen von Audio gespeichert. So können Untertitel oder Untertitelungstexte synchron mit den Medien für Untertitel und Untertitelungstexte angezeigt werden.

Die Aktivierung von Untertiteln in Ihrer Anfrage an die Google Speech-to-Text API wird nur in der V2 API unterstützt. Insbesondere können Sie BatchRecognize nur zum Transkribieren langer Audiodateien verwenden. Sie können die Ausgabe in einem Cloud Storage-Bucket speichern oder sie Inline zurückgeben. Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden, die mit verschiedenen Dateiendungen in den angegebenen Bucket geschrieben werden.

Untertitelausgaben in einer Anfrage aktivieren

Wenn du mit Google Speech-to-Text SRT- oder VTT-Untertitel für deine Audioinhalte generieren möchtest, aktiviere in deiner Transkriptionsanfrage die Untertitelausgabe:

  1. Stellen Sie eine Anfrage an die BatchRecognize-Methode der Speech-to-Text V2 API, wobei das Feld output_format_config ausgefüllt ist. Folgende Werte sind zulässig:
    • srt, damit die Ausgabe dem SubRip-Format(.srt) entspricht.
    • vtt, damit die Ausgabe dem WebVTT-Format(.vtt) entspricht.
    • native, das Standardausgabeformat, wenn kein Format als serialisierte BatchRecognizeResults-Anfrage angegeben wird.
  2. Da der Vorgang asynchron ist, fragen Sie die Anfrage ab, bis sie abgeschlossen ist.

Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Sie werden mit verschiedenen Dateiendungen in den angegebenen Bucket geschrieben. Das sind .json für native Untertitel, .srt für SRT-Untertitel und .vtt für WebVTT-Untertitel.

Wenn für die Inline-Ausgabekonfiguration mehrere Formate angegeben sind, ist jedes Format als Feld in der Nachricht „BatchRecognizeFileResult.inline_result“ verfügbar.

Im folgenden Code-Snippet wird gezeigt, wie Sie Untertitelausgaben in einer Transkriptionsanfrage an Speech-to-Text mithilfe von lokalen und Remote-Dateien aktivieren:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

Nächste Schritte