WebVTT- und SRT-Untertitel generieren

Auf dieser Seite wird beschrieben, wie Sie mit der Speech-to-Text V2 API automatisch Untertitel aus Audiodateien in SRT- und VTT-Formaten generieren.

Übersicht

Mit der Leistungsfähigkeit der Speech-to-Text V2 API können Sie automatisch genaue Untertitel sowohl im SubRip-Format (.srt) als auch im WebVTT-Format (.vtt) generieren. Diese Formate werden verwendet, um die Text- und Zeitinformationen von Audioinhalten zu speichern. So können Untertitel synchron mit den Medien für Untertitel angezeigt werden.

Das Aktivieren von Untertitelausgaben in Ihrer Anfrage an Google Speech-to-Text wird nur in der V2 API unterstützt. Insbesondere können Sie nur BatchRecognize zum Transkribieren langer Audiodateien verwenden. Sie können Ausgaben in einem Cloud Storage-Bucket speichern oder sie inline zurückgeben. Für die Cloud Storage-Ausgabekonfiguration, die mit unterschiedlichen Dateiendungen in den angegebenen Bucket geschrieben wird, können mehrere Formate gleichzeitig angegeben werden.

Untertitelausgaben in einer Anfrage aktivieren

Wenn du mit Google Speech-to-Text SRT- oder VTT-Untertitel für deine Audioinhalte generieren möchtest, aktiviere in deiner Transkriptionsanfrage die Untertitelausgabe:

  1. Stellen Sie mit einem ausgefüllten Feld output_format_config eine Anfrage an die Methode BatchRecognize der Speech-to-Text V2 API. Folgende Werte sind zulässig:
    • srt, damit die Ausgabe dem SubRip-Format (.srt) entspricht.
    • vtt, damit die Ausgabe dem WebVTT(.vtt)-Format entspricht.
    • native, das Standardausgabeformat, wenn kein Format als serialisierte BatchRecognizeResults-Anfrage angegeben wird.
  2. Da der Vorgang asynchron ist, fragen Sie die Anfrage ab, bis sie abgeschlossen ist.

Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Sie werden mit verschiedenen Dateiendungen in den angegebenen Bucket geschrieben. Das sind .json für native Untertitel, .srt für SRT-Untertitel und .vtt für WebVTT-Untertitel.

Wenn für die Inline-Ausgabekonfiguration mehrere Formate angegeben sind, ist jedes Format als Feld in der Nachricht „BatchRecognizeFileResult.inline_result“ verfügbar.

Im folgenden Code-Snippet wird gezeigt, wie die Untertitelausgabe in einer Transkriptionsanfrage an Speech-to-Text mithilfe von lokalen und Remote-Dateien aktiviert wird:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

Nächste Schritte