Auf dieser Seite wird beschrieben, wie Sie mit der Speech-to-Text V2 API automatisch Untertitel aus Audiodateien in SRT- und VTT-Formaten generieren.
Übersicht
Mit der Leistungsfähigkeit der Speech-to-Text V2 API können Sie automatisch genaue Untertitel sowohl im SubRip-Format (.srt) als auch im WebVTT-Format (.vtt) generieren. Diese Formate werden verwendet, um die Text- und Zeitinformationen von Audioinhalten zu speichern. So können Untertitel synchron mit den Medien für Untertitel angezeigt werden.
Das Aktivieren von Untertitelausgaben in Ihrer Anfrage an Google Speech-to-Text wird nur in der V2 API unterstützt. Insbesondere können Sie nur BatchRecognize
zum Transkribieren langer Audiodateien verwenden. Sie können Ausgaben in einem Cloud Storage-Bucket speichern oder sie inline zurückgeben.
Für die Cloud Storage-Ausgabekonfiguration, die mit unterschiedlichen Dateiendungen in den angegebenen Bucket geschrieben wird, können mehrere Formate gleichzeitig angegeben werden.
Untertitelausgaben in einer Anfrage aktivieren
Wenn du mit Google Speech-to-Text SRT- oder VTT-Untertitel für deine Audioinhalte generieren möchtest, aktiviere in deiner Transkriptionsanfrage die Untertitelausgabe:
- Stellen Sie mit einem ausgefüllten Feld
output_format_config
eine Anfrage an die MethodeBatchRecognize
der Speech-to-Text V2 API. Folgende Werte sind zulässig:srt
, damit die Ausgabe dem SubRip-Format (.srt) entspricht.vtt
, damit die Ausgabe dem WebVTT(.vtt)-Format entspricht.native
, das Standardausgabeformat, wenn kein Format als serialisierteBatchRecognizeResults
-Anfrage angegeben wird.
- Da der Vorgang asynchron ist, fragen Sie die Anfrage ab, bis sie abgeschlossen ist.
Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Sie werden mit verschiedenen Dateiendungen in den angegebenen Bucket geschrieben. Das sind .json
für native Untertitel, .srt
für SRT-Untertitel und .vtt
für WebVTT-Untertitel.
Wenn für die Inline-Ausgabekonfiguration mehrere Formate angegeben sind, ist jedes Format als Feld in der Nachricht „BatchRecognizeFileResult.inline_result“ verfügbar.
Im folgenden Code-Snippet wird gezeigt, wie die Untertitelausgabe in einer Transkriptionsanfrage an Speech-to-Text mithilfe von lokalen und Remote-Dateien aktiviert wird:
API
curl -X POST \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
--data '{
"files": [{
"uri": "gs://my-bucket/jfk_and_the_press.wav"
}],
"config": {
"features": { "enableWordTimeOffsets": true },
"autoDecodingConfig": {},
"model": "long",
"languageCodes": ["en-US"]
},
"recognitionOutputConfig": {
"gcsOutputConfig": { "uri": "gs://my-bucket" },
"output_format_config": { "srt": {} }
}
}'
Nächste Schritte
- Erfahren Sie, wie Sie [lange Audiodateien transkribieren][batch-recognize].
- Weitere Informationen zum Auswählen des besten Transkriptionsmodells
- Audiodateien mit [Chirp][chirp] transkribieren
- Für maximale Leistung, Genauigkeit und weitere Tipps siehe die [Best Practices][best-Practices]-Dokumentation