Auf dieser Seite wird beschrieben, wie du mit der Speech-to-Text V2 API automatisch Untertitel im SRT- und VTT-Format aus Audiodateien generieren kannst.
Übersicht
Mit der Speech-to-Text V2 API können Sie automatisch präzise Untertitel im SubRip- (.srt) und WebVTT-Format (.vtt) generieren. In diesen Formaten werden der Text und die Zeitinformationen von Audio gespeichert. So können Untertitel oder Untertitelungstexte synchron mit den Medien für Untertitel und Untertitelungstexte angezeigt werden.
Die Aktivierung von Untertiteln in Ihrer Anfrage an die Google Speech-to-Text API wird nur in der V2 API unterstützt. Insbesondere können Sie BatchRecognize
nur zum Transkribieren langer Audiodateien verwenden. Sie können die Ausgabe in einem Cloud Storage-Bucket speichern oder sie Inline zurückgeben.
Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden, die mit verschiedenen Dateiendungen in den angegebenen Bucket geschrieben werden.
Untertitelausgaben in einer Anfrage aktivieren
Wenn du mit Google Speech-to-Text SRT- oder VTT-Untertitel für deine Audioinhalte generieren möchtest, aktiviere in deiner Transkriptionsanfrage die Untertitelausgabe:
- Stellen Sie eine Anfrage an die
BatchRecognize
-Methode der Speech-to-Text V2 API, wobei das Feldoutput_format_config
ausgefüllt ist. Folgende Werte sind zulässig:srt
, damit die Ausgabe dem SubRip-Format(.srt) entspricht.vtt
, damit die Ausgabe dem WebVTT-Format(.vtt) entspricht.native
, das Standardausgabeformat, wenn kein Format als serialisierteBatchRecognizeResults
-Anfrage angegeben wird.
- Da der Vorgang asynchron ist, fragen Sie die Anfrage ab, bis sie abgeschlossen ist.
Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Sie werden mit verschiedenen Dateiendungen in den angegebenen Bucket geschrieben. Das sind .json
für native Untertitel, .srt
für SRT-Untertitel und .vtt
für WebVTT-Untertitel.
Wenn für die Inline-Ausgabekonfiguration mehrere Formate angegeben sind, ist jedes Format als Feld in der Nachricht „BatchRecognizeFileResult.inline_result“ verfügbar.
Im folgenden Code-Snippet wird gezeigt, wie Sie Untertitelausgaben in einer Transkriptionsanfrage an Speech-to-Text mithilfe von lokalen und Remote-Dateien aktivieren:
API
curl -X POST \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
--data '{
"files": [{
"uri": "gs://my-bucket/jfk_and_the_press.wav"
}],
"config": {
"features": { "enableWordTimeOffsets": true },
"autoDecodingConfig": {},
"model": "long",
"languageCodes": ["en-US"]
},
"recognitionOutputConfig": {
"gcsOutputConfig": { "uri": "gs://my-bucket" },
"output_format_config": { "srt": {} }
}
}'
Nächste Schritte
- Lange Audiodateien transkribieren
- Weitere Informationen zum Auswählen des besten Transkriptionsmodells
- Audiodateien mit Chirp transkribieren
- Best Practices-Dokumentation für maximale Leistung und Genauigkeit sowie für weitere Tipps