Speech-to-Text mithilfe der API transkribieren
Auf dieser Seite wird gezeigt, wie Sie mithilfe der REST-Schnittstelle und des Befehls curl
eine Spracherkennungsanfrage an Speech-to-Text senden.
Speech-to-Text ermöglicht die einfache Einbindung von Google-Spracherkennungstechnologien in Entwickleranwendungen. Sie können Audiodaten an die Speech-to-Text API senden, die dann eine Texttranskription dieser Audiodatei zurückgibt. Weitere Informationen zu diesem Dienst finden Sie unter Spracherkennung – Grundlagen.
Hinweis
Bevor Sie eine Anfrage an die Speech-to-Text API senden können, müssen Sie die folgenden Aktionen abgeschlossen haben. Weitere Informationen finden Sie auf der Seite Vorbereitung.
- Speech-to-Text in einem GCP-Projekt aktivieren.
- Die Abrechnung für Speech-to-Text muss aktiviert sein.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (Optional) Erstellen Sie einen neuen Google Cloud Storage-Bucket zum Speichern Ihrer Audiodaten.
Anfrage zur Audiotranskription stellen
Jetzt können Sie mithilfe von Speech-to-Text Audiodateien in Text transkribieren. Mit dem folgenden Codebeispiel können Sie eine recognize
-REST-Anfrage an die Speech-to-Text API senden.
-
Erstellen Sie eine JSON-Anfragedatei mit dem folgenden Text und speichern Sie diese als Nur-Text-Datei
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Aus diesem JSON-Snippet geht hervor, dass die Audiodatei im FLAC-Codierungsformat vorliegt, eine Abtastrate von 16.000 Hz hat und unter dem angegebenen URI in Google Cloud Storage gespeichert ist. Die Audiodatei ist öffentlich zugänglich, sodass Sie für den Zugriff auf die Datei keine Anmeldedaten zur Authentifizierung benötigen.
-
Erstellen Sie mit
curl
eine Anfrage vom Typspeech:recognize
und übergeben Sie den Dateinamen der JSON-Anfrage, die Sie in Schritt 1 eingerichtet haben:Hinweis: Im Beispielbefehl
curl
wird mit dem Befehlgcloud auth print-access-token
ein Authentifizierungstoken abgerufen.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Beachten Sie, dass Sie bei Übergabe eines Dateinamens an
curl
die Option-d
(für "Daten") verwenden und vor den Dateinamen ein@
-Zeichen setzen müssen. Diese Datei sollte sich in dem Verzeichnis befinden, in dem Sie den Befehlcurl
ausführen.Die Antwort sieht ungefähr so aus:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Glückwunsch! Sie haben Ihre erste Anfrage an Speech-to-Text gesendet.
Wenn Sie eine Fehlermeldung oder eine leere Antwort von Speech-to-Text erhalten, lesen Sie die Informationen unter Fehlerbehebung und die Schritte zur Fehlerminimierung.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
- Löschen Sie das Projekt mit der Google Cloud Console, wenn Sie es nicht benötigen.
Nächste Schritte
- Transkribieren kurzer Audiodateien üben
- Mehr über die Zusammenfassung langer Audiodateien für die Spracherkennung
- Mehr über das Transkribieren von Streamingaudio, das z. B. mit einem Mikrofon aufgenommen wurde
- Erste Schritte mit Speech-to-Text in Ihrer bevorzugten Sprache unter Verwendung einer Speech-to-Text-Clientbibliothek
- Beispielanwendungen durcharbeiten
- Für maximale Leistung, Genauigkeit und weitere Tipps die Best Practices lesen