Sprache über die Befehlszeile in Text transkribieren
Auf dieser Seite wird gezeigt, wie Sie mithilfe der REST-Schnittstelle und des Befehls curl
eine Spracherkennungsanfrage an Speech-to-Text senden.
Speech-to-Text ermöglicht die einfache Einbindung von Google-Spracherkennungstechnologien in Entwickleranwendungen. Sie können Audiodaten an die Speech-to-Text API senden, die dann eine Texttranskription dieser Audiodatei zurückgibt. Weitere Informationen zu diesem Dienst finden Sie unter Spracherkennung – Grundlagen.
Hinweis
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.
-
Speech-to-Text APIs aktivieren.
-
Prüfen Sie, ob Sie die folgenden Rollen für das Projekt haben: Cloud Speech Administrator
Auf Rollen prüfen
-
Öffnen Sie in der Google Cloud Console die Seite IAM.
IAM aufrufen - Wählen Sie das Projekt aus.
-
Suchen Sie nach der Zeile mit Ihrer E-Mail-Adresse in der Spalte Hauptkonto.
Ist Ihre E-Mail-Adresse nicht in dieser Spalte enthalten, haben Sie keine Rollen.
- Prüfen Sie in der Spalte Rolle der Zeile mit Ihrer E-Mail-Adresse, ob die Liste der Rollen die erforderlichen Rollen enthält.
Rollen zuweisen
-
Öffnen Sie in der Google Cloud Console die Seite IAM.
IAM aufrufen - Wählen Sie das Projekt aus.
- Klicken Sie auf Zugriff erlauben.
- Geben Sie in das Feld Neue Hauptkonten Ihre E-Mail-Adresse ein.
- Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
- Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
- Klicken Sie auf Speichern.
-
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.
-
Speech-to-Text APIs aktivieren.
-
Prüfen Sie, ob Sie die folgenden Rollen für das Projekt haben: Cloud Speech Administrator
Auf Rollen prüfen
-
Öffnen Sie in der Google Cloud Console die Seite IAM.
IAM aufrufen - Wählen Sie das Projekt aus.
-
Suchen Sie nach der Zeile mit Ihrer E-Mail-Adresse in der Spalte Hauptkonto.
Ist Ihre E-Mail-Adresse nicht in dieser Spalte enthalten, haben Sie keine Rollen.
- Prüfen Sie in der Spalte Rolle der Zeile mit Ihrer E-Mail-Adresse, ob die Liste der Rollen die erforderlichen Rollen enthält.
Rollen zuweisen
-
Öffnen Sie in der Google Cloud Console die Seite IAM.
IAM aufrufen - Wählen Sie das Projekt aus.
- Klicken Sie auf Zugriff erlauben.
- Geben Sie in das Feld Neue Hauptkonten Ihre E-Mail-Adresse ein.
- Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
- Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
- Klicken Sie auf Speichern.
-
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
Authentifizierung einrichten
Clientbibliotheken können Standardanmeldedaten für Anwendungen verwenden, um sich einfach bei Google APIs zu authentifizieren und Anfragen an diese APIs zu senden. Mit den Standardanmeldedaten für Anwendungen können Sie Ihre Anwendung lokal testen und bereitstellen, ohne den zugrunde liegenden Code zu ändern. Weitere Informationen und Codebeispiele finden Sie unter Authentifizierung.
Erstellen Sie Anmeldedaten zur Authentifizierung für Ihr Google-Konto:
gcloud auth application-default login
Erkennungsmodul erstellen
Zum Senden einer Erkennungsanfrage müssen Sie zuerst einen Recognizer, d. h. ein Erkennungsmodul, erstellen. Verwenden Sie den folgenden Befehl, um einen Recognizer zu erstellen.
Ersetzen Sie PROJECT_ID
durch Ihre Google Cloud-Projekt-ID und RECOGNIZER_ID
durch eine Kennung für Ihren Recognizer.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data "{\"languageCodes\": \"en-US\", \"model\": \"latest_long\"}" \ https://speech.googleapis.com/v2/projects/PROJECT_ID/locations/global/recognizers?recognizer_id=RECOGNIZER_ID
Anfrage zur Audiotranskription stellen
Jetzt können Sie mithilfe von Speech-to-Text Audiodateien in Text transkribieren. Mit dem folgenden Codebeispiel können Sie eine recognize
-REST-Anfrage an die Speech-to-Text API senden.
-
Erstellen Sie eine JSON-Anfragedatei mit dem folgenden Text und speichern Sie diese als Nur-Text-Datei
sync-request.json
. Ersetzen Sie/full/path/to/audio/file.wav
durch den Pfad zur Audiodatei, die Sie transkribieren möchten:{ \"config\": { \"auto_decoding_config": {} }, \"content\": \"$(base64 -w 0 /full/path/to/audio/file.wav | sed 's/+/-/g; s/\//_/g')\" }
-
Erstellen Sie mit
curl
eine Anfrage vom Typspeech:recognize
und übergeben Sie den Dateinamen der JSON-Anfrage, die Sie in Schritt 1 eingerichtet haben:curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ https://speech.googleapis.com/v2/projects/PROJECT_ID/locations/global/recognizers/RECOGNIZER_ID:recognize \ -d @sync-request.json
Beachten Sie, dass Sie bei Übergabe eines Dateinamens an
curl
die Option-d
(für "Daten") verwenden und vor den Dateinamen ein@
-Zeichen setzen müssen. Diese Datei sollte sich in dem Verzeichnis befinden, in dem Sie den Befehlcurl
ausführen.Die Antwort sieht ungefähr so aus:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Das wars! Sie haben Ihre erste Anfrage an Speech-to-Text gesendet.
Wenn Sie eine Fehlermeldung oder eine leere Antwort von Speech-to-Text erhalten, lesen Sie die Informationen unter Fehlerbehebung und die Schritte zur Fehlerminimierung.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
-
Optional: Widerrufen Sie die von Ihnen erstellten Anmeldedaten für die Authentifizierung und löschen Sie die lokale Datei mit den Anmeldedaten:
gcloud auth application-default revoke
-
Optional: Widerrufen Sie Anmeldedaten von der gcloud-CLI.
gcloud auth revoke
Console
gcloud CLI
Cloud-Projekt löschen:
gcloud projects delete PROJECT_ID
Nächste Schritte
- Transkribieren kurzer Audiodateien üben
- Mehr über das Transkribieren von Streamingaudio, das z. B. mit einem Mikrofon aufgenommen wurde
- Erste Schritte mit Speech-to-Text in Ihrer bevorzugten Sprache unter Verwendung einer Speech-to-Text-Clientbibliothek
- Für maximale Leistung, Genauigkeit und weitere Tipps die Best Practices lesen