Auf dieser Seite wird beschrieben, wie Sie die Spracherkennung für Audiotranskriptionsanfragen aktivieren, die an Speech-to-Text gesendet werden.
In manchen Fällen ist nicht zweifelsfrei sicher, welche Sprache Ihre Audioaufzeichnungen enthalten. Wenn Sie beispielsweise einen Dienst, eine App oder ein Produkt in einem Land mit mehreren offiziellen Sprachen veröffentlichen, können Sie auch Audioaufzeichnungen von Nutzern in verschiedenen Sprachen erhalten. Somit ist es sehr viel schwieriger, einen bestimmten Sprachcode für Transkriptionsanfragen anzugeben.
Erkennung bei mehreren Sprachen
Mit Speech-to-Text können Sie eine Reihe alternativer Sprachen angeben, die in Ihren Audiodaten enthalten sein könnten. Wenn Sie eine Audio-Transkriptionsanfrage an Speech-to-Text senden, können Sie eine Liste weiterer Sprachen angeben, die die Audiodaten enthalten könnten. Wenn Sie eine Liste von Sprachen in die Anfrage aufnehmen, versucht Speech-to-Text, die Audiodaten anhand der Sprache zu transkribieren, die von den verfügbaren Alternativen am besten passt. Speech-to-Text kennzeichnet dann die Transkriptionsergebnisse mit dem vorhergesagten Sprachcode.
Diese Funktion eignet sich ideal für Apps, in denen kurze Aussagen wie Sprachbefehle oder Suchbegriffe transkribiert werden müssen. Zusätzlich zur Standardsprache können Sie bis zu drei alternative Sprachen aus den von Speech-to-Text unterstützten Sprachen auflisten (insgesamt also vier Sprachen).
Auch wenn Sie alternative Sprachen für die Anfrage einer Sprachtranskription angeben können, müssen Sie noch einen Standardsprachcode im Feld languageCode
festlegen. Außerdem sollten Sie die Anfrage auf so wenig Sprachen wie möglich beschränken. Je weniger alternative Sprachcodes Sie angeben, desto leichter ist es für Speech-to-Text, die richtige Sprache auszuwählen. Das beste Ergebnis wird erzielt, wenn Sie nur eine Sprache angeben.
Spracherkennung in Audiotranskriptionsanfragen aktivieren
Wenn Sie alternative Sprachen in Ihrer Audiotranskription angeben möchten, müssen Sie das Feld alternativeLanguageCodes
in den RecognitionConfig
-Parametern für die Anfrage auf eine Liste von Sprachcodes festlegen. Speech-to-Text unterstützt alternative Sprachcodes für alle Spracherkennungsmethoden: speech:recognize
, speech:longrunningrecognize
und Streaming.
Lokale Datei verwenden
Protokoll
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
.
Für eine synchrone Spracherkennung senden Sie eine POST
-Anfrage und geben den entsprechenden Anfragetext an. Das folgende Beispiel zeigt eine POST
-Anfrage mit curl
. In diesem Beispiel wird die Google Cloud CLI verwendet, um ein Zugriffstoken zu generieren. Eine Anleitung zur Installation der gcloud CLI finden Sie in der Kurzanleitung.
Im folgenden Beispiel wird gezeigt, wie Sie die Transkription einer Audiodatei anfordern, die gesprochenen Text auf Englisch, Französisch oder Deutsch enthalten kann.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "alternativeLanguageCodes": ["fr-FR", "de-DE"], "model": "command_and_search" }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }' > multi-language.txt
Wenn die Anfrage erfolgreich ist, gibt der Server den HTTP-Statuscode 200 OK
und die Antwort im JSON-Format zurück. Diese Informationen sind in einer Datei namens multi-language.txt
gespeichert.
{ "results": [ { "alternatives": [ { "transcript": "hi I'd like to buy a Chromecast I'm ..." "confidence": 0.9466864 } ], "languageCode": "en-us" }, { "alternatives": [ { "transcript": " let's go with the black one", "confidence": 0.9829583 } ], "languageCode": "en-us" }, ] }
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Java API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Node.js API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Python API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Remote-Datei verwenden
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Java API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Node.js API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Python API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.