Auf dieser Seite wird gezeigt, wie eine kurze Audiodatei mithilfe synchroner Spracherkennung in Text transkribiert wird.
Bei der synchronen Spracherkennung wird der erkannte Text für eine kurze Audiosequenz (unter 60 Sekunden) zurückgegeben. Zur Verarbeitung einer Spracherkennungsanfrage für Audiodaten, die länger als 60 Sekunden sind, verwenden Sie die asynchrone Spracherkennung.
Audioinhalte können direkt aus einer lokalen Datei an Speech-to-Text gesendet werden. Alternativ kann Speech-to-Text in einem Google Cloud Storage-Bucket gespeicherte Audioinhalte verarbeiten. Auf der Seite Kontingente und Limits finden Sie Limits für die Anfragen zur synchronen Spracherkennung.
Synchrone Spracherkennung für eine lokale Datei ausführen
Im Folgenden finden Sie ein Beispiel für eine synchrone Spracherkennung für eine lokale Audiodatei.
REST
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
. Weitere Informationen zum Konfigurieren des Anfragetexts finden Sie in der Referenzdokumentation zu RecognitionConfig.
Der im Anfragetext bereitgestellte Audioinhalt muss base64-codiert sein.
Weitere Informationen zur base64-Codierung erhalten Sie unter base64-Codierung von Audioinhalten. Weitere Informationen zum Feld content
erhalten Sie unter RecognitionAudio.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LANGUAGE_CODE: Der BCP-47-Code der Sprache, die in Ihrem Audioclip gesprochen wird.
- ENCODING: Die Codierung der Audiodaten, die transkribiert werden sollen.
- SAMPLE_RATE_HERTZ: Abtastrate der Audiodaten, die transkribiert werden sollen, in Hertz.
- ENABLE_WORD_TIME_OFFSETS: Aktivieren Sie dieses Feld, wenn Sie möchten, dass Start- und Endzeitverschiebungen (Zeitstempel) für Wörter zurückgegeben werden.
- INPUT_AUDIO: Ein base64-codierter String der Audiodaten, die transkribiert werden sollen.
- PROJECT_ID: die alphanumerische ID Ihres Google Cloud-Projekts.
HTTP-Methode und URL:
POST https://speech.googleapis.com/v1/speech:recognize
JSON-Text anfordern:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Ausführliche Informationen finden Sie unter dem Befehl recognize
.
Verwenden Sie zur Anwendung der Spracherkennung auf eine lokale Datei die Google Cloud-Befehlszeile und übergeben Sie den lokalen Dateipfad der Datei, für die eine Spracherkennung durchgeführt werden soll.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Wenn die Anfrage erfolgreich ist, gibt der Server eine Antwort im JSON-Format zurück:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Go API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Java API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Node.js API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Python API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für Ruby auf.
Synchrone Spracherkennung für eine Remotedatei durchführen
Zur Erleichterung Ihrer Arbeit kann die Speech-to-Text API die synchrone Spracherkennung direkt für eine Audiodatei in Google Cloud Storage ausführen, ohne dass Sie den Inhalt der Audiodatei im Text Ihrer Anfrage senden müssen.
Hier ist ein Beispiel für die Durchführung einer synchronen Spracherkennung für eine Datei in Cloud Storage:
REST
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
. Weitere Informationen zum Konfigurieren des Anfragetexts finden Sie in der Referenzdokumentation zu RecognitionConfig.
Der im Anfragetext bereitgestellte Audioinhalt muss base64-codiert sein.
Weitere Informationen zur base64-Codierung erhalten Sie unter base64-Codierung von Audioinhalten. Weitere Informationen zum Feld content
erhalten Sie unter RecognitionAudio.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LANGUAGE_CODE: Der BCP-47-Code der Sprache, die in Ihrem Audioclip gesprochen wird.
- ENCODING: Die Codierung der Audiodaten, die transkribiert werden sollen.
- SAMPLE_RATE_HERTZ: Abtastrate der Audiodaten, die transkribiert werden sollen, in Hertz.
- ENABLE_WORD_TIME_OFFSETS: Aktivieren Sie dieses Feld, wenn Sie möchten, dass Start- und Endzeitverschiebungen (Zeitstempel) für Wörter zurückgegeben werden.
- STORAGE_BUCKET: Ein Cloud Storage-Bucket.
- INPUT_AUDIO: Die zu transkribierenden Audiodatei.
- PROJECT_ID: die alphanumerische ID Ihres Google Cloud-Projekts.
HTTP-Methode und URL:
POST https://speech.googleapis.com/v1/speech:recognize
JSON-Text anfordern:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Ausführliche Informationen finden Sie unter dem Befehl recognize
.
Verwenden Sie zur Anwendung der Spracherkennung auf eine lokale Datei die Google Cloud-Befehlszeile und übergeben Sie den lokalen Dateipfad der Datei, für die eine Spracherkennung durchgeführt werden soll.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Wenn die Anfrage erfolgreich ist, gibt der Server eine Antwort im JSON-Format zurück:
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Go API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Java API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Node.js API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Python API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für Ruby auf.