In dieser Anleitung wird gezeigt, wie Sie mithilfe von Speech-to-Text die Audiospur einer Videodatei transkribieren.
Audiodateien und -daten können aus vielen verschiedenen Quellen stammen, z. B. von der Mailbox eines Smartphones oder von der Tonspur einer Videodatei.
Speech-to-Text kann eines von mehreren Modellen für maschinelles Lernen verwenden, um Audiodateien so zu transkribieren, dass sie möglichst genau dem ursprünglichen Audiomaterial entsprechen. Sie erhalten bei der Sprachtranskription bessere Ergebnisse, wenn Sie die Quelle dieses Materials angeben. Speech-to-Text kann die Audiodateien dann nämlich mit einem Modell für maschinelles Lernen verarbeiten, das speziell für die Art von Daten trainiert wurde, die in Ihrer Audiodatei enthalten sind.
Lernziel
- Anfrage zur Audiotranskription für eine Videodatei an Speech-to-Text senden
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
- Speech-to-Text
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Hinweise
Diese Anleitung setzt Folgendes voraus:
- Sie haben in der Google Cloud Console ein Speech-to-Text-Projekt eingerichtet.
- Sie haben Ihre Umgebung mit Standardanmeldedaten für Anwendungen in der Google Cloud Console eingerichtet.
- Sie haben die Entwicklungsumgebung für die gewählte Programmiersprache eingerichtet.
- Sie haben die Google Cloud-Clientbibliothek für die gewählte Programmiersprache installiert.
Audiodaten vorbereiten
Bevor Sie Audio aus einem Video transkribieren können, müssen Sie die Daten aus der Videodatei extrahieren. Nachdem Sie die Audiodaten extrahiert haben, müssen Sie sie in einem Cloud Storage-Bucket speichern oder in die base64-Codierung konvertieren.
Audiodaten extrahieren
Sie können ein beliebiges Dateikonvertierungstool verwenden, das Audio- und Videodateien verarbeitet, beispielsweise FFmpeg.
Verwenden Sie das folgende Code-Snippet, um eine Videodatei mithilfe von ffmpeg
in eine Audiodatei zu konvertieren.
ffmpeg -i video-input-file audio-output-file
Audiodaten speichern oder konvertieren
Sie können eine Audiodatei transkribieren, die auf Ihrem lokalen Computer oder in einem Cloud Storage-Bucket gespeichert ist.
Verwenden Sie den folgenden Befehl, um die Audiodatei mit dem gsutil
-Tool in einen vorhandenen Cloud Storage-Bucket hochzuladen.
gsutil cp audio-output-file storage-bucket-uri
Wenn Sie eine lokale Datei verwenden und planen, eine Anfrage mit dem curl
-Tool über die Befehlszeile zu senden, müssen Sie die Audiodatei zuerst in base64-codierte Daten konvertieren.
Verwenden Sie den folgenden Befehl, um eine Audiodatei in eine Textdatei zu konvertieren.
base64 audio-output-file -w 0 > audio-data-text
Transkriptionsanfrage senden
Verwenden Sie den folgenden Code, um eine Transkriptionsanfrage an Speech-to-Text zu senden.
Anfrage mit lokaler Datei
Protokoll
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
.
Für eine synchrone Spracherkennung senden Sie eine POST
-Anfrage und geben den entsprechenden Anfragetext an. Das folgende Beispiel zeigt eine POST
-Anfrage mit curl
. In diesem Beispiel wird die Google Cloud CLI verwendet, um ein Zugriffstoken zu generieren. Eine Anleitung zur Installation der gcloud CLI finden Sie in der Kurzanleitung.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Weitere Informationen zum Konfigurieren des Anfragetexts erhalten Sie in der Referenzdokumentation zu RecognitionConfig
.
Wenn die Anfrage erfolgreich ist, gibt der Server den HTTP-Statuscode 200 OK
und die Antwort im JSON-Format zurück:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Go API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Java API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Node.js API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Python API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für Ruby auf.
Remote-Dateianfrage
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Go API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Java API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Node.js API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken Weitere Informationen finden Sie in der Speech-to-Text Python API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für Ruby auf.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Instanzen löschen
So löschen Sie eine Compute Engine-Instanz:
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Firewallregeln für das Standardnetzwerk löschen
So löschen Sie eine Firewallregel:
- In the Google Cloud console, go to the Firewall page.
- Select the checkbox for the firewall rule that you want to delete.
- To delete the firewall rule, click Delete.
Nächste Schritte
Jetzt testen
Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie einfach ein Konto, um die Leistungsfähigkeit von Speech-to-Text in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
Speech-to-Text kostenlos testen