Die Cloud Speech-to-Text V2 API und Chirp sind jetzt mit einer neuen günstigeren Stufe allgemein verfügbar. Weitere Informationen 
Weiter zu

Speech-to-Text

Mit einer API auf Grundlage der besten KI-Technologien von Google wandeln Sie Gesprochenes treffsicher in Text um.

Neukunden erhalten ein Startguthaben von 300 $ für Speech-to-Text. Alle Kunden können pro Monat 60 Minuten zum Transkribieren und Analysieren von Audioinhalten kostenlos nutzen. Diese Zeit wird nicht mit dem Guthaben verrechnet.

  • Inhalte mit passenden Untertiteln transkribieren

  • Mit Gesprochenem mehr Benutzerfreundlichkeit schaffen

  • Dienste mit Erkenntnissen aus Kundeninteraktionen verbessern

  • Mit unserem konsolenbasierten Tutorial sofort loslegen

Vorteile

Hervorragende Accuracy

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzwerks zur automatischen Spracherkennung (Automated Speech Recognition, ASR) von Google sind beeindruckend treffsicher.

Einfache Modellanpassung

Erstellen und verwalten Sie eigene Ressourcen und experimentieren Sie damit über die Benutzeroberfläche von Speech-to-Text.

Flexible Modellbereitstellung

Stellen Sie automatische Spracherkennung bereit, ganz nach Ihrem Bedarf – mit der API oder lokal mit Speech-to-Text On-Prem.

Demo

Speech-to-Text in Aktion

In dieser Demo zeigen wir Ihnen, wie Sie mit der Speech-to-Text API die Sprachtranskription ganz einfach in Ihre Anwendungen einbinden können.

Wichtige Features

Wichtige Features

Sprachanpassung

Nehmen Sie Anpassungen vor, um die Transkriptionsgenauigkeit für seltene und Domain-spezifische Wörter oder Phrasen zu verbessern. Nutzen Sie Klassen, um gesprochene Zahlen automatisch in Adressen, Jahre, Währungen oder anderes umwandeln zu lassen.

Modelle für spezielle Bereiche

Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die für die besonderen Qualitätsanforderungen im jeweiligen Bereich optimiert sind.

Qualität einfach vergleichen

Experimentieren Sie mithilfe unserer einfach zu verwendenden Benutzeroberfläche mit Ihrem Sprachaudio. Sie können verschiedene Konfigurationen ausprobieren, um die Qualität und Accuracy zu optimieren.

On-Device-Sprachverarbeitung

Führen Sie die Sprachalgorithmen von Google Cloud lokal auf jedem Gerät aus, unabhängig von der Internetverbindung. Geben Sie Nutzern das Versprechen, Sprachdaten nur auf ihrem Gerät zu verarbeiten.

Grundlagenmodell für Speech-to-Text

Erstellen Sie sprachgesteuerte Anwendungen mit Sprachmodellen, die auf Chirp basieren, dem Grundlagenmodell für Speech-to-Text von Google. Das Modell basiert auf Millionen von Stunden an Audiodaten und Milliarden von Sätzen. 

Alle Features ansehen

Dokumentation

Tutorials und Ressourcen für den Einstieg

Tutorial
Speech-to-Text – Tutorials in der Console

Hier erfahren Sie, wie Sie Ihren vorhandenen Anwendungen Speech-to-Text-Funktionen hinzufügen. Mit unserem konsolenbasierten Tutorial können Sie schnell loslegen.

Grundlagen zu Google Cloud
Speech-to-Text – Grundlagen

Lernen Sie die grundlegenden Konzepte in Cloud Speech-to-Text kennen.

Kurzanleitung
Kurzanleitung: Speech-to-Text-UI verwenden

Hier erfahren Sie, wie Sie ein Projekt und eine Autorisierung einrichten, eine Transkription erstellen und optimieren und wie Sie diese Konfiguration in der Console verwenden.

Kurzanleitung
Kurzanleitung: gcloud-Tool verwenden

Senden Sie mit dem gcloud-Tool über die Befehlszeile eine Audiotranskriptionsanfrage an Speech-to-Text.

Best Practice
Best Practices

Sehen Sie sich Best Practices zum Transkribieren von Audio mit Speech-to-Text an.

Tutorial
Einführung in ML

Hier finden Sie unter anderem Anleitungen und Codelabs für Speech-to-Text.

Grundlagen zu Google Cloud
Unterstützte Sprachen

Hier erfahren Sie, welche Sprachen für Speech-to-Text verfügbar sind. Außerdem lernen Sie die verschiedenen Features und Erkennungsmodelle kennen.

Grundlagen zu Google Cloud
Speech-to-Text On-Prem

Weitere Informationen zu Speech-to-Text On-Prem, mit dem sich die Spracherkennung von Google einfach in lokale Lösungen einbinden lässt.

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Verbesserung des Kundenservice

Bringen Sie Ihr Kundenservicesystem auf Trab: Ergänzen Sie Ihre Callcenter durch Sprachdialogsysteme (Interactive Voice Response, IVR) und Gespräche mit virtuellen Kundenservicemitarbeitern. Die Gesprächsdatenanalyse liefert Ihnen zusätzliche Informationen zu den Anrufen und Ihren Kunden. Speech-to-Text und die erweiterten Telefonanrufmodelle haben sich unter anderem bereits als Grundlage der leistungsstarken Google Cloud-Lösung Contact Center AI bewährt.

Workflow des Datenflusses der Audiodaten vom Contact Center durch verschiedene Google Cloud-Produkte. (1) In Cloud Storage werden die Daten mit der Speech-to-Text-API transkribiert. (2) Sie fließen weiter zur Natural Language-API und werden mit Cloud Data Loss Prevention analysiert. (3) Dann werden personenidentifizierbare Informationen mit BigQuery verarbeitet. Anschließend fließen die Daten bidirektional zwischen BigQuery und (4) Speicher zur (5) Abfrage und werden mit Visualize Call Data visualisiert.
Anwendungsfall
Sprachsteuerung aktivieren

Implementieren Sie Sprachbefehle wie „Lautstärke erhöhen“ und Sprachsuchen wie „Wie ist das Wetter in Paris?“. Zusammen mit der Text-to-Speech-API wird damit die sprachgestützte Bedienung von IoT-Anwendungen möglich.

Grafik: Workflow der Sprachsteuerung mit der Speech-to-Text API. Der Datenfluss startet mit dem (1) Sprachbefehl an das Nutzergerät und fließt dann bidirektional zur (0) eindeutigen sicheren Identifizierung mit Cloud IoT Core und bidirektional zu Cloud Functions zur (2) Transkribierung mit der Speech-to-Text-API und zu AutoML Natural Language, um (3) den Intent und die Entität zu extrahieren. Von dort fließen die Daten wieder zu Cloud Functions und zum Nutzergerät.
Anwendungsfall
Multimedia-Inhalte transkribieren

Transkribieren Sie Audio- und Videodaten mit Untertiteln, sodass Sie ein größeres Zielpublikum erreichen und noch dazu den Hörgenuss erhöhen. Streaminginhalte lassen sich in Echtzeit untertiteln. Unser Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Hierbei kommen ML-Technologien zum Einsatz, mit denen auch Videos in YouTube untertitelt werden.

Workflow für Transkription von Multimedia-Content. Eingabeaudiostream wird durch (1) Captioning in Echtzeit zu Google Kubernetes Engine und von dort zur Speech-to-Text-API geleitet. Von dort werden die Daten durch die (2) Auswertung der Transkription zur Deep-Learning-VM geleitet, anschließend zu Firestore und dann entweder zum Team für Inhaltsmoderation oder durch (3) Speichern und Nutzen zum Broadcast-Captioning-Gerät.

Alle Features

Alle Features

Globales Vokabular Bieten Sie Ihren Nutzern weltweit die umfassende Sprachunterstützung von Speech-to-Text in mehr als 125 Sprachen und Sprachvarianten.
Spracherkennung per Streaming Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon einer Anwendung gestreamt oder aus einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage).
Sprachanpassung Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter und verbessern Sie so die Accuracy beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.
Speech-to-Text On-Prem Sie behalten die volle Kontrolle über Ihre Infrastruktur und geschützten Sprachdaten, wenn Sie die Spracherkennung von Google lokal in Ihren eigenen, privaten Rechenzentren nutzen. Unser Vertrieb hilft Ihnen beim Start.
Multikanal-Erkennung In Multichannel-Szenarien (z. B. in einer Videokonferenz) erkennt Speech-to-Text die unterschiedlichen Kanäle und bearbeitet die Transkripte entsprechend, um die Reihenfolge zu bewahren.
Unterdrückung von Nebengeräuschen Speech-to-Text verarbeitet Audioinhalte mit Nebengeräuschen aus unterschiedlichsten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Modelle für spezielle Bereiche Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die für die besonderen Qualitätsanforderungen im jeweiligen Bereich optimiert sind. Unser erweitertes Telefoniemodell ist beispielsweise auf Audioaufnahmen von Telefonaten abgestimmt, wie etwa Aufnahmen mit einer Abtastrate von 8 kHz.
Inhalte filtern Der Obszönitätenfilter erkennt unangemessene oder unsachgemäße Inhalte in den Audiodaten. Vulgäre Sprache wird aus der Textausgabe herausgefiltert.
Transkriptionsbewertung Sie können eigene Sprachdaten hochladen und diese ohne Code transkribieren lassen. Bewerten Sie die Qualität, indem Sie Ihre Konfiguration iterieren.
Automatische Zeichensetzung (Beta) Speech-to-Text kann die richtigen Satzzeichen in Transkriptionen setzen (z. B. Kommas, Fragezeichen und Punkte).
Sprecherbestimmung (Beta) Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.

Preise

Preise

Die Kosten für Speech-to-Text basieren auf der Menge an Audiodaten, die pro Monat vom Dienst erfolgreich verarbeitet wurden, und werden im Sekundentakt abgerechnet.