Speech-to-Text
Mit einer API auf Grundlage der besten KI-Technologien von Google wandeln Sie Gesprochenes treffsicher in Text um.
Neukunden erhalten ein Startguthaben von 300 $ für Speech-to-Text. Alle Kunden können pro Monat 60 Minuten zum Transkribieren und Analysieren von Audioinhalten kostenlos nutzen. Diese Zeit wird nicht mit dem Guthaben verrechnet.
-
Inhalte mit passenden Untertiteln transkribieren
-
Mit Gesprochenem mehr Benutzerfreundlichkeit schaffen
-
Dienste mit Erkenntnissen aus Kundeninteraktionen verbessern
-
Mit unserem konsolenbasierten Tutorial sofort loslegen
Vorteile
Hervorragende Accuracy
Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzwerks zur automatischen Spracherkennung (Automated Speech Recognition, ASR) von Google sind beeindruckend treffsicher.
Einfache Modellanpassung
Erstellen und verwalten Sie eigene Ressourcen und experimentieren Sie damit über die Benutzeroberfläche von Speech-to-Text.
Flexible Modellbereitstellung
Stellen Sie automatische Spracherkennung bereit, ganz nach Ihrem Bedarf – mit der API oder lokal mit Speech-to-Text On-Prem.
Demo
Speech-to-Text in Aktion
In dieser Demo zeigen wir Ihnen, wie Sie mit der Speech-to-Text API die Sprachtranskription ganz einfach in Ihre Anwendungen einbinden können.
Wichtige Features
Wichtige Features
Sprachanpassung
Nehmen Sie Anpassungen vor, um die Transkriptionsgenauigkeit für seltene und Domain-spezifische Wörter oder Phrasen zu verbessern. Nutzen Sie Klassen, um gesprochene Zahlen automatisch in Adressen, Jahre, Währungen oder anderes umwandeln zu lassen.
Modelle für spezielle Bereiche
Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die für die besonderen Qualitätsanforderungen im jeweiligen Bereich optimiert sind.
Qualität einfach vergleichen
Experimentieren Sie mithilfe unserer einfach zu verwendenden Benutzeroberfläche mit Ihrem Sprachaudio. Sie können verschiedene Konfigurationen ausprobieren, um die Qualität und Accuracy zu optimieren.
On-Device-Sprachverarbeitung
Führen Sie die Sprachalgorithmen von Google Cloud lokal auf jedem Gerät aus, unabhängig von der Internetverbindung. Geben Sie Nutzern das Versprechen, Sprachdaten nur auf ihrem Gerät zu verarbeiten.
Grundlagenmodell für Speech-to-Text
Erstellen Sie sprachgesteuerte Anwendungen mit Sprachmodellen, die auf Chirp basieren, dem Grundlagenmodell für Speech-to-Text von Google. Das Modell basiert auf Millionen von Stunden an Audiodaten und Milliarden von Sätzen.
Kunden
Von Kunden lernen, die mit Speech-to-Text Audio- und Sprachlösungen entwickeln
Das ist neu
Das ist neu
Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Produktneuigkeiten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.
Dokumentation
Tutorials und Ressourcen für den Einstieg
Speech-to-Text – Tutorials in der Console
Hier erfahren Sie, wie Sie Ihren vorhandenen Anwendungen Speech-to-Text-Funktionen hinzufügen. Mit unserem konsolenbasierten Tutorial können Sie schnell loslegen.
Speech-to-Text – Grundlagen
Lernen Sie die grundlegenden Konzepte in Cloud Speech-to-Text kennen.
Kurzanleitung: Speech-to-Text-UI verwenden
Hier erfahren Sie, wie Sie ein Projekt und eine Autorisierung einrichten, eine Transkription erstellen und optimieren und wie Sie diese Konfiguration in der Console verwenden.
Kurzanleitung: gcloud-Tool verwenden
Senden Sie mit dem gcloud-Tool über die Befehlszeile eine Audiotranskriptionsanfrage an Speech-to-Text.
Best Practices
Sehen Sie sich Best Practices zum Transkribieren von Audio mit Speech-to-Text an.
Einführung in ML
Hier finden Sie unter anderem Anleitungen und Codelabs für Speech-to-Text.
Unterstützte Sprachen
Hier erfahren Sie, welche Sprachen für Speech-to-Text verfügbar sind. Außerdem lernen Sie die verschiedenen Features und Erkennungsmodelle kennen.
Speech-to-Text On-Prem
Weitere Informationen zu Speech-to-Text On-Prem, mit dem sich die Spracherkennung von Google einfach in lokale Lösungen einbinden lässt.
Anwendungsfälle
Anwendungsfälle
Bringen Sie Ihr Kundenservicesystem auf Trab: Ergänzen Sie Ihre Callcenter durch Sprachdialogsysteme (Interactive Voice Response, IVR) und Gespräche mit virtuellen Kundenservicemitarbeitern. Die Gesprächsdatenanalyse liefert Ihnen zusätzliche Informationen zu den Anrufen und Ihren Kunden. Speech-to-Text und die erweiterten Telefonanrufmodelle haben sich unter anderem bereits als Grundlage der leistungsstarken Google Cloud-Lösung Contact Center AI bewährt.
Implementieren Sie Sprachbefehle wie „Lautstärke erhöhen“ und Sprachsuchen wie „Wie ist das Wetter in Paris?“. Zusammen mit der Text-to-Speech-API wird damit die sprachgestützte Bedienung von IoT-Anwendungen möglich.
Transkribieren Sie Audio- und Videodaten mit Untertiteln, sodass Sie ein größeres Zielpublikum erreichen und noch dazu den Hörgenuss erhöhen. Streaminginhalte lassen sich in Echtzeit untertiteln. Unser Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Hierbei kommen ML-Technologien zum Einsatz, mit denen auch Videos in YouTube untertitelt werden.
Alle Features
Alle Features
Globales Vokabular | Bieten Sie Ihren Nutzern weltweit die umfassende Sprachunterstützung von Speech-to-Text in mehr als 125 Sprachen und Sprachvarianten. |
Spracherkennung per Streaming | Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon einer Anwendung gestreamt oder aus einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage). |
Sprachanpassung | Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter und verbessern Sie so die Accuracy beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden. |
Speech-to-Text On-Prem | Sie behalten die volle Kontrolle über Ihre Infrastruktur und geschützten Sprachdaten, wenn Sie die Spracherkennung von Google lokal in Ihren eigenen, privaten Rechenzentren nutzen. Unser Vertrieb hilft Ihnen beim Start. |
Multikanal-Erkennung | In Multichannel-Szenarien (z. B. in einer Videokonferenz) erkennt Speech-to-Text die unterschiedlichen Kanäle und bearbeitet die Transkripte entsprechend, um die Reihenfolge zu bewahren. |
Unterdrückung von Nebengeräuschen | Speech-to-Text verarbeitet Audioinhalte mit Nebengeräuschen aus unterschiedlichsten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist. |
Modelle für spezielle Bereiche | Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die für die besonderen Qualitätsanforderungen im jeweiligen Bereich optimiert sind. Unser erweitertes Telefoniemodell ist beispielsweise auf Audioaufnahmen von Telefonaten abgestimmt, wie etwa Aufnahmen mit einer Abtastrate von 8 kHz. |
Inhalte filtern | Der Obszönitätenfilter erkennt unangemessene oder unsachgemäße Inhalte in den Audiodaten. Vulgäre Sprache wird aus der Textausgabe herausgefiltert. |
Transkriptionsbewertung | Sie können eigene Sprachdaten hochladen und diese ohne Code transkribieren lassen. Bewerten Sie die Qualität, indem Sie Ihre Konfiguration iterieren. |
Automatische Zeichensetzung (Beta) | Speech-to-Text kann die richtigen Satzzeichen in Transkriptionen setzen (z. B. Kommas, Fragezeichen und Punkte). |
Sprecherbestimmung (Beta) | Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt. |
Preise
Preise
Die Kosten für Speech-to-Text basieren auf der Menge an Audiodaten, die pro Monat vom Dienst erfolgreich verarbeitet wurden, und werden im Sekundentakt abgerechnet.