Speech-to-Text

Mit einer API auf Grundlage der KI-Technologien von Google wandeln Sie Gesprochenes treffsicher in Text um.

  • action/check_circle_24px Erstellt mit Sketch.

    Inhalte in Echtzeit oder aus gespeicherten Dateien transkribieren

  • action/check_circle_24px Erstellt mit Sketch.

    Navigation in Produkten mit Sprachbefehlen optimieren

  • action/check_circle_24px Erstellt mit Sketch.

    Dienst mit Informationen aus Kundeninteraktionen optimieren

Vorteile

Hervorragende Treffsicherheit

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzwerks zur automatischen Spracherkennung (Automated Speech Recognition, ASR) von Google sind beeindruckend treffsicher.

Globale Reichweite

Mit der Spracherkennung können Sie Nutzer weltweit unterstützen: Es werden mehr als 125 Sprachen und Sprachvarianten erkannt.

Flexible Bereitstellung

Stellen Sie Spracherkennung überall bereit, wo sie benötigt wird: In der Cloud über die API oder lokal mit Speech-to-Text On-Prem.

Demo

Sprache in Text umwandeln

In dieser Demo zeigen wir Ihnen, wie Sie mit der Speech-to-Text API die Sprachtranskription ganz einfach in Ihre Anwendungen einbinden können.

Wichtige Features

Wichtige Features

Sprachanpassung

Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter an und verbessern Sie so die Treffsicherheit beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.

Modelle für Fachgebiete

Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die jeweils für die besonderen Qualitätsanforderungen dieser Situationen optimiert sind. Unser erweitertes Telefonanrufmodell ist beispielsweise auf Audiodaten abgestimmt, die beim Telefonieren entstehen, z. B. Telefonanrufe, die mit einer Abtastrate von 8 kHz aufgenommen wurden.

Spracherkennung per Streaming

Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon in einer Anwendung gestreamt oder in einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage).

Speech-to-Text On-Prem

Behalten Sie die volle Kontrolle über Ihre Infrastruktur und geschützte Sprachdaten, wenn Sie die Spracherkennungstechnologie von Google lokal direkt in Ihren eigenen, privaten Rechenzentren nutzen. Unser Vertrieb hilft Ihnen beim Start.

Alle Features ansehen

Kunden

Das ist neu

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.

Dokumentation

Dokumentation

Grundlagen zu Google Cloud
Spracherkennung – Grundlagen

Lernen Sie die grundlegenden Konzepte in Cloud Speech-to-Text kennen.

Kurzanleitung
Kurzanleitung: gcloud-Tool verwenden

Senden Sie mit dem gcloud-Tool über die Befehlszeile eine Audiotranskriptionsanfrage an Speech-to-Text.

Best Practices
Best Practices

Sehen Sie sich Best Practices zum Transkribieren von Audio mit Speech-to-Text an.

Grundlagen zu Google Cloud
Unterstützte Sprachen

Erfahren Sie, welche Sprachen für Speech-to-Text verfügbar sind, und lernen Sie die verschiedenen Features und Erkennungsmodelle kennen.

Grundlagen zu Google Cloud
Speech-to-Text On-Prem

Weitere Informationen zu Speech-to-Text On-Prem, das eine einfache Einbindung der Spracherkennungstechnologie von Google in Ihre lokalen Lösungen ermöglicht.

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Verbesserung des Kundenservice

Bringen Sie Ihr Kundenservicesystem auf Trab: Ergänzen Sie Ihre Callcenter durch Sprachdialogsysteme (Interactive Voice Response, IVR) und Gespräche mit virtuellen Kundenservicemitarbeitern. Die Gesprächsdatenanalyse eröffnet Ihnen zusätzliche Informationen zu den Anrufen und Ihren Kunden. Speech-to-Text und die erweiterten Telefonanrufmodelle haben sich unter anderem bereits als Grundlage der leistungsstarken Google Cloud-Lösung Contact Center AI bewährt.

Workflow: Datenfluss der Audiodaten vom Contact Center AI durch verschiedene Google Cloud-Produkte: Zuerst fließen die Daten zu Cloud Storage, um (1) die Daten mit der Speech-to-Text API zu transkribieren, von dort fließen sie zur Natural Language API, um sie (2) mit Cloud Data Loss Prevention zu analysieren und (3) die personenidentifizierbaren Informationen mit BigQuery zu entfernen. Anschließend fließen die Daten bidirektional von BigQuery zum (4) Speicher und zur (5) Abfrage und Visualisierung mit Visualize Call Data.
Anwendungsfall
Sprachsteuerung aktivieren

Implementieren Sie Sprachbefehle wie „Lautstärke erhöhen“ und Sprachsuchen wie „Wie warm ist es gerade in Paris?“. Zusammen mit der Text-to-Speech API wird damit die sprachgestützte Bedienung von IoT-Anwendungen möglich.

Diagramm: Workflow: Sprachsteuerung mit der Speech-to-Text API. Der Datenfluss startet mit dem (1) Sprachbefehl des Nutzers an das Nutzergerät und fließt dann bidirektional zur (0) eindeutigen sicheren Identifizierung mit Cloud IoT Core und bidirektional zu Cloud Functions zur (2) Transkribierung mit der Speech-to-Text API und zu AutoML Natural Language, um (3) den Intent und die Entität zu extrahieren. Von dort fließen die Daten wieder zu Cloud Functions und zum Gerät des Nutzers.
Anwendungsfall
Multimedia-Inhalte transkribieren

Transkribieren Sie Audio- und Videodaten mit Untertiteln, sodass Sie ein größeres Zielpublikum erreichen und noch dazu den Hörgenuss erhöhen. Streaminginhalte lassen sich in Echtzeit untertiteln. Unser Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Hierbei kommen ML-Technologien zum Einsatz, mit denen auch Videos in YouTube untertitelt werden.

Workflow für Transkription von Multimedia-Content: Eingabeaudiostream wird durch (1) Captioning in Echtzeit zu Google Kubernetes Engine und von dort zur Speech-to-Text API geleitet. Von dort werden die Daten durch die (2) Auswertung der Transkription zur Deep Learning-VM geleitet, anschließend zu Firestore und dann entweder zum Content Moderation-Team oder durch (3) Speichern und Nutzen zum Broadcast-Captioning-Gerät.

Alle Features

Alle Features

Globales Vokabular Unterstützen Sie Ihre Nutzer weltweit mit der umfangreichen Sprachunterstützung von Speech-to-Text in mehr als 125 Sprachen und Sprachvarianten.
Spracherkennung per Streaming Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon in einer Anwendung gestreamt oder in einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage).
Sprachanpassung Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter an und verbessern Sie so die Treffsicherheit beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.
Speech-to-Text On-Prem Sie behalten die volle Kontrolle über Ihre Infrastruktur und geschützten Sprachdaten, wenn Sie die Spracherkennungstechnologie von Google lokal direkt in Ihren eigenen, privaten Rechenzentren nutzen. Unser Vertrieb hilft Ihnen beim Start.
Multikanal-Erkennung Speech-to-Text kann in Multikanal-Szenarien (z. B. in einer Videokonferenz) mehrere Kanäle erkennen und versieht die Transkripte entsprechend mit Anmerkungen.
Unterdrückung von Nebengeräuschen Speech-to-Text verarbeitet Audioinhalte mit Nebengeräuschen aus unterschiedlichsten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Modelle für Fachgebiete Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die jeweils für die besonderen Qualitätsanforderungen dieser Situationen optimiert sind. Unser erweitertes Telefonanrufmodell ist beispielsweise auf Audiodaten abgestimmt, die beim Telefonieren entstehen, z. B. Telefonanrufe, die mit einer Abtastrate von 8 kHz aufgenommen wurden.
Inhalte filtern Der Obszönitätenfilter erkennt unangemessene oder unsachgemäße Inhalte in den Audiodaten. Obszöne Wörter werden aus der Textausgabe herausgefiltert.
Automatische Spracherkennung (Beta) Wenn Sie mehrere Sprachen abdecken möchten, können Sie bis zu vier Sprachcodes angeben. Speech-to-Text erkennt dann auch in Situationen mit mehreren Sprachen die jeweils gesprochene Sprache.
Automatische Zeichensetzung (Beta) Speech-to-Text kann die richtigen Satzzeichen in Transkriptionen setzen (z. B. Kommas, Fragezeichen und Punkte).
Sprecherbestimmung (Beta) Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.

Preise

Preise

Die ersten 60 Minuten von Speech-to-Text können jeden Monat kostenlos verarbeitet werden. Anschließend erfolgt die Abrechnung pro 15 Sekunden Audiomaterial. Die spezifischen Preise hängen vom verwendeten Modell, dem Daten-Logging und der Anzahl der Audiokanäle ab.