Auf der Next '21 erhalten Sie einen exklusiven Einblick in die neuesten Features von Speech-to-Text.Kostenlos registrieren

Weiter zu

Speech-to-Text

Mit einer API auf Grundlage der KI-Technologien von Google wandeln Sie Gesprochenes treffsicher in Text um.

  • action/check_circle_24px Erstellt mit Sketch.

    Inhalte mit passenden Untertiteln transkribieren

  • action/check_circle_24px Erstellt mit Sketch.

    Navigation in Produkten mit Sprachbefehlen optimieren

  • action/check_circle_24px Erstellt mit Sketch.

    Dienst mithilfe von Informationen aus Kundeninteraktionen optimieren

Vorteile

Hervorragende Accuracy

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzwerks zur automatischen Spracherkennung (Automated Speech Recognition, ASR) von Google sind beeindruckend treffsicher.

Einfache Modellanpassung

Mit der Speech-to-Text-UI können Sie mit benutzerdefinierten Ressourcen experimentieren und diese erstellen und verwalten.

Flexible Bereitstellung

Stellen Sie Spracherkennung überall bereit, wo sie benötigt wird: In der Cloud über die API oder lokal mit Speech-to-Text On-Prem.

Demo

Speech-to-Text in Aktion

In dieser Demo zeigen wir Ihnen, wie Sie mit der Speech-to-Text API die Sprachtranskription ganz einfach in Ihre Anwendungen einbinden können.

Wichtige Features

Wichtige Features

Sprachanpassung

Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter an und verbessern Sie so die Accuracy beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.

Modelle für Fachgebiete

Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die jeweils für die besonderen Qualitätsanforderungen dieser Situationen optimiert sind. Unser erweitertes Telefonanrufmodell ist beispielsweise auf Audiodaten abgestimmt, die beim Telefonieren entstehen, z. B. Telefonanrufe, die mit einer Abtastrate von 8 kHz aufgenommen wurden.

Qualität einfach vergleichen

Experimentieren Sie mithilfe unserer einfach zu verwendenden Benutzeroberfläche mit Ihrem Sprachaudio. Sie können verschiedene Konfigurationen ausprobieren, um die Qualität und Genauigkeit zu optimieren.

Speech-to-Text On-Prem

Sie behalten die volle Kontrolle über Ihre Infrastruktur und geschützten Sprachdaten, wenn Sie die Spracherkennungstechnologie von Google lokal direkt in Ihren eigenen, privaten Rechenzentren nutzen. Unser Vertrieb hilft Ihnen beim Start.

Alle Features ansehen

Das ist neu

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an. So werden Sie regelmäßig über Neuigkeiten zu Produkten, Veranstaltungen, Sonderangebote und weitere aktuelle Themen informiert.

Dokumentation

Dokumentation

Grundlagen zu Google Cloud
Speech-to-Text – Grundlagen

Lernen Sie die grundlegenden Konzepte in Cloud Speech-to-Text kennen.

Kurzanleitung
Kurzanleitung: Speech-to-Text-UI verwenden

Hier erfahren Sie, wie Sie ein Projekt und eine Autorisierung einrichten, eine Transkription erstellen und optimieren und wie Sie diese Konfiguration in der Konsole verwenden.

Kurzanleitung
Kurzanleitung: gcloud-Tool verwenden

Senden Sie mit dem gcloud-Tool über die Befehlszeile eine Audiotranskriptionsanfrage an Speech-to-Text.

Best Practice
Best Practices

Sehen Sie sich Best Practices zum Transkribieren von Audio mit Speech-to-Text an.

Tutorial
Einführung in ML

Hier finden Sie unter anderem Anleitungen und Codelabs für Speech-to-Text.

Grundlagen zu Google Cloud
Unterstützte Sprachen

Hier erfahren Sie, welche Sprachen für Speech-to-Text verfügbar sind. Außerdem lernen Sie die verschiedenen Features und Erkennungsmodelle kennen.

Grundlagen zu Google Cloud
Speech-to-Text On-Prem

Weitere Informationen zu Speech-to-Text On-Prem, das eine einfache Einbindung der Spracherkennungstechnologie von Google in Ihre lokalen Lösungen ermöglicht.

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Verbesserung des Kundenservice

Bringen Sie Ihr Kundenservicesystem auf Trab: Ergänzen Sie Ihre Callcenter durch Sprachdialogsysteme (Interactive Voice Response, IVR) und Gespräche mit virtuellen Kundenservicemitarbeitern. Die Gesprächsdatenanalyse liefert Ihnen zusätzliche Informationen zu den Anrufen und Ihren Kunden. Speech-to-Text und die erweiterten Telefonanrufmodelle haben sich unter anderem bereits als Grundlage der leistungsstarken Google Cloud-Lösung Contact Center AI bewährt.

Grafik: Workflow: Datenfluss der Audiodaten vom Contact Center AI durch verschiedene Google Cloud-Produkte: Zuerst fließen die Daten zu Cloud Storage, um (1) die Daten mit der Speech-to-Text API zu transkribieren. Von dort fließen sie zur Natural Language API, um sie (2) mit Cloud Data Loss Prevention zu analysieren und (3) die personenidentifizierbaren Informationen mit BigQuery zu entfernen. Anschließend fließen die Daten bidirektional von BigQuery zum (4) Speicher und zur (5) Abfrage und Visualisierung mit Visualize Call Data.
Anwendungsfall
Sprachsteuerung aktivieren

Implementieren Sie Sprachbefehle wie „Lautstärke erhöhen“ und Sprachsuchen wie „Wie warm ist es gerade in Paris?“. Zusammen mit der Text-to-Speech API wird damit die sprachgestützte Bedienung von IoT-Anwendungen möglich.

Grafik: Workflow der Sprachsteuerung mit der Speech-to-Text API. Der Datenfluss startet mit dem (1) Sprachbefehl des Nutzers an das Nutzergerät und fließt dann bidirektional zur (0) eindeutigen sicheren Identifizierung mit Cloud IoT Core und bidirektional zu Cloud Functions zur (2) Transkribierung mit der Speech-to-Text API und zu AutoML Natural Language, um (3) den Intent und die Entität zu extrahieren. Von dort fließen die Daten wieder zu Cloud Functions und zum Gerät des Nutzers.
Anwendungsfall
Multimedia-Inhalte transkribieren

Transkribieren Sie Audio- und Videodaten mit Untertiteln, sodass Sie ein größeres Zielpublikum erreichen und noch dazu den Hörgenuss erhöhen. Streaminginhalte lassen sich in Echtzeit untertiteln. Unser Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Hierbei kommen ML-Technologien zum Einsatz, mit denen auch Videos in YouTube untertitelt werden.

Grafik: Workflow für Transkription von Multimedia-Content: Eingabeaudiostream wird durch (1) Captioning in Echtzeit zu Google Kubernetes Engine und von dort zur Speech-to-Text API geleitet. Von dort werden die Daten durch die (2) Auswertung der Transkription zur Deep-Learning-VM geleitet, anschließend zu Firestore und dann entweder zum Team für Inhaltsmoderation oder durch (3) Speichern und Nutzen zum Broadcast-Captioning-Gerät.

Alle Features

Alle Features

Globales Vokabular Unterstützen Sie Ihre Nutzer weltweit mit der umfangreichen Sprachunterstützung von Speech-to-Text in mehr als 125 Sprachen und Sprachvarianten.
Spracherkennung per Streaming Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon in einer Anwendung gestreamt oder in einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage).
Sprachanpassung Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter an und verbessern Sie so die Accuracy beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.
Speech-to-Text On-Prem Sie behalten die volle Kontrolle über Ihre Infrastruktur und geschützten Sprachdaten, wenn Sie die Spracherkennungstechnologie von Google lokal direkt in Ihren eigenen, privaten Rechenzentren nutzen. Unser Vertrieb hilft Ihnen beim Start.
Multikanal-Erkennung Speech-to-Text kann in Multikanal-Szenarien (z. B. in einer Videokonferenz) mehrere Kanäle erkennen und versieht die Transkripte entsprechend mit Anmerkungen.
Unterdrückung von Nebengeräuschen Speech-to-Text verarbeitet Audioinhalte mit Nebengeräuschen aus unterschiedlichsten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Modelle für Fachgebiete Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die jeweils für die besonderen Qualitätsanforderungen dieser Situationen optimiert sind. Unser erweitertes Telefonanrufmodell ist beispielsweise auf Audiodaten abgestimmt, die beim Telefonieren entstehen, z. B. Telefonanrufe, die mit einer Abtastrate von 8 kHz aufgenommen wurden.
Inhalte filtern Der Obszönitätenfilter erkennt unangemessene oder unsachgemäße Inhalte in den Audiodaten. Obszöne Wörter werden aus der Textausgabe herausgefiltert.
Transkriptionsbewertung Sie können eigene Sprachdaten hochladen und diese ohne Code transkribieren lassen. Sie können die Qualität bewerten, indem Sie Ihre Konfiguration iterieren.
Automatische Zeichensetzung (Beta) Speech-to-Text kann die richtigen Satzzeichen in Transkriptionen setzen (z. B. Kommas, Fragezeichen und Punkte).
Sprecherbestimmung (Beta) Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.

Preise

Preise

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeiteten Audioinhalten abgerechnet.