Speech-to-Text

Mit einer API auf Grundlage der AI-Technologien von Google wandeln Sie Gesprochenes treffsicher in Text um

Kostenlos testen
  • action/check_circle_24px Erstellt mit Sketch.

    Inhalte mit passenden Untertiteln transkribieren

  • action/check_circle_24px Erstellt mit Sketch.

    Navigation in Produkten mit Sprachbefehlen optimieren

  • action/check_circle_24px Erstellt mit Sketch.

    Dienst mithilfe von Informationen aus Kundeninteraktionen optimieren

Hervorragende Treffsicherheit

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzwerks zur automatischen Spracherkennung (Automated Speech Recognition, ASR) von Google sind beeindruckend treffsicher.

Globale Reichweite

Mit der Spracherkennung können Sie Nutzer weltweit unterstützen: Es werden mehr als 125 Sprachen und Sprachvarianten erkannt.

Beschleunigte Innovation

Zusammen mit den führenden Technologien von Google Text-to-Speech und Natural Language sind auch Anwendungsfälle wie Sprach-Bots und Sentimentanalyse kein Hindernis.

Sprache in Text umwandeln

Wichtige Features

Sprachanpassung

Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter an und verbessern Sie so die Treffsicherheit beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.

Modelle für Fachgebiete

Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die jeweils für die besonderen Qualitätsanforderungen dieser Situationen optimiert sind. Unser erweitertes Telefonanrufmodell ist beispielsweise auf Audiodaten abgestimmt, die beim Telefonieren entstehen, z. B. Telefonanrufe, die mit einer Abtastrate von 8 kHz aufgenommen wurden.

Spracherkennung per Streaming

Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon in einer Anwendung gestreamt oder in einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage).

Alle Features ansehen

Kunden

Castbox greift bei der Suchfunktion in Podcast-Audiodateien auf Speech-to-Text zurück.
Weiterlesen

Highlights

  • Nutzer können Wörter oder Wortgruppen in Audioinhalten suchen

  • Mehr als 96 % Treffsicherheit bei der Umwandlung von Audioinhalten in Text

  • Durchschnittlich nur 50 Millisekunden Latenz bei Suchanfragen

Branche

  • Technologie

Dokumentation

Grundlagen zu Google Cloud
Spracherkennung – Grundlagen

Lernen Sie die grundlegenden Konzepte in Cloud Speech-to-Text kennen.

Kurzanleitung
Kurzanleitung: gcloud-Tool verwenden

Senden Sie mit dem gcloud-Tool über die Befehlszeile eine Audiotranskriptionsanfrage an Speech-to-Text.

Best Practices
Best Practices

Sehen Sie sich Best Practices zum Transkribieren von Audio mit Speech-to-Text an.

Anleitung
Einführung in ML

Hier finden Sie unter anderem Anleitungen und Codelabls für Speech-to-Text.

Grundlagen zu Google Cloud
Unterstützte Sprachen

Erfahren Sie, welche Sprachen für Speech-to-Text verfügbar sind, und lernen Sie die verschiedenen Features und Erkennungsmodelle kennen.

Anwendungsfälle

Anwendungsfall
Verbesserung des Kundendienstes

Bringen Sie Ihr Kundendienstsystem auf Trab: Ergänzen Sie Ihre Callcenter mit Sprachdialogsystemen (Interactive Voice Response, IVR) und Gesprächen mit Kundendienstmitarbeitern. Die Gesprächsdatenanalyse eröffnet Ihnen zusätzliche Informationen zu den Anrufen und Ihren Kunden. Speech-to-Text und die erweiterten Telefonanrufmodelle haben sich unter anderem bereits als Grundlage der leistungsstarken Google Cloud-Lösung Contact Center AI bewährt.

Diagramm: Besserer Kundendienst durch Contact Center AI mit Spracherkennungstechnologie
Anwendungsfall
Sprachsteuerung aktivieren

Implementieren Sie Sprachbefehle wie "Lautstärke erhöhen" und Sprachsuchen wie "Wie warm ist es gerade in Paris?". Zusammen mit der Text-to-Speech API wird damit die sprachgestützte Bedienung von IoT-Anwendungen möglich.

Diagramm: Workflow der Sprachsteuerung mit der Speech-to-Text API
Anwendungsfall
Multimedia-Inhalte transkribieren

Transkribieren Sie Audio- und Videodaten mit Untertiteln, sodass Sie ein größeres Zielpublikum erreichen und noch dazu den Hörgenuss erhöhen. Streaminginhalte lassen sich in Echtzeit untertiteln. Unser Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Hierbei kommen ML-Technologien zum Einsatz, mit denen auch Videos in YouTube untertitelt werden.

Diagramm: Workflow bei der Transkription von Multimedia-Inhalten

Alle Features

Globales Vokabular Unterstützen Sie Ihre Nutzer weltweit mit der umfangreichen Sprachunterstützung von Speech-to-Text in 125 Sprachen und Sprachvarianten.
Spracherkennung per Streaming Bei der Echtzeit-Spracherkennung verarbeitet die API Audioeingaben, die über das Mikrofon in einer Anwendung gestreamt oder in einer aufgezeichneten Audiodatei gesendet werden (inline oder über Cloud Storage).
Sprachanpassung Passen Sie die Spracherkennung an Ihre besonderen Gegebenheiten an. Geben Sie Hinweise für Fachbegriffe und seltene Wörter an und verbessern Sie so die Treffsicherheit beim Transkribieren bestimmter Wörter oder Wortgruppen. Mithilfe von Klassen können gesprochene Zahlen automatisch in Adressen, Jahresangaben, Geldbeträge und vieles mehr umgewandelt werden.
Multikanal-Erkennung Speech-to-Text kann in Multikanal-Szenarien (z. B. in einer Videokonferenz) mehrere Kanäle erkennen und versieht die Transkripte entsprechend mit Anmerkungen.
Unterdrückung von Nebengeräuschen Speech-to-Text verarbeitet Audioinhalte mit Nebengeräuschen aus unterschiedlichsten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Modelle für Fachgebiete Für die Sprachsteuerung und die Transkription von Telefonanrufen und Videos stehen verschiedene vortrainierte Modelle zur Auswahl, die jeweils für die besonderen Qualitätsanforderungen dieser Situationen optimiert sind. Unser erweitertes Telefonanrufmodell ist beispielsweise auf Audiodaten abgestimmt, die beim Telefonieren entstehen, z. B. Telefonanrufe, die mit einer Abtastrate von 8 kHz aufgenommen wurden.
Inhalte filtern Der Obszönitätenfilter erkennt unangemessene oder unsachgemäße Inhalte in den Audiodaten, und obszöne Wörter werden aus der Textausgabe herausgefiltert.
Automatische Spracherkennung (Beta) Wenn Sie mehrere Sprachen abdecken möchten, können Sie bis zu vier Sprachcodes angeben. Speech-to-Text erkennt dann auch in Situationen mit mehreren Sprachen die jeweils gesprochene Sprache.
Automatische Zeichensetzung (Beta) Speech-to-Text kann die richtigen Satzzeichen in Transkriptionen setzen (z. B. Kommas, Fragezeichen und Punkte).
Sprecherbestimmung (Beta) Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.

Preise

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeiteten Audioinhalten abgerechnet.