Speech-to-Text

Durch maschinelles Lernen unterstützte Spracherkennung

Kostenlos testen

Dokumentation für dieses Produkt ansehen

Leistungsstarke Spracherkennung

Mit der Google Speech-to-Text API können Entwickler Audio in Text umwandeln. Dabei kommen leistungsstarke Modelle neuronaler Netze in einer nutzerfreundlichen API zum Einsatz. Die API erkennt mehr als 120 Sprachen und Sprachvarianten und unterstützt damit Nutzer auf der ganzen Welt. So können Sie zum Beispiel die Sprachsteuerung nutzen, Sprachaufzeichnungen aus Callcentern transkribieren und vieles mehr. Dank der Technologie von Google für maschinelles Lernen können Audioinhalte in Echtzeit oder in aufgezeichneter Form verarbeitet werden.

speech-api-lead

Sprache in Text umwandeln

Durch maschinelles Lernen unterstützt

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzes zur Spracherkennung sind beeindruckend treffsicher. Sie werden im Lauf der Zeit immer besser, denn Google optimiert die interne Spracherkennungstechnologie, die auch in Google-Produkten verwendet wird, kontinuierlich.

Machine Learning

Erkennt über 120 Sprachen und Sprachvarianten

Mit Speech-to-Text können Sie Nutzer auf der ganzen Welt unterstützen. Es werden mehr als 120 Sprachen und Sprachvarianten erkannt. Außerdem können Sie in allen Sprachen unangemessene Inhalte in Textergebnissen herausfiltern.

Sprachauswahl

Erkennt automatisch die gesprochene Sprache

Mit Speech-to-Text lassen sich sprachliche Äußerungen in bis zu vier Sprachen erkennen. Dies eignet sich für die Sprachsuche (z. B. "Wie ist die Temperatur in Paris?") und zum Ausführen von Befehlen (z. B. "Lautstärke erhöhen").

Gesprochene Sprache

Texttranskriptionen kurz- und langformatiger Audioinhalte in Echtzeit

Mit Speech-to-Text können Textergebnisse gestreamt werden, sobald diese in Audiostreams erkannt werden bzw. während der Nutzer spricht. Alternativ kann mit Speech-to-Text eine Datei mit dem erkannten Text von Audioinhalten zurückgegeben werden. Sowohl kurz- als auch langformatige Audioinhalte lassen sich analysieren.

Uhrzeit

Transkribiert automatisch Eigennamen und kontextabhängige Formatierung

Speech-to-Text kommt gut mit gesprochener Sprache zurecht und kann sogar Eigennamen (z. B. von Personen oder Orten) korrekt transkribieren sowie bestimmte Elemente wie Datumsangaben oder Telefonnummern entsprechend formatieren. Google unterstützt mehr als zehnmal so viele Eigennamen, wie Stichworte im umfangreichen Oxford English Dictionary enthalten sind.

Schallwelle

Auswahl erweiterter Modelle passend für Ihren Anwendungsfall

Speech-to-Text beinhaltet mehrere vorkonfigurierte erweiterte Modelle, mit denen Sie die Spracherkennung in Ihrem jeweiligen Anwendungsfall, wie etwa Sprachbefehlen, optimieren können. Unser vordefiniertes Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Es nutzt ML-Technologien, die auch bei der Untertitelung in YouTube eingesetzt werden.

Sprachmodell
Modell Beschreibung
command_and_search Optimal für kurze Abfragen wie Sprachbefehle oder Sprachsuche
phone_call Optimal für Audiodaten, die beispielsweise von einem Telefonanruf stammen. Diese werden normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet.
video Optimal für Audiodaten, die aus einem Video stammen oder mehrere Sprecher enthalten. Idealerweise sind die Audiodaten mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet. Dies ist ein Premium-Modell, das mehr kostet als der Standardpreis.
default Optimal für Audiodaten, die zu keinem spezifischen Audiomodell gehören, zum Beispiel langformatiger Audioinhalt. Idealerweise sollten dies High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet sind.

Features

Sprachanpassung Beta
Stellen Sie eine Liste mit Wörtern oder Ausdrücken bereit, die als "Hinweise" dienen, um bestimmte Wortgruppen in Ihrer Audioeingabe leichter zu erkennen. Mithilfe von Klassen können Sie gesprochene Zahlen je nach Kontext automatisch in Adressen, Jahre, Währungen oder andere Daten umwandeln lassen.
Automatische Spracherkennung
Die automatische Spracherkennung wird von einem neuronalen Deep-Learning-Netz unterstützt. Hiervon profitieren Anwendungen wie die Sprachsuche oder die Transkription.
Globales Vokabular
Erkennt mehr als 120 Sprachen und Sprachvarianten mit einem umfassenden Vokabular.
Unterstützung von Echtzeitstreaming und aufgezeichneten Audioinhalten
Die Audioeingabe kann vom Mikrofon in einer Anwendung gestreamt oder als zuvor aufgezeichnete Audiodatei verschickt werden (inline oder über Google Cloud Storage). Es werden verschiedene Audiocodierungen unterstützt, darunter FLAC, AMR, PCMU und Linear-16.
Automatische Spracherkennung Beta
Wenn Sie mehrere Sprachen abdecken müssen, können Sie jetzt zwei bis vier Sprachcodes angeben. Cloud Speech-to-Text erkennt dann die richtige gesprochene Sprache und stellt das Transkript bereit.
Unterdrückung von Nebengeräuschen
Audioinhalte mit Nebengeräuschen werden in unterschiedlichsten Umgebungen verarbeitet, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Unangemessene Inhalte herausfiltern
Bei einigen Sprachen können unangemessene Inhalte in Textergebnissen herausgefiltert werden.
Automatische Zeichensetzung Beta
Satzzeichen wie Kommas, Fragezeichen und Punkte werden dank maschinellem Lernen korrekt gesetzt.
Modellauswahl
Wählen Sie zur Optimierung Ihres Anwendungsfalls zwischen vier vorkonfigurierten Modellen für Sprachbefehle und -suche, Telefonanrufe, Videotranskription und Standardaufgaben.
Sprecherbestimmung Beta
Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.
Multikanal-Erkennung
Bei Aufzeichnungen mit mehreren Teilnehmern (z. B. Telefonanrufe mit zwei Kanälen oder Videokonferenzen mit vier Kanälen) erkennt Cloud Speech-to-Text jeden Kanal einzeln und annotiert die Transkripte, damit sie der ursprünglichen, realen Reihenfolge entsprechen.

Preise

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeiteten Audioinhalten abgerechnet. Weitere Informationen finden Sie in unserer Preisübersicht.

Feature Standardmodelle (alle Modelle bis auf erweiterte Telefonanrufe und Videos) Premiummodelle (erweiterte Telefonanrufe, Videos)
0 bis 60 Minuten Mehr als 60 bis zu 1 Million Minuten 0 bis 60 Minuten Mehr als 60 bis zu 1 Million Minuten
Spracherkennung (ohne Daten-Logging – Standard) Kostenlos 0,006 $/15 Sekunden* Kostenlos 0,009 $/15 Sekunden*
Spracherkennung (mit optionalem Daten-Logging) Kostenlos 0,004 $/15 Sekunden* Kostenlos 0,006 $/15 Sekunden*

Diese Preise gelten für Anwendungen auf privaten Systemen (z. B. Smartphones, Tablets, Laptops, Computer). Kontaktieren Sie uns, um eine Genehmigung und Preisinformationen für die Nutzung der Speech-to-Text API auf eingebetteten Geräten zu erhalten (z. B. Fahrzeuge, Fernsehgeräte, Haushaltsgeräte oder Lautsprecher).

* Jede Anfrage wird auf die nächsten vollen 15 Sekunden aufgerundet. Wenn Sie zum Beispiel drei separate Anfragen (Standardmodell) mit jeweils 7 Sekunden Audio senden, werden insgesamt 0,018 $ für 45 Sekunden Audio (3 × 15 Sekunden) berechnet. Die Aufrundung auf den nächsten 15-Sekunden-Schritt erfolgt auch bei Bruchteilen von Sekunden. Für 15,14 Sekunden werden z. B. 30 Sekunden in Rechnung gestellt.

Symbol: Load-Balancing

Einige auf dieser Seite erwähnte Produkte oder Features befinden sich in der Betaphase. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

KI-Produkte von Google Cloud entsprechen den hier aufgeführten SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.