Cloud Speech-to-Text

Durch maschinelles Lernen unterstützte Spracherkennung

Kostenlos testen

Dokumentation für dieses Produkt ansehen

Leistungsstarke Spracherkennung

Mit Speech-to-Text können Entwickler Audio in Text umwandeln. Dabei kommen leistungsstarke Modelle neuronaler Netze in einer nutzerfreundlichen API zum Einsatz. Die API erkennt 120 Sprachen und Sprachvarianten und unterstützt damit Nutzer auf der ganzen Welt. So können Sie zum Beispiel die Sprachsteuerung nutzen, Sprachaufzeichnungen aus Callcentern transkribieren und vieles mehr. Dank der Technologie von Google für maschinelles Lernen können Audioinhalte in Echtzeit oder in aufgezeichneter Form verarbeitet werden.

speech-api-lead

Sprache in Text umwandeln

Durch maschinelles Lernen unterstützt

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzes zur Spracherkennung sind beeindruckend treffsicher. Sie werden im Lauf der Zeit immer besser, denn Google optimiert die interne Spracherkennungstechnologie, die auch in Google-Produkten verwendet wird, kontinuierlich.

Maschinelles Lernen

Erkennt 120 Sprachen und Sprachvarianten

Mit Cloud Speech-to-Text können Sie Nutzer auf der ganzen Welt unterstützen, weil 120 Sprachen und Sprachvarianten erkannt werden. Außerdem können Sie in allen Sprachen unangemessene Inhalte in Textergebnissen herausfiltern.

Sprachauswahl

Erkennt automatisch die gesprochene Sprache

Mit Cloud Speech-to-Text lassen sich sprachliche Äußerungen in bis zu vier Sprachen erkennen. Die Funktion eignet sich für die Sprachsuche (z. B. "Wie ist die Temperatur in Paris?") und zum Ausführen von Befehlen (z. B. "Lautstärke erhöhen.")

Gesprochene Sprache

Erzeugt Texttranskriptionen kurz- und langformatiger Audioinhalte in Echtzeit

Cloud Speech-to-Text kann Textergebnisse streamen, sobald diese in Audiostreams erkannt werden bzw. während der Nutzer noch spricht. Außerdem ist Cloud Speech-to-Text in der Lage, erkannten Text aus Audioinhalten zurückzugeben, die in einer Datei gespeichert sind. Sowohl kurz- als auch langformatige Audioinhalte können analysiert werden.

Uhrzeit

Transkribiert automatisch Eigennamen und kontextabhängige Formatierung

Cloud Speech-to-Text kommt gut mit gesprochener Sprache zurecht und kann sogar Eigennamen (z. B. von Personen oder Orten) korrekt transkribieren sowie bestimmte Elemente wie Datumsangaben oder Telefonnummern entsprechend formatieren. Google unterstützt mehr als zehnmal so viele Eigennamen, wie Stichworte im umfangreichen Oxford English Dictionary enthalten sind.

Soundwave

Auswahl vorkonfigurierter Modelle passend für Ihren Anwendungsfall

Cloud Speech-to-Text beinhaltet mehrere vorkonfigurierte Spracherkennungsmodelle, die Sie für Ihren jeweiligen Anwendungsfall (z. B. Sprachbefehle) optimieren können. Unser vordefiniertes Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Es nutzt ML-Technologien, die auch bei der Untertitelung in YouTube eingesetzt werden.

Sprachmodell
Model Beschreibung
command_and_search Optimal für kurze Abfragen wie Sprachbefehle oder Sprachsuche
phone_call Optimal für Audiodaten, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet).
Video Optimal für Audiodaten, die aus einem Video stammen oder mehrere Sprecher enthalten. Idealerweise sind die Audiodaten mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet. Dies ist ein Premium-Modell, das mehr kostet als der Standardpreis.
default Optimal für Audiodaten, die zu keinem spezifischen Audiomodell gehören, zum Beispiel langformatiger Audioinhalt. Idealerweise sollten dies High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet sind.

Features

Automatische Spracherkennung
Die automatische Spracherkennung wird von einem neuronalen Deep-Learning-Netz unterstützt. Hiervon profitieren Anwendungen wie die Sprachsuche oder die Transkription.
Globales Vokabular
Erkennt 120 Sprachen und Sprachvarianten mit einem umfassenden Vokabular.
Benutzerdefinierte Spracherkennung
Passen Sie die Spracherkennung manuell an Ihr Unternehmen an. Sie können bis zu 5.000 gängige Wörter oder Ausdrücke (z. B. Produktnamen) angeben. Wandeln Sie außerdem gesprochene Zahlen automatisch in Adressen, Jahre oder Währungen um oder führen Sie je nach Kontext andere Umwandlungen durch.
Unterstützung von Echtzeitstreaming und aufgezeichneten Audioinhalten
Die Audioeingabe kann vom Mikrofon in einer Anwendung gestreamt oder als zuvor aufgezeichnete Audiodatei verschickt werden (inline oder über Google Cloud Storage). Es werden verschiedene Audiocodierungen unterstützt, darunter FLAC, AMR, PCMU und Linear-16.
Automatische Spracherkennung (Beta)
Wenn Sie mehrere Sprachen abdecken müssen, können Sie jetzt zwei bis vier Sprachcodes angeben. Cloud Speech-to-Text erkennt dann die richtige gesprochene Sprache und stellt das Transkript bereit.
Unterdrückung von Nebengeräuschen
Audioinhalte mit Nebengeräuschen werden in unterschiedlichsten Umgebungen verarbeitet, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Unangemessene Inhalte herausfiltern
Bei einigen Sprachen können unangemessene Inhalte in Textergebnissen herausgefiltert werden.
Automatische Zeichensetzung (Beta)
Satzzeichen wie Kommas, Fragezeichen und Punkte werden dank maschinellem Lernen korrekt gesetzt.
Modellauswahl
Sie haben die Wahl zwischen vier vorkonfigurierten Modellen für Standardaufgaben, Sprachbefehle und -suche, Telefonanrufe und Videotranskription.
Sprecherbestimmung (Beta)
Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.
Multikanal-Erkennung
Bei Aufzeichnungen mit mehreren Teilnehmern (z. B. Telefonanrufe mit zwei Kanälen oder Videokonferenzen mit vier Kanälen) erkennt Cloud Speech-to-Text jeden Kanal einzeln und annotiert die Transkripte, damit sie der ursprünglichen, realen Reihenfolge entsprechen.

Preise

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeitetem Audioinhalt abgerechnet. Weitere Informationen finden Sie in unserer Preisübersicht.

Feature Standardmodelle (alle Modelle bis auf erweiterte Telefonanrufe und Video) Premiummodelle* (erweiterte Telefonanrufe, Video)
0 bis 60 Minuten Über 60 bis 1 Million Minuten 0 bis 60 Minuten Über 60 bis 1 Million Minuten
Spracherkennung (ohne Daten-Logging – Standard) Kostenlos 0,006 $/15 Sekunden** Kostenlos 0,009 $/15 Sekunden**
Spracherkennung (mit optionalem Daten-Logging) Kostenlos 0,004 $/15 Sekunden** Kostenlos 0,006 $/15 Sekunden**

Diese Preise gelten für Anwendungen auf privaten Systemen (z. B. Smartphones, Tablets, Laptops, Computer). Kontaktieren Sie uns, um die Nutzung der Cloud Speech-to-Text API in eingebetteten Geräten (z. B. in Autos, Fernsehern, Haushaltsgeräten oder Lautsprechern) genehmigen zu lassen und Informationen zu den Preisen zu erhalten.

* Derzeit nur für US-amerikanisches Englisch verfügbar.

** Jede Anfrage wird auf die nächsten vollen 15 Sekunden aufgerundet. Wenn Sie zum Beispiel drei separate Anfragen (Standardmodell) mit jeweils 7 Sekunden Audio senden, werden insgesamt 0,018 $ für 45 Sekunden Audio (3 × 15 Sekunden) berechnet. Die Aufrundung auf den nächsten 15-Sekunden-Schritt erfolgt auch bei Bruchteilen von Sekunden. Für 15,14 Sekunden werden z. B. 30 Sekunden in Rechnung gestellt.

Load-Balancing-Symbol

Einige auf dieser Seite erwähnte Produkte oder Features befinden sich in der Betaphase. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

Cloud AI-Produkte entsprechen den hier aufgeführten SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.