Cloud Speech-to-Text

Von maschinellem Lernen unterstützte Spracherkennung für kurz- und langformatige Audioinhalte

Kostenlos testen

Leistungsstarke Spracherkennung

Mit Google Cloud Speech-to-Text können Entwickler Sprache in Text umwandeln. Dabei kommen leistungsstarke neuronale Netzwerkmodelle zum Einsatz. Die leicht zu bedienende API erkennt 120 Sprachen und Sprachvarianten, sodass Nutzer auf der ganzen Welt davon profitieren können. So können Sie beispielsweise die Sprachsteuerung nutzen, Sprachaufzeichnungen aus Call Centern transkribieren und vieles mehr. Dank der Technologie von Google für maschinelles Lernen können Audioinhalte in Echtzeit oder in aufgezeichneter Form verarbeitet werden.

speech-api-lead

Gesprochenes jetzt in Text umwandeln

Wählen Sie eine Sprache aus und klicken Sie auf "Jetzt starten", um etwas aufzuzeichnen.

Durch maschinelles Lernen unterstützt

Die hochentwickelten Algorithmen des neuronalen Deep-Learning-Netzes zur Spracherkennung haben eine beeindruckende Treffsicherheit. Cloud Speech-to-Text wird im Lauf der Zeit immer besser. Dies liegt daran, dass Google die interne Spracherkennungstechnologie, die auch von Google-Produkten verwendet wird, kontinuierlich optimiert.

Über 120 Sprachen werden erkannt

Cloud Speech-to-Text erkennt 120 Sprachen und Sprachvarianten, sodass Ihre Nutzer auf der ganzen Welt davon profitieren können. Außerdem können Sie in allen Sprachen unangemessene Inhalte in Textergebnissen herausfiltern.

Transkripte von kurz- und langformatigen Audioinhalten in Echtzeit erzeugen

Cloud Speech-to-Text kann Textergebnisse streamen, sobald diese in Audiostreams erkannt werden bzw. während der Nutzer noch spricht. Außerdem ist Cloud Speech-to-Text in der Lage, erkannten Text aus Audioinhalten zurückzugeben, die in einer Datei gespeichert sind. Sowohl kurz- als auch langformatige Audioinhalte können analysiert werden.

Eigennamen und kontextabhängige Formatierung automatisch transkribieren

Cloud Speech-to-Text kommt gut mit gesprochener Sprache zurecht und kann Eigennamen (z. B. Sundar Pichai) korrekt transkribieren sowie bestimmte Elemente wie Datumsangaben oder Telefonnummern entsprechend formatieren. Google unterstützt mehr als zehnmal so viele Eigennamen wie Wörter im umfangreichen Oxford English Dictionary enthalten sind.

Auswahl vorkonfigurierter Modelle passend für Ihren Anwendungsfall

Cloud Speech-to-Text beinhaltet mehrere vorkonfigurierte Spracherkennungsmodelle, die Sie für Ihren jeweiligen Anwendungsfall (z. B. Sprachbefehle) optimieren können. Unser vordefiniertes Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Es nutzt ML-Technologien, die auch bei der Untertitelung in YouTube eingesetzt werden.

Modell Beschreibung
command_and_search Optimal für kurze Abfragen wie Sprachbefehle oder Sprachsuche
phone_call Optimal für Audiodaten, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet)
video Optimal für Audiodaten, die aus einem Video stammen oder mehrere Sprecher enthalten. Idealerweise werden die Audiodaten mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet. Dies ist ein Premium-Modell, das mehr kostet als der Standardsatz.
default Optimal für Audiodaten, die zu keinem spezifischen Audiomodell gehören, beispielsweise langformatiger Audioinhalt. Idealerweise sollten dies High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet werden.

Vorteile von Cloud Speech-to-Text

Von maschinellem Lernen unterstützte Umwandlung von Sprache in Text

Automatische Spracherkennung
Die automatische Spracherkennung wird vom neuronalen Deep-Learning-Netzwerk unterstützt. Hiervon profitieren Anwendungen wie die Sprachsuche oder die Transkription.
Globales Vokabular
Erkennt 120 Sprachen und Sprachvarianten mit einem umfassenden Vokabular.
Worthinweise
Die Spracherkennung kann auf einen bestimmten Kontext zugeschnitten werden, indem Wörter und Formulierungen bereitgestellt werden, die wahrscheinlich gesprochen werden. Dies ist besonders nützlich für das Hinzufügen von benutzerdefinierten Wörtern und Namen zum Vokabular und für eine Sprachsteuerung.
Unterstützung von Echtzeitstreaming und aufgezeichneten Audioinhalten
Die Audioeingabe kann vom Mikrofon in einer Anwendung gestreamt oder als zuvor aufgezeichnete Audiodatei verschickt werden (inline oder über Google Cloud). Es werden verschiedene Audiocodierungen unterstützt, darunter FLAC, AMR, PCMU und Linear-16.
Unempfindlich gegen Nebengeräusche
Verarbeitet Audioinhalte mit Nebengeräuschen aus verschiedensten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Unangemessene Inhalte ausfiltern
Bei einigen Sprachen können unangemessene Inhalte in Textergebnissen herausgefiltert werden.
Automatische Interpunktion
Setzt dank maschinellem Lernen Satzzeichen wie Kommas, Fragezeichen und Punkte korrekt.
Modellauswahl
Sie haben die Wahl zwischen vier vorkonfigurierten Modellen für Standardaufgaben, Sprachbefehle und Suche, Telefonanrufe und Videotranskription.

Cloud Speech-to-Text API – Preise

Leistungsstarke Spracherkennung

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeitetem Audioinhalt abgerechnet. Weitere Informationen finden Sie in unserer Preisübersicht.

Option 0 bis 60 Minuten Mehr als 60 bis 1 Million Minuten
Spracherkennung (alle Modelle außer Video) Kostenlos 0,006 $/15 Sekunden*
Video-Spracherkennung 0,006 $ 0,012 $/15 Sekunden*

Hinweis: Das Video-Spracherkennungsmodell war bis zum 31. Mai 2018 zu einem Einführungspreis von 0,006 $ pro 15 Sekunden verfügbar.

Wenn Sie in einer anderen Währung als USD bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.

Diese Preise gelten für Anwendungen auf Systemen zur persönlichen Nutzung, z. B. auf Smartphones, Tablets, Laptops oder Desktop-Computern. Kontaktieren Sie uns, um eine Genehmigung und Preisinformationen für die Nutzung der Speech-to-Text API auf eingebetteten Geräten zu erhalten (z. B. Fahrzeuge, Fernsehgeräte, Haushaltsgeräte oder Lautsprecher).

* Jede Anfrage wird auf die nächsten vollen 15 Sekunden aufgerundet. Wenn Sie beispielsweise drei separate Anfragen mit jeweils sieben Sekunden Audio erstellen, werden insgesamt 0,018 $ für 45 Sekunden Audio (3 × 15 Sekunden) berechnet. Die Aufrundung auf die nächste 15-Sekunden-Stufe erfolgt auch bei Bruchteilen von Sekunden. Für 15,14 Sekunden werden z. B. 30 Sekunden in Rechnung gestellt.