Cloud Speech-to-Text

Durch maschinelles Lernen unterstützte Umwandlung von Sprache in Text für kurz- und langformatige Audioinhalte

Kostenlos testen

Leistungsstarke Spracherkennung

Mit Google Cloud Speech-to-Text können Entwickler Audio in Text umwandeln. Dabei kommen leistungsstarke Modelle neuronaler Netze in einer einfach zu bedienenden API zum Einsatz. Diese API erkennt 120 Sprachen und Sprachvarianten und unterstützt damit Nutzer auf der ganzen Welt. So können Sie beispielsweise die Sprachsteuerung nutzen, Sprachaufzeichnungen aus Callcentern transkribieren und vieles mehr. Dank der Technologie von Google für maschinelles Lernen können Audioinhalte in Echtzeit oder in aufgezeichneter Form verarbeitet werden.

speech-api-lead

Jetzt Sprache in Text umwandeln

Wählen Sie eine Sprache aus und klicken Sie auf "Jetzt starten", um etwas aufzuzeichnen.

Durch maschinelles Lernen unterstützt

Die hoch entwickelten Algorithmen des neuronalen Deep-Learning-Netzes zur Spracherkennung haben eine beeindruckende Treffsicherheit. Cloud Speech-to-Text wird im Lauf der Zeit immer besser. Dies liegt daran, dass Google die interne Spracherkennungstechnologie, die auch in Google-Produkten verwendet wird, kontinuierlich optimiert.

Erkennt 120 Sprachen und Sprachvarianten

Mit Cloud Speech-to-Text können Sie Nutzer auf der ganzen Welt unterstützen, da 120 Sprachen und Sprachvarianten erkannt werden. Außerdem können Sie in allen Sprachen unangemessene Inhalte in Textergebnissen herausfiltern.

Erkennt automatisch die gesprochene Sprache

Mit Cloud Speech-to-Text lassen sich sprachliche Äußerungen in bis zu vier Sprachen erkennen. Dies kann für Anwendungsfälle wie Sprachsuche (z. B. "Wie ist die Temperatur in Paris?") und Befehle (z. B. "Lautstärke erhöhen") verwendet werden.

Erzeugt Texttranskriptionen kurz- und langformatiger Audioinhalte in Echtzeit

Cloud Speech-to-Text kann Textergebnisse streamen, sobald diese in Audiostreams erkannt werden bzw. während der Nutzer noch spricht. Außerdem ist Cloud Speech-to-Text in der Lage, erkannten Text aus Audioinhalten zurückzugeben, die in einer Datei gespeichert sind. Sowohl kurz- als auch langformatige Audioinhalte können analysiert werden.

Transkribiert automatisch Eigennamen und kontextabhängige Formatierung

Cloud Speech-to-Text kommt gut mit gesprochener Sprache zurecht und kann Eigennamen (z. B. Sundar Pichai) korrekt transkribieren sowie bestimmte Elemente wie Datumsangaben oder Telefonnummern entsprechend formatieren. Google unterstützt mehr als zehnmal so viele Eigennamen wie Stichworte im umfangreichen Oxford English Dictionary enthalten sind.

Auswahl vorkonfigurierter Modelle passend für Ihren Anwendungsfall

Cloud Speech-to-Text beinhaltet mehrere vorkonfigurierte Spracherkennungsmodelle, die Sie für Ihren jeweiligen Anwendungsfall (z. B. Sprachbefehle) optimieren können. Unser vordefiniertes Videotranskriptionsmodell eignet sich beispielsweise hervorragend für das Indexieren oder Untertiteln von Videos bzw. Audioinhalten mit mehreren Sprechern. Es nutzt ML-Technologien, die auch bei der Untertitelung in YouTube eingesetzt werden.

Modell Beschreibung
command_and_search Optimal für kurze Abfragen wie Sprachbefehle oder Sprachsuche
phone_call Optimal für Audiodaten, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet)
video Optimal für Audiodaten, die aus einem Video stammen oder mehrere Sprecher enthalten. Idealerweise sind die Audiodaten mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet. Dies ist ein Premium-Modell, das mehr kostet als der Standardpreis.
default Optimal für Audiodaten, die zu keinem spezifischen Audiomodell gehören, beispielsweise langformatiger Audioinhalt. Idealerweise sollten dies High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet sind.

Vorteile von Cloud Speech-to-Text

Durch maschinelles Lernen unterstützte Umwandlung von Sprache in Text

Automatische Spracherkennung
Die automatische Spracherkennung wird von einem neuronalen Deep Learning-Netz unterstützt. Hiervon profitieren Anwendungen wie die Sprachsuche oder die Transkription.
Globales Vokabular
Erkennt 120 Sprachen und Sprachvarianten mit einem umfassenden Vokabular.
Formulierungshinweise
Die Spracherkennung kann auf einen bestimmten Kontext zugeschnitten werden, indem Wörter und Formulierungen bereitgestellt werden, die wahrscheinlich gesprochen werden. Dies ist besonders nützlich für das Hinzufügen von benutzerdefinierten Wörtern und Namen zum Vokabular und in Anwendungsfällen mit Sprachsteuerung.
Unterstützung von Echtzeitstreaming und aufgezeichneten Audioinhalten
Die Audioeingabe kann vom Mikrofon in einer Anwendung gestreamt oder als zuvor aufgezeichnete Audiodatei verschickt werden (inline oder über Google Cloud Storage). Es werden verschiedene Audiocodierungen unterstützt, darunter FLAC, AMR, PCMU und Linear-16.
Sprache automatisch erkennen BETA
Wenn Sie Szenarien mit mehreren Sprachen unterstützen müssen, können Sie jetzt zwei bis vier Sprachcodes angeben. Cloud Speech-to-Text erkennt dann die richtige gesprochene Sprache und stellt das Transkript bereit.
Unterdrückung von Nebengeräuschen
Verarbeitet Audioinhalte mit Nebengeräuschen aus verschiedensten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Unangemessene Inhalte herausfiltern
Bei einigen Sprachen können unangemessene Inhalte in Textergebnissen herausgefiltert werden.
Automatische Zeichensetzung BETA
Satzzeichen wie Kommas, Fragezeichen und Punkte werden dank maschinellen Lernens korrekt gesetzt.
Modellauswahl BETA
Sie haben die Wahl zwischen vier vorkonfigurierten Modellen für Standardaufgaben, Sprachbefehle und -suche, Telefonanrufe und Videotranskription.
Sprecherbestimmung BETA
Sie können automatisch ermitteln lassen, von welchem Sprecher in einer Unterhaltung welche Äußerung stammt.
Multikanal-Erkennung BETA
Bei Aufzeichnungen mit mehreren Teilnehmern (z. B. Telefonanrufe mit zwei Kanälen oder Videokonferenzen mit vier Kanälen) erkennt Cloud Speech-to-Text jeden Kanal einzeln und annotiert die Transkripte, damit sie der ursprünglichen, realen Reihenfolge entsprechen.

Cloud Speech-to-Text API – Preise

Leistungsstarke Spracherkennung

Die Verwendung von Cloud Speech-to-Text ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeitetem Audioinhalt abgerechnet. Weitere Informationen finden Sie in unserer Preisübersicht.
Funktion 0 bis 60 Minuten Mehr als 60 bis 1 Million Minuten
Spracherkennung (alle Modelle außer Video) Kostenlos 0,006 $/15 Sekunden*
Video-Spracherkennung 0,006 $ 0,012 $/15 Sekunden*

Diese Preise gelten für Apps bzw. Anwendungen auf privaten Systemen (z. B. Smartphones, Tablets, Laptops, Computer). Kontaktieren Sie uns, um eine Genehmigung und Preisinformationen für die Nutzung der Speech-to-Text API auf eingebetteten Geräten zu erhalten (z. B. Fahrzeuge, Fernsehgeräte, Haushaltsgeräte oder Lautsprecher).

* Jede Anfrage wird auf die nächsten vollen 15 Sekunden aufgerundet. Wenn Sie beispielsweise drei separate Anfragen mit jeweils sieben Sekunden Audio senden, werden insgesamt 0,018 $ für 45 Sekunden Audio (3 × 15 Sekunden) berechnet. Die Aufrundung auf die nächste 15-Sekunden-Stufe erfolgt auch bei Bruchteilen von Sekunden. Für 15,14 Sekunden werden z. B. 30 Sekunden in Rechnung gestellt.

Ein auf dieser Seite erwähntes Produkt oder eine Funktion befindet sich in der Betaphase. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

Feedback geben zu...

Cloud Speech-to-Text API