Cloud Speech API

Von maschinellem Lernen unterstützte Umwandlung von Sprache in Text

Kostenlos testen Dokumentation ansehen

Leistungsstarke Spracherkennung

Mithilfe der benutzerfreundlichen Google Cloud Speech API können Entwickler gesprochene Wörter in digitalen Text umwandeln. Dabei kommen leistungsstarke neuronale Netzmodelle zum Einsatz. Die API erkennt über 110 Sprachen und Varianten, sodass Ihre Nutzer auf der ganzen Welt davon profitieren können. Die Programmierschnittstelle ermöglicht es, Sprache zu transkribieren, die innerhalb einer Anwendung über das Mikrofon aufgenommen wurde, die Sprachsteuerung zu aktivieren oder Audiodateien zu transkribieren, um nur einige Anwendungsfälle zu nennen. In dem Moment, wo der in der Anfrage hochgeladene Audioinhalt erkannt wird, kann er über Google Cloud Storage in Ihren Audiospeicher integriert werden. Dabei nutzen Sie dieselbe Technologie wie Google bei seinen eigenen Produkten.

speech-api-lead

Durch maschinelles Lernen unterstützt

Wenden Sie die fortgeschrittensten Algorithmen des neuronalen Deep-Learning-Netzes zur Spracherkennung auf die gesprochenen Wörter Ihrer Nutzer an. Die Treffsicherheit der Ergebnisse ist beeindruckend. Die Speech API wird im Laufe der Zeit immer besser. Dies liegt daran, dass Google die interne Spracherkennungstechnologie, die von Google-Produkten verwendet wird, kontinuierlich optimiert.

Über 110 Sprachen

Die Speech API erkennt über 110 Sprachen und Varianten, um Ihre globale Nutzerbasis zu unterstützen. Sie können außerdem unangemessene Inhalte in Textergebnissen ausfiltern.

Textergebnisse in Echtzeit zurückgeben

Die Speech API kann Textergebnisse streamen. Sie brauchen keine fortgeschrittene Signalverarbeitung. Der erkannte Text erscheint dann sofort während des Sprechens. Es besteht auch die Möglichkeit, dass die Speech API erkannten Text aus Audioinhalten zurückgibt, die in einer Datei gespeichert sind.

Treffsicher auch in lauten Umgebungen

Sie brauchen keine zusätzliche Anwendung oder Geräuschunterdrückung einzusetzen, bevor Sie gesprochene Wörter an die Speech API senden. Der Dienst ist in der Lage, Audio mit Störgeräuschen aus unterschiedlichsten Umgebungen zu verarbeiten.

Kontextbasierte Erkennung

Die Spracherkennung kann auf den Kontext zugeschnitten werden, indem mit jedem API-Aufruf eine separate Liste mit Worthinweisen bereitgestellt wird. Dies ist insbesondere bei der Steuerung von Geräten oder Apps hilfreich.

Funktioniert mit Apps auf allen Geräten

Die Speech API unterstützt jedes Gerät, das eine REST- oder gRPC-Anfrage senden kann, darunter Smartphones, PCs, Tablets und IdD-Geräte wie Autos, Fernseher oder Lautsprecher.

Merkmale der Speech API

Von maschinellem Lernen unterstützte Umwandlung von Sprache in Text

Automatische Spracherkennung
Die automatische Spracherkennung wird vom neuronalen Deep-Learning-Netzwerk unterstützt. Hiervon profitieren Anwendungen wie die Sprachsuche oder die Transkription.
Globales Vokabular
Erkennt über 110 Sprachen und Varianten mit einem umfassenden Vokabular.
Streamingerkennung
Gibt erkannte Ergebnisse zurück, noch während der Nutzer spricht.
Worthinweise
Die Spracherkennung kann auf einen bestimmten Kontext zugeschnitten werden, indem Wörter und Formulierungen bereitgestellt werden, die wahrscheinlich gesprochen werden. Dies ist besonders nützlich für das Hinzufügen von benutzerdefinierten Wörtern und Namen zum Vokabular und für die Sprachsteuerung.
Unterstützung von Echtzeit- oder aufgezeichneten Audioinhalten
Die Audioeingabe kann vom Mikrofon einer Anwendung erfasst oder von einer zuvor aufgezeichneten Audiodatei gesendet werden. Es werden mehrere Audiocodierungen unterstützt, darunter FLAC, AMR, PCMU und Linear-16.
Unterdrückung von Nebengeräuschen
Verarbeitet Audioinhalte mit Geräuschen in verschiedensten Umgebungen, ohne dass eine zusätzliche Geräuschunterdrückung notwendig ist.
Unangemessene Inhalten ausfiltern
Bei einigen Sprachen können unangemessene Inhalte in Textergebnissen herausgefiltert werden.
Integrierte API
Audiodateien können in der Anfrage hochgeladen oder in Google Cloud Storage integriert werden.

CLOUD SPEECH API-PREISE

Leistungsstarke Spracherkennung

Die Verwendung der Cloud Speech API ist für die ersten 60 Minuten kostenlos und wird danach pro 15 Sekunden an verarbeitetem Audioinhalt abgerechnet. Weitere Informationen finden Sie in unserer Preisübersicht.

Monatliche Nutzung Preis pro 15 Sekunden*
0–60 Minuten Kostenlos
61–1.000.000 Minuten** 0,006 $
Wenn Sie in einer anderen Währung als USD bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.

* Diese Preise gelten für Anwendungen auf privaten Systemen, z. B. auf Smartphones, Tablets, Laptops oder Desktop-Computern. Kontaktieren Sie uns, um eine Genehmigung und die Preise für die Nutzung der Speech API auf eingebetteten Geräten zu erhalten, z. B. in Autos, Fernsehern, Haushaltsgeräten oder Lautsprechern.

** Monatliche Nutzung auf 1 Million Minuten beschränkt.

Ressourcen unterwegs überwachen

Projekte jetzt einfach in der Google Cloud Console App verwalten.