Preise

Die Preise für Speech-to-Text werden monatlich auf der Grundlage der vom Dienst erfolgreich verarbeiteten Audiolänge berechnet, wobei die verarbeiteten Mengen auf jeweils 15 Sekunden aufgerundet werden.

Die nachfolgende Preistabelle gilt für Anwendungen auf persönlichen Systemen (z. B. für Smartphones, Tablets, Laptops, Desktop-Computer). Bitte kontaktieren Sie uns, um eine Genehmigung und die Preise für die Nutzung der Speech-to-Text API auf eingebetteten Geräten zu erhalten (z. B. in Fahrzeugen, Fernsehgeräten, Haushaltsgeräten oder Lautsprechern).

Ihren aktuellen Abrechnungsstatus einschließlich der Nutzung und Ihrer aktuellen Rechnung finden Sie in der Cloud Console. Weitere Informationen zur Kontoverwaltung finden Sie in der Dokumentation zu Cloud Billing und unter Support zu Abrechnung und Zahlungen.

Preistabelle

Feature Standardmodelle
(alle Modelle außer erweiterte Videoaufnahmen und Telefonanrufe)
Erweiterte Modelle
(Video, Telefonanruf)
0 bis 60 Minuten Über 60 bis 1 Million Minuten 0 bis 60 Minuten Über 60 bis 1 Million Minuten
Spracherkennung (ohne Daten-Logging – Standard) Kostenlos 0,006 $/15 Sekunden** Kostenlos 0,009 $/15 Sekunden**
Spracherkennung (mit optionalem Daten-Logging) Kostenlos 0,004 $/15 Sekunden** Kostenlos 0,006 $/15 Sekunden**

** Jede Anfrage wird auf die nächsten vollen 15 Sekunden aufgerundet.

Preisfaktoren

Die Preise von Speech-to-Text werden durch die folgenden Faktoren bestimmt:

Erweiterte Modelle

Speech-to-Text bietet mehrere Modelle für maschinelles Lernen, die zur Spracherkennung eingesetzt werden können. Zwei davon (die Modelle für erweiterte Telefonanrufe und Videoaufnahmen) bieten eine verbesserte Erkennungsleistung, die auf ihren jeweiligen Anwendungsbereich zugeschnitten ist und bei korrekter Verwendung Ergebnisse in höherer Qualität liefern kann. Prüfen Sie auf der Seite zu den unterstützten Sprachen, ob erweiterte Modelle in Ihrer Sprache verfügbar sind.

Daten-Logging

Wenn Sie Daten-Logging aktivieren, kann Google die an Speech-to-Text gesendeten Audiodaten aufzeichnen. Damit können wiederum die Modelle für maschinelles Lernen verbessert werden, die zur Sprachtranskription verwendet werden. Kunden, die das Daten-Logging aktivieren, können Speech-to-Text zu einem vergünstigten Preis nutzen.

Mehrere Kanäle

Jeder Audiokanal wird separat abgerechnet. Wenn Sie Anfragen mit mehreren Kanälen senden, erfolgt die Abrechnung anhand der Gesamtlänge der verarbeiteten Audiodaten von allen Kanälen zusammen. Diese zeitbasierte Abrechnung unterscheidet sich von der Erfassung monatlicher Nutzungslimits. Bei Nutzungslimits wird nicht berücksichtigt, ob es mehrere Kanäle gibt, sondern es kommt nur auf die Länge der Audiodatei an. Wenn Sie beispielsweise eine Anfrage mit 30 Sekunden Audiolänge und 4 Kanälen senden, werden Ihnen 120 Sekunden in Rechnung gestellt, aber nur 30 Sekunden zählen für Ihr monatliches Kontingent. Weitere Details finden Sie unter Kontingente und Limits.

Preisberechnungen

Jede Anfrage wird auf die nächsten vollen 15 Sekunden aufgerundet. Wenn Sie beispielsweise drei separate Anfragen mit jeweils sieben Sekunden Audio senden, werden insgesamt 0,018 $ für 45 Sekunden Audio (3 × 15 Sekunden) berechnet. Die Aufrundung auf den nächsten 15-Sekunden-Schritt erfolgt auch bei Bruchteilen von Sekunden. Für 15,14 Sekunden werden z. B. 30 Sekunden in Rechnung gestellt.

Die monatliche Nutzung ist auf 1 Million Minuten beschränkt. Bei einer Nutzung von mehr als 1 Million Minuten Audio monatlich möchten wir gern mehr über Ihren Bedarf erfahren. Senden Sie uns in diesem Fall für Ihr Projekt eine Kontingentanfrage für Speech-to-Text.

Google Cloud Platform-Kosten

Wenn Sie Audiodateien für die Erkennung in Google Cloud Storage speichern oder andere Google Cloud Platform-Ressourcen wie Google App Engine-Instanzen zusammen mit der Speech-to-Text API verwenden, wird Ihnen auch die Nutzung dieser Dienste in Rechnung gestellt. Im Google Cloud Platform-Preisrechner können Sie die weiteren Kosten gemäß den aktuellen Preisen ermitteln.