Kontingente und Limits

In diesem Dokument sind die aktuell gültigen Einschränkungen und Nutzungslimits für die Speech-to-Text API aufgeführt. Bei Änderungen der Einschränkungen und Nutzungslimits wird die Seite entsprechend aktualisiert. Wir behalten uns das Recht vor, diese Limits zu ändern.

Sie können gegebenenfalls eine Kontingenterhöhung anfordern. Weitere Informationen zum Anzeigen und Verwalten Ihres Kontingents finden Sie auf der Seite „Kontingente“ von Google Cloud.

Wenn Sie Ihre Anfrage eingereicht haben, bittet Google Sie möglicherweise um weitere Informationen und teilt Ihnen mit, ob Ihre Anfrage erfolgreich war.

Limit für Inhalte

Synchrone Anfragen

Synchrone Erkennungsanfragen (mit der Methode Recognize) akzeptieren Audiodaten entweder inline im Feld content der Anfrage oder als Cloud Storage-URI im Feld uri der Anfrage. Audiodaten, die an eine synchrone Anfrage gesendet werden, sind auf 10 MB oder eine Minute Audiolänge beschränkt (je nachdem, was zuerst erreicht wird). Weitere Informationen zur synchronen Erkennung finden Sie unter Synchrone Erkennung.

Streaminganfragen

Anfragen zur Streamingerkennung (mit der Methode StreamingRecognize) akzeptieren Inline-Audio nur im Feld audio der Anfrage. Jede Anfrage im Stream ist auf 25 KB Audio beschränkt. Ein Stream kann bis zu 5 Minuten lang geöffnet bleiben und die Audiodaten müssen mit einer Rate gesendet werden, die ungefähr Echtzeit entspricht. Falls Sie Inhalte länger als 5 Minuten streamen müssen, lesen Sie die Anleitung für Endlos-Streaming. Weitere Informationen zur Streamingerkennung finden Sie in der Übersicht zur Streamingerkennung.

Batchanfragen

Batcherkennungsanfragen (mit der Methode BatchRecognize) akzeptieren die Audiodaten nur als Cloud Storage-URI im Feld uri der Anfrage. Jede BatchRecognizeRequest-Anfrage kann bis zu 15 files zum Transkribieren enthalten. Jede Datei kann eine Dauer von bis zu acht Stunden haben. Weitere Informationen zur synchronen Erkennung finden Sie unter Batcherkennung.

Erkennung bei mehreren Sprachen

Spracherkennung für mehrere Sprachen ist nur an den globalen Speech-to-Text-Endpunkten und an denen in den USA und in der EU verfügbar.

Anpassung

Zusammen mit einer Anfrage können Sie auch PhraseSet- und CustomClass-Ressourcenbereitstellen. Für diese Ressourcen gelten die folgenden Limits:

Limit für die Sprachanpassung Wert
Maximal zulässiger Wert für Wortgruppe 20
Wortgruppen in einem PhraseSet 1.200
Wortgruppen pro Anfrage 5.000
Zeichen pro Wortgruppe 100
Gesamtzeichen pro Anfrage 100.000
Maximale Anzahl an Elementen in einer CustomClass 500
Maximale Anzahl von Zeichen pro CustomClass-Element 500
Maximale Anzahl von PhraseSets pro SpeechAdaptation 20
Maximale Anzahl von CustomClasses pro SpeechAdaptation 20

Ressourcenlimits

Für Text-to-Speech gelten aktuell die folgenden API-Ressourcen-Limits (Änderungen vorbehalten):

Art des Limits Nutzungslimit
Anzahl der Erkennungssysteme (pro Region) 5.000
Anzahl benutzerdefinierter Klassen (pro Region) 5.000
Anzahl der Wortgruppen (pro Region) 5.000

Anfragelimits

Für Text-to-Speech gelten aktuell die folgenden API-Nutzungslimits (Änderungen vorbehalten):

Art des Limits Nutzungslimit
Ressourcenanforderungen pro 60 Sekunden (pro Region) \ 100
Vorgangsanfragen pro 60 Sekunden (pro Region) \ 150
Synchrone Erkennungsanfragen pro 60 Sekunden (pro Region) \ 300
Anfragen für Streamingerkennung pro 60 Sekunden (pro Region) * 3.000
Streamingerkennungssitzungen pro 5 Minuten (pro Region) * 300
Anfragen für Batch-erkennung pro 60 Sekunden (pro Region) 150

* Die Streamingerkennung hat ein Kontingentlimit von 300 gleichzeitigen Sitzungen pro 5 Minuten und ein Limit von 3.000 Anfragen pro Minute. Dies gilt für alle gleichzeitigen Sitzungen zusammen. Die anfängliche Konfigurations-Anfrage für eine Sitzung wird nicht auf das Anfragekontingent angerechnet.

Diese Limits gelten für alle Speech-to-Text-Entwicklerprojekte sowie für alle Anwendungen und IP-Adressen, die von einem bestimmten Entwicklerprojekt verwendet werden.