Die Kosten für Text-to-Speech basieren darauf, wie viele Zeichen pro Monat zur Sprachsynthese an den Dienst gesendet werden. Sie müssen die Abrechnung aktivieren, um Text-to-Speech nutzen zu können. Wenn Ihre Nutzung die pro Monat zulässige Anzahl von kostenlosen Zeichen überschreitet, werden Ihnen automatisch Kosten in Rechnung gestellt. Informationen dazu, wie Sie die Gesamtzahl Ihrer Zeichen im Blick behalten, finden Sie unter Monitoring API nutzen. Der Preis wird pro Zeichen berechnet.
Zu Abrechnungszwecken wird die Gesamtzahl der Zeichen im Eingabestring einschließlich Leerzeichen und Zeilenumbrüche gezählt. Alle Speech Synthesis Markup Language (SSML)-Tags (außer dem <mark>-Tag) werden ebenfalls in die Zeichenanzahl einbezogen.
Die neueste Entwicklung unserer Text-to-Speech-Technologie ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts.
Modell | Limit für kostenlose Nutzung | Preis nach Erreichen des kostenlosen Nutzungslimits |
|---|---|---|
Gemini 2.5 Flash TTS Gemini 2.5 Flash-Lite Preview TTS | Nicht verfügbar | Eingabetokens: 0,50 $ pro 1 Million Texttokens (SKU: 242A-EA16-C1EC) Ausgabetokens: 10,00 $ pro 1 Million Audiotokens* (SKU: 9228-79EF-B162) |
Gemini 2.5 Pro TTS | Nicht verfügbar | Eingabetokens: 1 $ pro 1 Million Texttokens (SKU: 8FF1-7E5B-5BB7) Ausgabetokens: 20 $ pro 1 Million Audiotokens* (SKU: DCF3-CB17-8262) |
* Audio-Tokens entsprechen 25 Tokens pro Sekunde Audio
Dank unserer hochmodernen LLMs bieten unsere neuesten TTS-Modelle ein beispielloses Maß an Realismus und emotionaler Resonanz – und das sofort für jeden Anwendungsfall.
Modell | Limit für kostenlose Nutzung | Preis nach Erreichen des kostenlosen Nutzungslimits |
|---|---|---|
(SKU:F977-2280-6F1B) | 0 bis 1 Million Zeichen | 0,00003 $ pro Zeichen (30 $ pro 1 Million Zeichen) |
(SKU:A247-37D7-C094) | Nicht verfügbar | 0,00006 $ pro Zeichen (60 $ pro 1 Million Zeichen) |
Modell | Limit für kostenlose Nutzung | Preis nach Erreichen des kostenlosen Nutzungslimits |
|---|---|---|
WaveNet-Stimmen (SKU:9D01-5995-B545) | 0 bis 4 Millionen Zeichen | 0,000004$pro Zeichen (4$pro 1 Million Zeichen) |
Stimmen in Studioqualität (sku:84AB-48C0-F9C3) | 0 bis 1 Million Zeichen | 0,00016$pro Zeichen (160$pro 1 Million Zeichen) |
Standard-Stimmen (SKU:9D01-5995-B545) | 0 bis 4 Millionen Zeichen | 0,000004 $ pro Zeichen (4 $ pro 1 Million Zeichen) |
Neural2-Stimmen (SKU:FEBD-04B6-769B) | 0 bis 1 Million Zeichen | 0,000016 $ pro Zeichen (16 $ pro 1 Million Zeichen) |
Polyglot (Preview)-Stimmen (SKU:FEBD-04B6-769B) | 0 bis 1 Million Zeichen | 0,000016 $ pro Zeichen (16 $ pro 1 Million Zeichen) |
Hinweis: Bei WaveNet- und Standardstimmen ist die Anzahl der Zeichen gleich oder kleiner als die Anzahl der im Text dargestellten Byte. Hierbei sind alphanumerische Zeichen, Satzzeichen und Leerräume eingeschlossen. In einigen Zeichensätzen wird mehr als ein Byte für ein Zeichen verwendet. Beispielsweise benötigen japanische (ja-JP) Zeichen in UTF-8 normalerweise jeweils mehr als ein Byte. In diesem Fall werden Ihnen nur die Kosten für ein Zeichen berechnet und nicht für mehrere Byte.
Wenn Sie andere Google Cloud-Ressourcen zusammen mit der Sprachausgabe nutzen, wie beispielsweise Google App Engine-Instanzen, dann werden Ihnen auch die Kosten für die Nutzung dieser Dienste in Rechnung gestellt. Im Preisrechner von Google Cloud können Sie die weiteren Kosten gemäß den aktuellen Preisen ermitteln.