Unterstützte Stimmen

Mit Text-to-Speech werden Audiodaten mit natürlicher, menschlicher Qualität generiert, die wie die Sprache einer echten Person klingen. Geben Sie beim Senden einer Syntheseanfrage zuerst eine Stimme an.

Text-to-Speech bietet eine Vielzahl von Stimmen, die sich nach Sprache, Geschlecht und Akzent unterscheiden. Bei einigen Sprachen gibt es mehrere Optionen. Eine vollständige Liste finden Sie auf der Seite Unterstützte Stimmen. Verwenden Sie das Feld VoiceSelectionParams in Ihrer API-Anfrage, um eine Stimme auszuwählen.

Übersicht

Stimmtyp Geeignet für Startphase Steuerbarkeit Streaming
Chirp 3: HD-Stimmen Conversational Agents
Vorschau - Ja
Chirp HD-Stimmen Conversational Agents
Vorschau - Ja
Studio Zwei Lautsprecher Gruppe Medien: Diskussionen und Interviews

Experimentell - -
Ein Sprecher Person Medien: Erzählung
GA SSML -
Neural2 Allgemeine Zwecke
GA SSML -
Standard Kostengünstig
GA SSML -

Preisangaben

Chirp 3: HD-Stimmen

Chirp 3: HD-Stimmen basieren auf einer Technologie, die Nuancen der menschlichen Intonation erfasst und so Unterhaltungen lebendiger macht. Diese Stimmen sind in acht verschiedenen Stilen in vielen Sprachen verfügbar und eignen sich sowohl für Echtzeit- als auch für Standardanwendungen.

Chirp HD-Stimmen

Chirp HD-Stimmen basieren auf der neuesten Generation unserer generativen KI-Modelle. Mit Chirp HD-Stimmen können Sie für Konversationsanwendungen ansprechendere und empathischere Sprache erstellen. Durch Textstreaming ermöglichen Chirp HD-Stimmen eine Echtzeitkommunikation mit geringer Latenz und unterstützen die in der Tabelle der unterstützten Stimmen aufgeführten Sprachen.

Chatfunktionen


Sprache: en-US-Chirp-HD-F

Weitere Beispiele

Virtuelle Assistenten


Stimme: en-US-Chirp-HD-D

Kundenservice-Chatbots


Stimme: en-US-Chirp-HD-F

Interaktive Bildungsanwendungen


Stimme: en-US-Chirp-HD-O

Vertrieb und Verkaufspräsentationen


Stimme: en-US-Chirp-HD-D

STORY TIME


Stimme: en-US-Chirp-HD-F

Studiostimmen mit mehreren Sprechern

Mit den neuen Studiostimmen für mehrere Sprecher, die auf derselben Technologie wie die Chirp HD-Stimmen basieren, kannst du Diskussionen und Interviews erstellen.


Beispiel: Studio-Stimmen mit mehreren Sprechern

Stimmen in Studioqualität

Stimmen in Studioqualität sind Sprechstimmen, die für das Lesen von Nachrichten und Übertragungen bestimmt sind.


Beispiel: Die Stimme en-US-Studio-O, die Der große Gatsby liest.

Neural2-Stimmen

Die Text-to-Speech API bietet eine Sprachebene namens Neural2. Neural2-Stimmen basieren auf derselben Technologie, die auch zum Erstellen einer benutzerdefinierten Stimme verwendet wird. Mit Neural2 kann jeder die Custom Voice-Technologie verwenden, ohne eine eigene benutzerdefinierte Stimme zu trainieren. Sie sind für globale und regionale Endpunkte verfügbar.


Beispiel: Neural2-Stimme

Standardstimmen

Die von Text-to-Speech angebotenen Stimmen unterscheiden sich in der Sprachsynthesetechnologie, die für das Maschinenmodell der Stimme verwendet wird. Bei der gängigen Sprachtechnologie der parametrischen Sprachausgabe werden zum Generieren von Audiodaten in der Regel Ausgaben mit Signalverarbeitungsalgorithmen – sogenannten Vocodern – übergeben. Viele der in Text-to-Speech verfügbaren Standardstimmen basieren auf einer Variante dieser Technologie.

Nächste Schritte

Eine Anleitung zum Senden einer synthesize-Anfrage finden Sie in den Kurzanleitungen.