Diese Seite wurde von der Cloud Translation API übersetzt.

Unterstützte Stimmen

Mit Text-to-Speech werden Audiodaten mit natürlicher, menschlicher Qualität generiert, die wie die Sprache einer echten Person klingen. Geben Sie beim Senden einer Syntheseanfrage zuerst eine Stimme an.

Text-to-Speech bietet eine Vielzahl von Stimmen, die sich nach Sprache, Geschlecht und Akzent unterscheiden. Bei einigen Sprachen gibt es mehrere Optionen. Eine vollständige Liste finden Sie auf der Seite Unterstützte Stimmen. Verwenden Sie das Feld VoiceSelectionParams in Ihrer API-Anfrage, um eine Stimme auszuwählen.

Übersicht

Stimmtyp		Geeignet für	Startphase	Steuerbarkeit	Streaming
Chirp 3: HD-Stimmen		Conversational Agents	Vorschau	-	Ja
Chirp HD-Stimmen		Conversational Agents	Vorschau	-	Ja
Studio	Zwei Lautsprecher Gruppe	Medien: Diskussionen und Interviews	Experimentell	-	-
Studio	Ein Sprecher Person	Medien: Erzählung	GA	SSML	-
Neural2		Allgemeine Zwecke	GA	SSML	-
Standard		Kostengünstig	GA	SSML	-

Preisangaben

Chirp 3: HD-Stimmen

Chirp 3: HD-Stimmen basieren auf einer Technologie, die Nuancen der menschlichen Intonation erfasst und so Unterhaltungen lebendiger macht. Diese Stimmen sind in acht verschiedenen Stilen in vielen Sprachen verfügbar und eignen sich sowohl für Echtzeit- als auch für Standardanwendungen.

Chirp HD-Stimmen

Chirp HD-Stimmen basieren auf der neuesten Generation unserer generativen KI-Modelle. Mit Chirp HD-Stimmen können Sie für Konversationsanwendungen ansprechendere und empathischere Sprache erstellen. Durch Textstreaming ermöglichen Chirp HD-Stimmen eine Echtzeitkommunikation mit geringer Latenz und unterstützen die in der Tabelle der unterstützten Stimmen aufgeführten Sprachen.

Chatfunktionen

Sprache: en-US-Chirp-HD-F

Weitere Beispiele

Virtuelle Assistenten

Stimme: en-US-Chirp-HD-D

Kundenservice-Chatbots

Stimme: en-US-Chirp-HD-F

Interaktive Bildungsanwendungen

Stimme: en-US-Chirp-HD-O

Vertrieb und Verkaufspräsentationen

Stimme: en-US-Chirp-HD-D

STORY TIME

Stimme: en-US-Chirp-HD-F

Studiostimmen mit mehreren Sprechern

Mit den neuen Studiostimmen für mehrere Sprecher, die auf derselben Technologie wie die Chirp HD-Stimmen basieren, kannst du Diskussionen und Interviews erstellen.

Beispiel: Studio-Stimmen mit mehreren Sprechern

Stimmen in Studioqualität

Stimmen in Studioqualität sind Sprechstimmen, die für das Lesen von Nachrichten und Übertragungen bestimmt sind.

Beispiel: Die Stimme en-US-Studio-O, die Der große Gatsby liest.

Neural2-Stimmen

Die Text-to-Speech API bietet eine Sprachebene namens Neural2. Neural2-Stimmen basieren auf derselben Technologie, die auch zum Erstellen einer benutzerdefinierten Stimme verwendet wird. Mit Neural2 kann jeder die Custom Voice-Technologie verwenden, ohne eine eigene benutzerdefinierte Stimme zu trainieren. Sie sind für globale und regionale Endpunkte verfügbar.

Beispiel: Neural2-Stimme

Standardstimmen

Die von Text-to-Speech angebotenen Stimmen unterscheiden sich in der Sprachsynthesetechnologie, die für das Maschinenmodell der Stimme verwendet wird. Bei der gängigen Sprachtechnologie der parametrischen Sprachausgabe werden zum Generieren von Audiodaten in der Regel Ausgaben mit Signalverarbeitungsalgorithmen – sogenannten Vocodern – übergeben. Viele der in Text-to-Speech verfügbaren Standardstimmen basieren auf einer Variante dieser Technologie.

Nächste Schritte

Eine Anleitung zum Senden einer synthesize-Anfrage finden Sie in den Kurzanleitungen.