Mit Text-to-Speech werden Audiodaten mit natürlicher, menschlicher Qualität generiert, die wie die Sprache einer echten Person klingen. Geben Sie beim Senden einer Syntheseanfrage zuerst eine Stimme an.
Text-to-Speech bietet eine Vielzahl von Stimmen, die sich nach Sprache, Geschlecht und Akzent unterscheiden. Bei einigen Sprachen gibt es mehrere Optionen. Eine vollständige Liste finden Sie auf der Seite Unterstützte Stimmen. Verwenden Sie das Feld VoiceSelectionParams
in Ihrer API-Anfrage, um eine Stimme auszuwählen.
Übersicht
Stimmtyp | Geeignet für | Startphase | Steuerbarkeit | Streaming | |
---|---|---|---|---|---|
Chirp 3: HD-Stimmen |
Conversational Agents
|
Vorschau | - | Ja | |
Chirp HD-Stimmen |
Conversational Agents
|
Vorschau | - | Ja | |
Studio | Zwei Lautsprecher Gruppe |
Medien: Diskussionen und Interviews
|
Experimentell | - | - |
Ein Sprecher Person |
Medien: Erzählung
|
GA | SSML | - | |
Neural2 |
Allgemeine Zwecke
|
GA | SSML | - | |
Standard |
Kostengünstig
|
GA | SSML | - |
Chirp 3: HD-Stimmen
Chirp 3: HD-Stimmen basieren auf einer Technologie, die Nuancen der menschlichen Intonation erfasst und so Unterhaltungen lebendiger macht. Diese Stimmen sind in acht verschiedenen Stilen in vielen Sprachen verfügbar und eignen sich sowohl für Echtzeit- als auch für Standardanwendungen.
Chirp HD-Stimmen
Chirp HD-Stimmen basieren auf der neuesten Generation unserer generativen KI-Modelle. Mit Chirp HD-Stimmen können Sie für Konversationsanwendungen ansprechendere und empathischere Sprache erstellen. Durch Textstreaming ermöglichen Chirp HD-Stimmen eine Echtzeitkommunikation mit geringer Latenz und unterstützen die in der Tabelle der unterstützten Stimmen aufgeführten Sprachen.
Chatfunktionen
Sprache: en-US-Chirp-HD-F
Weitere Beispiele
Virtuelle Assistenten
en-US-Chirp-HD-D
Kundenservice-Chatbots
en-US-Chirp-HD-F
Interaktive Bildungsanwendungen
en-US-Chirp-HD-O
Vertrieb und Verkaufspräsentationen
en-US-Chirp-HD-D
STORY TIME
en-US-Chirp-HD-F
Studiostimmen mit mehreren Sprechern
Mit den neuen Studiostimmen für mehrere Sprecher, die auf derselben Technologie wie die Chirp HD-Stimmen basieren, kannst du Diskussionen und Interviews erstellen.
Beispiel: Studio-Stimmen mit mehreren Sprechern
Stimmen in Studioqualität
Stimmen in Studioqualität sind Sprechstimmen, die für das Lesen von Nachrichten und Übertragungen bestimmt sind.
Beispiel: Die Stimme en-US-Studio-O
, die Der große Gatsby liest.
Neural2-Stimmen
Die Text-to-Speech API bietet eine Sprachebene namens Neural2. Neural2-Stimmen basieren auf derselben Technologie, die auch zum Erstellen einer benutzerdefinierten Stimme verwendet wird. Mit Neural2 kann jeder die Custom Voice-Technologie verwenden, ohne eine eigene benutzerdefinierte Stimme zu trainieren. Sie sind für globale und regionale Endpunkte verfügbar.
Beispiel: Neural2-Stimme
Standardstimmen
Die von Text-to-Speech angebotenen Stimmen unterscheiden sich in der Sprachsynthesetechnologie, die für das Maschinenmodell der Stimme verwendet wird. Bei der gängigen Sprachtechnologie der parametrischen Sprachausgabe werden zum Generieren von Audiodaten in der Regel Ausgaben mit Signalverarbeitungsalgorithmen – sogenannten Vocodern – übergeben. Viele der in Text-to-Speech verfügbaren Standardstimmen basieren auf einer Variante dieser Technologie.
Nächste Schritte
Eine Anleitung zum Senden einer synthesize
-Anfrage finden Sie in den Kurzanleitungen.