Auf dieser Seite wird beschrieben, wie Sie ein Geräteprofil für Audioinhalte auswählen, die mit Text-to-Speech erstellt wurden.
Sie können die von Text-to-Speech generierte synthetische Sprache für die Wiedergabe auf verschiedenen Hardwaretypen optimieren. Wenn Ihre Anwendung beispielsweise hauptsächlich auf kleineren, am Körper tragbaren Gerätetypen ausgeführt wird, können Sie über die Text-to-Speech API synthetische Sprache erstellen, die speziell für kleinere Lautsprecher optimiert ist.
Sie können auch mehrere Geräteprofile auf dieselbe synthetische Sprache anwenden. In der Text-to-Speech API werden Geräteprofile in jener Reihenfolge auf die Audioinhalte angewendet, in der sie in der Anfrage an den Endpunkt text:synthesize
angegeben sind. Geben Sie jedes Profil nur einmal an. Das mehrmalige Anwenden eines Profils kann zu unerwünschten Ergebnissen führen.
Die Verwendung von Audioprofilen ist optional. Wenn Sie ein oder mehrere verwenden, wendet Text-to-Speech die Profile auf die Ergebnisse nach der Sprachsynthese an. Wenn Sie kein Audioprofil verwenden, erhalten Sie Ihre Sprachergebnisse ohne Änderungen nach der Synthese.
Vergleichen Sie die folgenden beiden Clips, um den Unterschied zwischen Audioinhalten mit verschiedenen Profilen zu hören.
1. Beispiel Mit dem Profil handset-class-device
erstellte Audioinhalte
2. Beispiel Mit dem Profil telephony-class-application
erstellte Audioinhalte
Hinweis: Jedes Audioprofil wurde durch Anpassen verschiedener Audioeffekte für ein bestimmtes Gerät optimiert. Marke und Modell des für die Optimierung des Profils verwendeten Geräts stimmen jedoch nicht unbedingt genau mit den Wiedergabegeräten der Nutzer überein. Möglicherweise müssen Sie mit verschiedenen Profilen experimentieren, um die beste Tonausgabe für Ihre Anwendung zu ermitteln.
Verfügbare Audioprofile
Die folgende Tabelle enthält die IDs und Beispiele der Geräteprofile, die von der Text-to-Speech API verwendet werden können.
Audioprofil-ID | Optimiert für |
---|---|
wearable-class-device |
Smartwatches und andere Wearables, z. B. Apple Watch oder Wear OS-Uhr |
handset-class-device |
Smartphones, z. B. Google Pixel, Samsung Galaxy oder Apple iPhone |
headphone-class-device |
Ohrhörer oder Kopfhörer für die Audiowiedergabe, z. B. Sennheiser-Kopfhörer |
small-bluetooth-speaker-class-device |
Kleine Lautsprecher für zu Hause, z. B. Google Home Mini |
medium-bluetooth-speaker-class-device |
Smart Speaker für zu Hause, z. B. Google Home |
large-home-entertainment-class-device |
Home-Entertainment-Systeme oder Smart-TVs, z. B. Google Home Max oder LG TV |
large-automotive-class-device |
Autolautsprecher |
telephony-class-application |
IVR-Systeme (Interactive Voice Response) |
Audioprofil angeben
Verwenden Sie zum Angeben eines Audioprofils für die Sprachsyntheseanfrage das Feld effectsProfileId
.
Protokoll
Stellen Sie zum Generieren einer Audiodatei eine POST
-Anfrage und geben Sie den entsprechenden Anfragetext ein. Das folgende Beispiel zeigt eine POST
-Anfrage mit curl
. In diesem Beispiel wird mit der Google Cloud CLI ein Zugriffstoken für die Anfrage abgerufen.
Eine Anleitung zur Installation der gcloud CLI finden Sie unter Bei Text-to-Speech authentifizieren.
Im folgenden Beispiel ist zu sehen, wie eine Anfrage an den Endpunkt text:synthesize
gesendet wird.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Bei erfolgreicher Anfrage gibt die Text-to-Speech API in der JSON-Ausgabe die synthetisierten Audioinhalte als Base64-codierte Daten zurück. Die JSON-Ausgabe in der Datei audio-profiles.txt
sieht so aus:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Wenn Sie die Ergebnisse der Cloud Text-to-Speech API als MP3-Audiodatei decodieren möchten, führen Sie den folgenden Befehl aus demselben Verzeichnis wie die Datei audio-profiles.txt
aus.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Text-to-Speech finden Sie unter Text-to-Speech-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Text-to-Speech Go API.
Richten Sie zur Authentifizierung bei Text-to-Speech Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Text-to-Speech finden Sie unter Text-to-Speech-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Text-to-Speech Java API.
Richten Sie zur Authentifizierung bei Text-to-Speech Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Text-to-Speech finden Sie unter Text-to-Speech-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Text-to-Speech Node.js API.
Richten Sie zur Authentifizierung bei Text-to-Speech Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Text-to-Speech finden Sie unter Text-to-Speech-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Text-to-Speech Python API.
Richten Sie zur Authentifizierung bei Text-to-Speech Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Text-to-Speech-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Text-to-Speech-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Text-to-Speech-Referenzdokumentation für Ruby auf.