In diesem Dokument wird beschrieben, wie Sie eine Text-to-Speech-Anfrage über die Befehlszeile stellen. Weitere Informationen zu den grundlegenden Konzepten von Text-to-Speech finden Sie unter Grundlagen von Text-to-Speech.
Vorbereitung
Bevor Sie eine Anfrage an die Text-to-Speech API senden können, müssen Sie die folgenden Aktionen ausgeführt haben. Weitere Informationen finden Sie auf der Seite Vorbereitung.
- Text-to-Speech in einem GCP-Projekt aktivieren.
- Die Abrechnung muss für Text-to-Speech aktiviert sein.
- Erstellen Sie mindestens ein Dienstkonten und/oder weisen Sie es Text-to-Speech zu.
- Laden Sie einen Anmeldeinformationsschlüssel für das Dienstkonto herunter.
- Legen Sie Ihre Authentifizierungsumgebungsvariable fest.
Audioinhalte aus Text synthetisieren
Sie können Text in Audioinhalte umwandeln, wenn Sie eine HTTP-POST-Anfrage an den Endpunkt https://texttospeech.googleapis.com/v1/text:synthesize
senden. Geben Sie dazu im Hauptteil des POST-Befehls im Konfigurationsabschnitt voice
die Art der zu synthetisierenden Stimme an, im Abschnitt input
im Feld text
den zu synthetisierenden Text und im Abschnitt audioConfig
die Art der zu erstellenden Audioinhalte.
Führen Sie unten in der Befehlszeile die REST-Anfrage aus, um mithilfe von Text-to-Speech Audioinhalte aus Text zu synthetisieren. Der Befehl ruft mit dem Befehl
gcloud auth application-default print-access-token
ein Autorisierungstoken für die Anfrage ab.HTTP-Methode und URL:
POST https://texttospeech.googleapis.com/v1/text:synthesize
JSON-Text anfordern:
{ "input":{ "text":"Android is a mobile operating system developed by Google, based on the Linux kernel and designed primarily for touchscreen mobile devices such as smartphones and tablets." }, "voice":{ "languageCode":"en-gb", "name":"en-GB-Standard-A", "ssmlGender":"FEMALE" }, "audioConfig":{ "audioEncoding":"MP3" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort erhalten, die ungefähr so aussieht:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Die JSON-Ausgabe für den REST-Befehl enthält die synthetisierten Audioinhalte im Base64-codierten Format. Kopieren Sie den Inhalt des Felds
audioContent
in eine neue Datei mit dem Namensynthesize-output-base64.txt
. Die neue Datei sieht etwa so aus://NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o ... VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV
Decodieren Sie den Inhalt der Datei
synthesize-output-base64.txt
in eine neue Datei mit dem Namensynthesized-audio.mp3
. Informationen zum Decodieren von Base64-codierten Inhalten finden Sie unter Base64-codierte Audioinhalte decodieren.Linux
Kopieren Sie nur die Base64-codierten Inhalte in eine Textdatei.
Decodieren Sie die Datei, die den Quelltext enthält, mit dem Base64-Befehlszeilentool mit dem Flag
-d
:
$ base64 SOURCE_BASE64_TEXT_FILE -d > DESTINATION_AUDIO_FILE
Mac OSX
Kopieren Sie nur die Base64-codierten Inhalte in eine Textdatei.
Decodieren Sie die Datei, die den Quelltext enthält, mit dem base64-Befehlszeilentool:
$ base64 --decode SOURCE_BASE64_TEXT_FILE > DESTINATION_AUDIO_FILE
Windows
Kopieren Sie nur die base64-codierten Inhalte in eine Textdatei.
Decodieren Sie die Datei, die den Quelltext enthält, mit dem Befehl
certutil
.
certutil -decode SOURCE_BASE64_TEXT_FILE DESTINATION_AUDIO_FILE
Geben Sie den Inhalt von
synthesized-audio.mp3
in einer Audioanwendung oder auf einem Audiogerät wieder. Sie können die Dateisynthesized-audio.mp3
auch im Chrome-Browser öffnen, um die Audioinhalte abzuspielen. Gehen Sie hierfür zum Ordner mit der Datei, z. B.file://my_file_path/synthesized-audio.mp3
.
Bereinigen
Löschen Sie das Projekt mit der Cloud Console, wenn Sie es nicht mehr benötigen. Damit vermeiden Sie unnötige Kosten für die Google Cloud Platform.
Nächste Schritte
- Grundlagen der Cloud Text-to-Speech API
- Liste der für synthetische Sprache verfügbaren Stimmen