Schnellstart: Befehlszeile verwenden

In dieser Schnellstartanleitung wird die Cloud Text-to-Speech API vorgestellt. Sie richten darin Ihr Google Cloud Platform-Projekt und die Autorisierung ein und stellen anschließend eine Anfrage an die Text-to-Speech API, um Text in Audioinhalte umzuwandeln.

Weitere Informationen zu den grundlegenden Konzepten der Cloud Text-to-Speech API finden Sie unter Grundlagen der Cloud Text-to-Speech API.

Vorbereitung

  1. Melden Sie sich in Ihrem Google-Konto an.

    Wenn Sie noch kein Konto haben, registrieren Sie sich hier für ein neues Konto.

  2. Wählen Sie in der GCP Console auf der Projektauswahlseite ein GCP-Projekt aus oder erstellen Sie eins.

    Zur Projektauswahl

  3. Prüfen Sie, ob die Abrechnung für Ihr Google Cloud Platform-Projekt aktiviert ist. So bestätigen Sie die Abrechnung für Ihr Projekt.

  4. Aktivieren Sie die Cloud Text-to-Speecherforderlichen.

    API aktivieren

  5. Authentifizierung einrichten:
    1. Wechseln Sie in der GCP Console zur Seite Dienstkontoschlüssel erstellen.

      Zur Seite "Dienstkontoschlüssel erstellen"
    2. Wählen Sie aus der Liste Dienstkonto die Option Neues Dienstkonto aus.
    3. Geben Sie im Feld Dienstkontoname einen Namen ein.
    4. In der Liste Rolle müssen Sie keinen Wert auswählen. Für den Zugriff auf diesen Dienst ist keine Rolle erforderlich.
    5. Klicken Sie auf Erstellen. Daraufhin wird der Hinweis angezeigt, dass für dieses Dienstkonto keine Rolle vorhanden ist.
    6. Klicken Sie auf Ohne Rolle erstellen. Eine JSON-Datei mit Ihrem Schlüssel wird auf Ihren Computer heruntergeladen.
  6. Legen Sie die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf den Pfad der JSON-Datei fest, die Ihren Dienstkontoschlüssel enthält. Diese Variable gilt nur für Ihre aktuelle Shellsitzung. Wenn Sie eine neue Sitzung öffnen, müssen Sie die Variable erneut festlegen.

  7. Installieren und initialisieren Sie das Cloud SDK.

Audioinhalte aus Text synthetisieren

Sie können Text in Audioinhalte umwandeln, wenn Sie eine HTTP-POST-Anfrage an den Endpunkt https://texttospeech.googleapis.com/v1/text:synthesize senden. Geben Sie im Hauptteil des POST-Befehls im Konfigurationsabschnitt voice die Art der zu synthetisierenden Stimme an, im Abschnitt input im Feld text den zu synthetisierenden Text und im Abschnitt audioConfig die Art der zu erstellenden Audioinhalte.

  1. Führen Sie in der Befehlszeile folgenden Code aus, um mit der Text-to-Speech API Audioinhalte aus Text zu synthetisieren. Mit dem Befehl gcloud auth application-default print-access-token rufen Sie ein Autorisierungstoken für die Anfrage ab.

    Die Antwort wird an die Ausgabedatei synthesize-text.txt weitergegeben.

    curl -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
      -H "Content-Type: application/json; charset=utf-8" \
      --data "{
        'input':{
          'text':'Android is a mobile operating system developed by Google,
             based on the Linux kernel and designed primarily for
             touchscreen mobile devices such as smartphones and tablets.'
        },
        'voice':{
          'languageCode':'en-gb',
          'name':'en-GB-Standard-A',
          'ssmlGender':'FEMALE'
        },
        'audioConfig':{
          'audioEncoding':'MP3'
        }
      }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt
    

    Der Inhalt der Datei synthesize-text.txt sieht in etwa so aus:

    {
      "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.."
    }
    
    
  2. Die JSON-Ausgabe für den REST-Befehl enthält die synthetisierten Audioinhalte im Base64-codierten Format. Kopieren Sie den Inhalt des Felds audioContent in eine neue Datei mit dem Namen synthesize-output-base64.txt. Die neue Datei sieht etwa so aus:

    //NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o
    ...
    VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV
    
  3. Decodieren Sie den Inhalt der Datei synthesize-output-base64.txt in eine neue Datei mit dem Namen synthesized-audio.mp3. Informationen zum Decodieren von Base64-codierten Inhalten finden Sie unter Base64-codierte Audioinhalte decodieren.

    base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3
    
  4. Geben Sie die Inhalte von synthesized-audio.mp3 in einer Audioanwendung oder auf einem Audiogerät wieder. Sie können die Datei synthesized-audio.mp3 auch im Chrome-Browser öffnen, um die Audioinhalte abzuspielen. Gehen Sie hierfür zum Ordner mit der Datei, z. B. file://my_file_path/synthesized-audio.mp3.

Bereinigen

Löschen Sie Ihr Projekt mit der GCP Console, wenn Sie es nicht mehr benötigen, um unnötige Google Cloud Platform-Gebühren zu vermeiden.

Weitere Informationen