Schnellstartanleitung: Befehlszeile verwenden

Auf dieser Seite wird gezeigt, wie Sie mithilfe der REST-Schnittstelle und des Befehls curl eine Spracherkennungsanfrage an Speech-to-Text senden.

Speech-to-Text ermöglicht die einfache Einbindung von Google-Spracherkennungstechnologien in Entwickleranwendungen. Sie können Audiodaten an die Speech-to-Text API senden, die dann eine Texttranskription dieser Audiodatei zurückgibt. Weitere Informationen zu diesem Dienst finden Sie unter Spracherkennung – Grundlagen.

Vorbereitung

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Richten Sie ein Cloud Console-Projekt ein.

    Projekt einrichten

    Führen Sie folgende Schritte per Mausklick aus:

    • Ein Projekt erstellen oder auswählen.
    • Aktivieren Sie die Speech-to-Text API für dieses Projekt.
    • Erstellen Sie ein Dienstkonto.
    • Laden Sie einen privaten Schlüssel als JSON-Datei herunter.

    Sie können diese Ressourcen jederzeit in der Cloud Console aufrufen und verwalten.

  3. Legen Sie für die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS den Pfad der JSON-Datei fest, die Ihren Dienstkontoschlüssel enthält. Diese Variable gilt nur für Ihre aktuelle Shellsitzung. Wenn Sie eine neue Sitzung öffnen, müssen Sie die Variable noch einmal festlegen.

  4. Installieren und initialisieren Sie das Cloud SDK.

Anfrage zur Audiotranskription stellen

Jetzt können Sie mithilfe von Speech-to-Text Audiodateien in Text transkribieren. Mit dem folgenden Codebeispiel können Sie eine recognize-REST-Anfrage an die Speech-to-Text API senden.

  1. Erstellen Sie eine JSON-Anfragedatei mit dem folgenden Text und speichern Sie diese als Nur-Text-Datei sync-request.json:

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Aus diesem JSON-Snippet geht hervor, dass die Audiodatei im FLAC-Codierungsformat vorliegt, eine Abtastrate von 16.000 Hz hat und unter dem angegebenen URI in Google Cloud Storage gespeichert ist. Die Audiodatei ist öffentlich zugänglich, sodass Sie für den Zugriff auf die Datei keine Anmeldedaten zur Authentifizierung benötigen.

  2. Erstellen Sie mit curl eine Anfrage vom Typ speech:recognize und übergeben Sie den Dateinamen der JSON-Anfrage, die Sie in Schritt 1 eingerichtet haben:

    Hinweis: Im Beispielbefehl curl wird mit dem Befehl gcloud auth application-default print-access-token ein Authentifizierungstoken abgerufen.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Beachten Sie, dass Sie bei Übergabe eines Dateinamens an curl die Option -d (für "Daten") verwenden und vor den Dateinamen ein @-Zeichen setzen müssen. Diese Datei sollte sich in dem Verzeichnis befinden, in dem Sie den Befehl curl ausführen.

    Die Antwort sieht ungefähr so aus:

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Das wars! Sie haben Ihre erste Anfrage an Speech-to-Text gesendet.

Wenn Sie eine Fehlermeldung oder eine leere Antwort von Speech-to-Text erhalten, lesen Sie die Informationen unter Fehlerbehebung und die Schritte zur Fehlerminimierung.

Weitere Informationen