Kurzanleitung: gcloud-Tool verwenden

Auf dieser Seite wird beschrieben, wie Sie mit dem gcloud-Tool über die Befehlszeile eine Spracherkennungsanfrage an Speech-to-Text senden.

Speech-to-Text ermöglicht die einfache Einbindung von Google-Spracherkennungstechnologien in Entwickleranwendungen. Sie können Audiodaten an die Speech-to-Text API senden, die dann eine Texttranskription dieser Audiodatei zurückgibt. Weitere Informationen zu diesem Dienst finden Sie unter Spracherkennung – Grundlagen.

Vorbereitung

  1. Melden Sie sich bei Ihrem Google-Konto an.

    Wenn Sie noch kein Konto haben, melden Sie sich hier für ein neues Konto an.

  2. Richten Sie ein Cloud Console-Projekt ein.

    Projekt einrichten

    Führen Sie folgende Schritte per Mausklick aus:

    • Ein Projekt erstellen oder auswählen.
    • Aktivieren Sie die Speech-to-Text API für dieses Projekt.
    • Erstellen Sie ein Dienstkonto.
    • Laden Sie einen privaten Schlüssel als JSON-Datei herunter.

    Sie können diese Ressourcen jederzeit in der Cloud Console aufrufen und verwalten.

  3. Legen Sie für die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS den Pfad der JSON-Datei fest, die Ihren Dienstkontoschlüssel enthält. Diese Variable gilt nur für Ihre aktuelle Shellsitzung. Wenn Sie eine neue Sitzung öffnen, müssen Sie die Variable noch einmal festlegen.

  4. Installieren und initialisieren Sie das Cloud SDK.

Anfrage zur Audiotranskription stellen

Jetzt können Sie mithilfe von Speech-to-Text Audiodateien in Text transkribieren. Mit dem folgenden Codebeispiel können Sie eine recognize-Anfrage an die Speech-to-Text API senden.

Öffnen Sie die Befehlszeilen-Shell und führen Sie den folgenden Befehl aus:

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

Mit diesem Befehl wird Speech-to-Text aufgefordert, die Audiodaten einer FLAC-Datei zu transkribieren, die an einem öffentlich zugänglichen Speicherort gehostet ist.

Wenn die Anfrage erfolgreich ist, gibt der Server eine Antwort im JSON-Format zurück:

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

Das wars! Sie haben Ihre erste Anfrage an Speech-to-Text gesendet.

Wenn Sie eine Fehlermeldung oder eine leere Antwort von Speech-to-Text erhalten, lesen Sie die Informationen unter Fehlerbehebung und die Schritte zur Fehlerminimierung.

Weitere Informationen