Kurzanleitung: gcloud-Tool verwenden

Auf dieser Seite wird beschrieben, wie Sie mit dem gcloud-Tool über die Befehlszeile eine Spracherkennungsanfrage an Speech-to-Text senden.

Speech-to-Text ermöglicht die einfache Einbindung von Google-Spracherkennungstechnologien in Entwickleranwendungen. Sie können Audiodaten an die Speech-to-Text API senden, die dann eine Texttranskription dieser Audiodatei zurückgibt. Weitere Informationen zu diesem Dienst finden Sie unter Spracherkennung – Grundlagen.

Vorbereitung

  1. Melden Sie sich bei Ihrem Google-Konto an.

    Wenn Sie noch kein Konto haben, registrieren Sie sich hier für ein neues Konto.

  2. Richten Sie ein Cloud Console-Projekt ein.

    Projekt einrichten

    Führen Sie folgende Schritte per Mausklick aus:

    • Erstellen Sie ein Projekt oder wählen Sie eines aus.
    • Aktivieren Sie die Speech-to-Text API für dieses Projekt.
    • Erstellen Sie ein Dienstkonto.
    • Laden Sie einen privaten Schlüssel als JSON-Datei herunter.

    Sie können diese Ressourcen jederzeit in der Cloud Console aufrufen und verwalten.

  3. Legen Sie die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf den Pfad zur JSON-Datei fest, die Ihren Dienstkontoschlüssel enthält. Diese Variable gilt nur für Ihre aktuelle Shellsitzung. Wenn Sie eine neue Sitzung öffnen, müssen Sie die Variable erneut festlegen.

  4. Installieren und initialisieren Sie das Cloud SDK.

Anfrage zur Audiotranskription stellen

Jetzt können Sie mithilfe von Speech-to-Text Audiodateien in Text transkribieren. Mit dem folgenden Codebeispiel können Sie eine recognize-Anfrage an die Speech-to-Text API senden.

Öffnen Sie die Befehlszeilen-Shell und führen Sie den folgenden Befehl aus:

    gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
        --language-code=en-US
    

Mit diesem Befehl wird Speech-to-Text aufgefordert, die Audiodaten einer FLAC-Datei zu transkribieren, die an einem öffentlich zugänglichen Speicherort gehostet ist.

Wenn die Anfrage erfolgreich ist, gibt der Server eine Antwort im JSON-Format zurück:

    {
      "results": [
        {
          "alternatives": [
            {
              "confidence": 0.9840146,
              "transcript": "how old is the Brooklyn Bridge"
            }
          ]
        }
      ]
    }
    

Das wars! Sie haben Ihre erste Anfrage an Speech-to-Text gesendet.

Wenn Sie einen Fehler oder eine leere Antwort von Speech-to-Text erhalten, sehen Sie sich die Schritte zur Fehlerbehebung und den Artikel zu Fehlermeldungen an.

Weitere Informationen