Erste Schritte mit von Google bereitgestellten Vorlagen

Google bietet eine Reihe von Open-Source-Vorlagen für Cloud Dataflow. Allgemeine Informationen zu Vorlagen finden Sie auf der Seite Übersicht. Verwenden Sie zum Einstieg die WordCount-Vorlage, die weiter unten beschrieben wird. Sehen Sie sich auch andere von Google bereitgestellte Vorlagen an:

Streamingvorlagen – Vorlagen für die kontinuierliche Verarbeitung von Daten:

Batchvorlagen – Vorlagen für die Bulk-Verarbeitung von Daten:

Hilfsvorlagen

WordCount

Die Vorlage "WordCount" ist eine Batch-Pipeline, die Text aus Cloud Storage liest, die Textzeilen durch Tokenisierung in ihre einzelnen Wörter zerlegt und für jedes Wort eine Häufigkeitszählung durchführt. Weitere Informationen zu WordCount finden Sie unter WordCount-Beispielpipeline.

Vorlagenparameter

Parameter Beschreibung
inputFile Der Cloud Storage-Eingabedateipfad.
output Der Cloud Storage-Ausgabedateipfad und Präfix.

WordCount-Vorlage ausführen

Console

Über die Google Cloud Console ausführen
  1. Rufen Sie in der Cloud Console die Seite "Dataflow" auf.
  2. Zur Seite "Dataflow"
  3. Klicken Sie auf Job aus Vorlage erstellen.
  4. Grafik: Schaltfläche
  5. Wählen Sie im Drop-down-Menü Dataflow-Vorlage the WordCount template aus.
  6. Geben Sie einen Jobnamen in das Feld Jobname ein. Der Jobtitel ist nur gültig, wenn er dem regulären Ausdruck [a-z]([-a-z0-9]{0,38}[a-z0-9])? entspricht.
  7. Geben Sie Ihre Parameterwerte in die verfügbaren Parameterfelder ein.
  8. Klicken Sie auf Job ausführen.

GCLOUD

Über das gcloud-Befehlszeilentool ausführen

Hinweis: Wenn Sie Vorlagen mit dem gcloud-Befehlszeilentool ausführen möchten, benötigen Sie Cloud SDK 138.0.0 oder eine höhere Version.

Wenn Sie diese Vorlage ausführen, benötigen Sie den Cloud Storage-Pfad zur Vorlage:

gs://dataflow-templates/latest/Word_Count

In diesem Beispiel müssen Sie die folgenden Werte ersetzen:

  • Ersetzen Sie JOB_NAME durch einen Jobnamen Ihrer Wahl. Der Jobname ist nur gültig, wenn er dem regulären Ausdruck [a-z]([-a-z0-9]{0,38}[a-z0-9])? entspricht.
  • Ersetzen Sie YOUR_BUCKET_NAME durch den Namen des Cloud Storage-Buckets.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

Über die REST API ausführen

Wenn Sie diese Vorlage ausführen, benötigen Sie den Cloud Storage-Pfad zur Vorlage:

gs://dataflow-templates/latest/Word_Count

Zum Ausführen dieser Vorlage mithilfe einer REST API-Anfrage senden Sie eine HTTP-POST-Anfrage mit Ihrer Projekt-ID. Diese Anfrage erfordert eine Autorisierung.

In diesem Beispiel müssen Sie die folgenden Werte ersetzen:

  • Ersetzen Sie YOUR_PROJECT_ID durch Ihre Projekt-ID.
  • Ersetzen Sie JOB_NAME durch einen Jobnamen Ihrer Wahl. Der Jobname ist nur gültig, wenn er dem regulären Ausdruck [a-z]([-a-z0-9]{0,38}[a-z0-9])? entspricht.
  • Ersetzen Sie YOUR_BUCKET_NAME durch den Namen des Cloud Storage-Buckets.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}