Erste Schritte mit von Google bereitgestellten Vorlagen

Google bietet eine Reihe von Open-Source-Vorlagen für Cloud Dataflow. Allgemeine Informationen zu Vorlagen finden Sie auf der Seite Übersicht. Verwenden Sie zuerst die Vorlage WordCount. Sehen Sie sich auch andere von Google bereitgestellte Vorlagen an:

Streamingvorlagen – Vorlagen für die kontinuierliche Verarbeitung von Daten:

Batchvorlagen – Vorlagen für die Bulk-Verarbeitung von Daten:

Hilfsvorlagen

WordCount

Die Vorlage "WordCount" ist eine Batch-Pipeline, die Text aus Cloud Storage liest, die Textzeilen durch Tokenisierung in ihre einzelnen Wörter zerlegt und für jedes Wort eine Häufigkeitszählung durchführt. Weitere Informationen zu WordCount finden Sie unter WordCount-Beispielpipeline.

Vorlagenparameter

Parameter Beschreibung
inputFile Der Pfad der Cloud Storage-Eingabedatei.
output Der Pfad und das Präfix der Cloud Storage-Ausgabedatei.

WordCount-Vorlage ausführen

Console

Mit der Google Cloud Console ausführen.
  1. Rufen Sie in der Cloud Console die Seite "Dataflow" auf.
  2. Zur Seite "Dataflow"
  3. Klicken Sie auf Job aus Vorlage erstellen.
  4. Grafik: Schaltfläche "Job aus Vorlage erstellen" in der Cloud Platform Console
  5. Wählen Sie im Drop-down-Menü Dataflow-Vorlage the WordCount template aus.
  6. Geben Sie einen Jobnamen in das Feld Jobname ein.
  7. Geben Sie Ihre Parameterwerte in die verfügbaren Parameterfelder ein.
  8. Klicken Sie auf Job ausführen.

gcloud

Mit dem gcloud-Befehlszeilentool ausführen.

Zum Ausführen dieser Vorlage benötigen Sie den Cloud Storage-Pfad zur Vorlage:

gs://dataflow-templates/latest/Word_Count

Führen Sie dazu diesen Befehl aus:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
    output=gs://BUCKET_NAME/output/my_output

Dabei gilt:

  • JOB_NAME ist ein Jobname Ihrer Wahl
  • BUCKET_NAME: Der Name Ihres Cloud Storage-Buckets.

API

Ausführung mit der REST API.

Zum Ausführen dieser Vorlage benötigen Sie den Cloud Storage-Pfad zur Vorlage:

gs://dataflow-templates/latest/Word_Count

Zum Ausführen dieser Vorlage mithilfe einer REST API-Anfrage senden Sie eine HTTP-POST-Anfrage mit Ihrer Projekt-ID. Diese Anfrage erfordert eine Autorisierung.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Dabei gilt:

  • PROJECT_ID: Ihre Projekt-ID
  • JOB_NAME ist ein Jobname Ihrer Wahl
  • BUCKET_NAME: Der Name Ihres Cloud Storage-Buckets.