Pipelines bereitstellen und ausführen

Auf dieser Seite werden die Grundlagen zum Bereitstellen und Ausführen von Pipelines in Cloud Data Fusion beschrieben.

Pipelines implementieren

Wenn Sie mit dem Entwerfen und Debuggen einer Datenpipeline fertig sind und mit sehen Sie die Daten, die Sie in der Vorschau sehen, können Sie die Pipeline bereitstellen.

Wenn Sie die Pipeline bereitstellen, erstellt Cloud Data Fusion Studio die Workflow und entsprechende Apache Spark-Jobs im Hintergrund.

Pipelines ausführen

Nachdem Sie eine Pipeline bereitgestellt haben, können Sie sie auf folgende Arten ausführen:

  • Um eine Pipeline bei Bedarf auszuführen, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Ausführen.
  • Wenn Sie die Pipeline zu einer bestimmten Zeit ausführen lassen möchten, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Planen.
  • Wenn Sie die Pipeline auslösen möchten, wenn eine andere Pipeline abgeschlossen ist, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Eingehende Trigger.

Pipeline Studio speichert den Verlauf einer Pipeline bei jeder Ausführung. Sie können um zwischen verschiedenen Laufzeitversionen der Pipeline umzuschalten.

Wenn die Pipeline Makros enthält, legen Sie für jedes Makro die Laufzeitargumente fest. Sie können auch die Pipelinekonfigurationen prüfen und ändern, bevor Sie die bereitgestellte Pipeline ausführen. Sie können die Statusänderung während der Phasen des Pipelinelaufs sehen, z. B. Bereitstellung, Start, Aktiv und Erfolgreich. Sie können die Pipeline auch jederzeit anhalten.

Wenn Sie die Instrumentierung aktivieren, können Sie die von der Pipeline generierten Messwerte untersuchen, indem Sie auf einen beliebigen Knoten in Ihrer Pipeline wie eine Quelle, Transformation oder Senke klicken und dann auf Eigenschaften.

Klicken Sie auf Zusammenfassung, um weitere Informationen zu den Pipelineausführungen aufzurufen.

Ausführungseinträge ansehen

Nachdem eine Pipelineausführung abgeschlossen ist, können Sie den Ausführungsdatensatz aufrufen. Standardmäßig haben Sie folgende Möglichkeiten: die letzten 30 Tage der Ausführungsdatensätze aufrufen. Nach Ablauf dieses Zeitraums werden sie von Cloud Data Fusion gelöscht. Sie können diesen Zeitraum mit der REST API verlängern.

REST API

Wenn Sie Ausführungseinträge länger als 30 Tage aufbewahren möchten, aktualisieren Sie die app.run.records.ttl mit dem folgenden Befehl:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Ersetzen Sie Folgendes:

  • PROJECT_NAME: der Name des Google Cloud-Projekts
  • REGION_NAME: Die Region der Cloud Data Fusion-Instanz, z. B. us-east4
  • INSTANCE_NAME: die Cloud Data Fusion-Instanz ID
  • DAYS: Zeit in Tagen, die die Ausführung beibehalten werden soll Datensätze für alte Pipelineausführungen, z. B. 30.
  • HOURS: Häufigkeit in Stunden, die geprüft und gelöscht werden soll alte Ausführungseinträge, z. B. 24.

Beispiel:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Nächste Schritte