Auf dieser Seite werden die Grundlagen zum Bereitstellen und Ausführen von Pipelines in Cloud Data Fusion beschrieben.
Pipelines implementieren
Nachdem Sie die Datenpipeline entworfen und die Fehler behoben haben und mit den Daten in der Vorschau zufrieden sind, können Sie die Pipeline bereitstellen.
Wenn Sie die Pipeline bereitstellen, erstellt Cloud Data Fusion Studio im Hintergrund den Workflow und die entsprechenden Apache Spark-Jobs.
Pipelines ausführen
Nachdem Sie eine Pipeline bereitgestellt haben, können Sie sie auf folgende Arten ausführen:
- Wenn Sie eine Pipeline auf Abruf ausführen möchten, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Ausführen.
- Wenn Sie die Pipeline zu einer bestimmten Zeit ausführen lassen möchten, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Planen.
- Wenn Sie die Pipeline auslösen möchten, wenn eine andere Pipeline abgeschlossen ist, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Eingehende Trigger.
In Pipeline Studio wird bei jeder Ausführung einer Pipeline der Verlauf gespeichert. Sie können zwischen verschiedenen Laufzeitversionen der Pipeline wechseln.
Wenn die Pipeline Makros enthält, legen Sie die Laufzeitargumente für jedes Makro fest. Sie können auch die Pipelinekonfigurationen prüfen und ändern, bevor Sie die bereitgestellte Pipeline ausführen. Sie können die Statusänderung während der Phasen des Pipelinelaufs sehen, z. B. Bereitstellung, Start, Aktiv und Erfolgreich. Sie können die Pipeline auch jederzeit beenden.
Wenn Sie die Instrumentierung aktivieren, können Sie die von der Pipeline generierten Messwerte untersuchen, indem Sie auf einen beliebigen Knoten in Ihrer Pipeline wie eine Quelle, Transformation oder Senke klicken und dann auf Eigenschaften.
Klicken Sie auf Zusammenfassung, um weitere Informationen zu den Pipelineausführungen aufzurufen.
Ausführungseinträge ansehen
Nach Abschluss eines Pipelinelaufs können Sie den Laufzeitrekord aufrufen. Standardmäßig können Sie sich die Ausführungsdaten der letzten 30 Tage ansehen. Nach Ablauf dieses Zeitraums werden sie von Cloud Data Fusion gelöscht. Sie können diesen Zeitraum mit der REST API verlängern.
REST API
Wenn Sie Ausführungsdaten länger als 30 Tage aufbewahren möchten, aktualisieren Sie die app.run.records.ttl
-Optionen mit dem folgenden Befehl:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Ersetzen Sie Folgendes:
PROJECT_NAME
: der Google Cloud ProjektnameREGION_NAME
: Die Region der Cloud Data Fusion-Instanz, z. B.us-east4
INSTANCE_NAME
: Die Cloud Data Fusion-Instanz-ID.DAYS
: Die Zeitspanne in Tagen, in der Ausführungsdaten für alte Pipelineausführungen aufbewahrt werden sollen, z. B.30
.HOURS
: Häufigkeit in Stunden, mit der nach alten Laufaufzeichnungen gesucht und diese gelöscht werden sollen, z. B.24
.
Beispiel:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'