Déployer et exécuter des pipelines

Cette page décrit les principes de base du déploiement et de l'exécution de pipelines dans Cloud Data Fusion.

Déployer des pipelines

Une fois que vous avez terminé de concevoir et de déboguer un pipeline de données et que vous êtes satisfait des données affichées dans l'aperçu, vous êtes prêt à déployer le pipeline.

Lorsque vous déployez le pipeline, Cloud Data Fusion Studio crée le workflow et les tâches Apache Spark correspondantes en arrière-plan.

Exécuter des pipelines

Après avoir déployé un pipeline, vous pouvez l'exécuter de différentes manières:

  • Pour exécuter un pipeline à la demande, ouvrez un pipeline déployé, puis cliquez sur Exécuter.
  • Pour planifier l'exécution du pipeline à une heure donnée, ouvrez un pipeline déployé, puis cliquez sur Planifier.
  • Pour déclencher le pipeline en fonction de la fin d'un autre pipeline, ouvrez un pipeline déployé, puis cliquez sur Déclencheurs entrants.

Pipeline Studio enregistre l'historique d'un pipeline chaque fois qu'il s'exécute. Vous pouvez basculer entre différentes versions d'exécution du pipeline.

Si le pipeline contient des macros, définissez les arguments d'exécution pour chaque macro. Vous pouvez également examiner et modifier les configurations de pipeline avant d'exécuter le pipeline déployé. Vous pouvez voir l'état changer au cours des phases de l'exécution du pipeline, comme Provisioning (Provisionnement), Starting (Démarrage), Running (Exécution) et Succeeded (Réussi). Vous pouvez également arrêter le pipeline à tout moment.

Si vous activez l'instrumentation, vous pouvez explorer les métriques générées par le pipeline en cliquant sur Propriétés sur n'importe quel nœud de votre pipeline, comme une source, une transformation ou un récepteur.

Pour en savoir plus sur les exécutions de pipeline, cliquez sur Résumé.

Afficher les enregistrements d'exécution

Une fois l'exécution d'un pipeline terminée, vous pouvez consulter l'enregistrement de l'exécution. Par défaut, vous pouvez afficher les 30 derniers enregistrements d'exécution. Cloud Data Fusion les supprime après cette période. Vous pouvez prolonger cette période à l'aide de l'API REST.

API REST

Pour conserver les enregistrements d'exécution pendant plus de 30 jours, mettez à jour les options app.run.records.ttl à l'aide de la commande suivante:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Remplacez les éléments suivants :

  • PROJECT_NAME: nom du Google Cloud projet
  • REGION_NAME: région de l'instance Cloud Data Fusion (par exemple, us-east4)
  • INSTANCE_NAME: ID de l'instance Cloud Data Fusion
  • DAYS: durée, en jours, pendant laquelle les enregistrements d'exécution des anciens pipelines doivent être conservés (par exemple, 30).
  • HOURS: fréquence, en heures, pour rechercher et supprimer les anciens enregistrements d'exécution (par exemple, 24).

Exemple :

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Étape suivante