Ce document explique comment créer une configuration de workflow dans Dataform pour planifier et configurer les exécutions de workflow SQL. Vous pouvez utiliser des configurations de workflow pour exécuter des workflows SQL Dataform selon un calendrier.
À propos des configurations de workflow Dataform
Pour planifier les exécutions Dataform de toutes les actions de workflow SQL (ou de certaines d'entre elles) dans BigQuery, vous pouvez créer des configurations de workflow. Dans une configuration de workflow, vous devez sélectionner une configuration de version de compilation, sélectionner les actions de workflow SQL à exécuter et définir le calendrier d'exécution.
Ensuite, lors de l'exécution planifiée de la configuration de votre workflow, Dataform déploie votre sélection d'actions à partir du dernier résultat de compilation de votre configuration de version dans BigQuery. Vous pouvez également déclencher manuellement l'exécution d'une configuration de workflow à l'aide des workflowConfigs de l'API Dataform.
Une configuration de workflow Dataform contient les paramètres d'exécution suivants:
- ID de la configuration du workflow
- Configuration de version
Compte de service
Compte de service associé à la configuration du workflow. Vous pouvez sélectionner le compte de service Dataform par défaut ou un compte de service associé à votre projet Google Cloud, ou saisir manuellement un autre compte de service. Par défaut, les configurations de workflow utilisent les mêmes comptes de service que leurs dépôts.
Actions de workflow SQL à exécuter:
- Toutes les actions
- Sélection d'actions
- Sélection de balises
Calendrier d'exécution et fuseau horaire
Avant de commencer
Dans la console Google Cloud, accédez à la page Dataform.
Sélectionnez ou créez un dépôt.
Créez une configuration de version.
Rôles requis
Afin d'obtenir les autorisations dont vous avez besoin pour créer une configuration de workflow, demandez à votre administrateur de vous attribuer le rôle IAM Éditeur Dataform (roles/dataform.editor
) dans les dépôts.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour utiliser un compte de service autre que le compte de service Dataform par défaut, accordez l'accès au compte de service autre que celui par défaut.
Créer une configuration de workflow
Pour créer une configuration de workflow Dataform, procédez comme suit:
- Dans votre dépôt, accédez à Configurations de workflow, puis cliquez sur Nouvelle configuration de workflow.
Dans le volet Créer une configuration de workflow, dans le champ ID de configuration, saisissez un ID unique pour la configuration de workflow.
Les ID ne peuvent contenir que des chiffres, des lettres, des traits d'union et des traits de soulignement.
Dans la liste déroulante Configuration de la version, sélectionnez une configuration de version de compilation.
Facultatif: Dans le champ Fréquence, saisissez la fréquence d'exécution au format unix-cron.
Pour vous assurer que Dataform exécute le dernier résultat de compilation dans la configuration de version correspondante, conservez une pause d'au moins une heure entre le moment de la création du résultat de la compilation et l'heure de l'exécution planifiée.
Dans la liste déroulante Compte de service, sélectionnez un compte de service pour la configuration du workflow.
Dans la liste déroulante, vous pouvez sélectionner le compte de service Dataform par défaut ou tout compte de service associé à votre projet Google Cloud auquel vous avez accès. Si vous ne sélectionnez pas de compte de service, la configuration du workflow utilise le compte de service du dépôt.
Facultatif: dans la liste déroulante Fuseau horaire, sélectionnez le fuseau horaire des exécutions.
Le fuseau horaire par défaut est UTC.
Sélectionnez les actions de workflow SQL à exécuter:
- Pour exécuter l'intégralité du workflow SQL, cliquez sur Toutes les actions.
- Pour exécuter les actions sélectionnées dans le workflow SQL, cliquez sur Sélection des actions, puis sélectionnez les actions.
- Pour exécuter des actions avec les tags sélectionnés, cliquez sur Sélection des tags, puis sélectionnez les tags.
- Facultatif: Pour exécuter les actions ou les balises sélectionnées ainsi que leurs dépendances, sélectionnez l'option Include dependencies (Inclure les dépendances).
- Facultatif: Pour exécuter les actions ou les balises sélectionnées et leurs dépendances, sélectionnez l'option Inclure les éléments dépendants.
- Facultatif: Pour recréer toutes les tables à partir de zéro, sélectionnez l'option Exécuter avec une actualisation complète.
Sans cette option, Dataform met à jour les tables incrémentielles sans les recréer entièrement.
Cliquez sur Créer.
Par exemple, la configuration de workflow suivante exécute des actions avec la balise hourly
toutes les heures dans le fuseau horaire CEST:
- Configuration ID (ID de configuration) :
production-hourly
- Configuration de la version: -
- Fréquence:
0 * * * *
- Fuseau horaire:
Central European Summer Time (CEST)
- Sélection d'actions de workflow SQL: sélection de tags, tag
hourly
Modifier une configuration de workflow
Pour modifier une configuration de workflow, procédez comme suit:
- Dans votre dépôt, accédez à Configurations de workflow.
- À côté de la configuration de workflow que vous souhaitez modifier, cliquez sur le menu
Plus, puis sur Modifier.
- Dans le volet Modifier la configuration du workflow, modifiez les paramètres de configuration de la version, puis cliquez sur Enregistrer.
Supprimer une configuration de workflow
Pour supprimer une configuration de workflow, procédez comme suit:
- Dans votre dépôt, accédez à Configurations de workflow.
- À côté de la configuration de workflow que vous souhaitez supprimer, cliquez sur le menu
Plus, puis sur Supprimer.
- Dans le pop-up Supprimer la configuration de version, cliquez sur Supprimer.
Étapes suivantes
- Pour savoir comment configurer les configurations de version de compilation Dataform, consultez la section Créer une configuration de version.
- Pour en savoir plus sur le cycle de vie du code dans Dataform, consultez Présentation du cycle de vie du code dans Dataform.