Présentation des workflows

Ce document vous aide à comprendre l'architecture et l'exécution des workflows dans Dataform.

Vous pouvez utiliser Dataform pour développer, tester et contrôler les versions des workflows que vous pouvez exécuter dans BigQuery afin de transformer les données à des fins d'analyse. Vous pouvez développer des workflows avec Dataform Core, en utilisant des fichiers SQLX et éventuellement des fichiers JavaScript, ou avec JavaScript.

Un workflow peut se composer des objets suivants :

Déclarations sur les sources de données
Déclarations de sources de données BigQuery qui vous permettent de référencer ces sources de données dans les définitions de tables Dataform et les opérations SQL.
Tables
 Tables que vous créez dans Dataform en fonction des sources de données déclarées ou d'autres tables de votre workflow. Dataform est compatible avec les types de tables suivants : table, table incrémentielle, vue et vue matérialisée.
Assertions
Requêtes de test de qualité des données que vous pouvez utiliser pour valider les données des tables. Dataform exécute des assertions chaque fois qu'il met à jour votre workflow. Il vous alerte en cas d'échec.
Opérations SQL personnalisées
Instructions SQL
que Dataform exécute dans BigQuery telles quelles, sans modification.
Inclut
Fichiers
JavaScript contenant des définitions de variables et de fonctions que vous pouvez réutiliser dans votre workflow.

Visualisation d'un workflow

Vous pouvez visualiser votre workflow sous la forme d'un graphe orienté acyclique (DAG). Le DAG affiche tous les objets du workflow définis dans votre espace de travail, ainsi que les relations entre eux. Vous pouvez faire un zoom avant ou arrière, et utiliser la navigation par glisser-déposer dans le DAG. Si votre workflow comporte des erreurs de compilation, Dataform affiche un message d'erreur au lieu du DAG.

Pour afficher le DAG de votre workflow, cliquez sur Graphique compilé dans votre espace de travail.

Exécution d'un workflow

Dans votre espace de travail de développement, vous pouvez déclencher manuellement une exécution de l'intégralité de votre workflow, d'une sélection d'actions ou d'une sélection de tags.

Vous pouvez planifier des exécutions avec les configurations de version et les configurations de workflow Dataform. Commencez par créer une configuration de version pour créer des résultats de compilation de votre dépôt. Créez ensuite une configuration de workflow, sélectionnez une configuration de version, sélectionnez les actions de workflow que vous souhaitez exécuter et définissez le calendrier d'exécution.

Vous pouvez également planifier des exécutions avec Cloud Composer ou avec Workflows et Cloud Scheduler.

Lors de l'exécution, Dataform exécute des requêtes SQL dans BigQuery, en suivant l'ordre des dépendances d'objets dans votre workflow. Une fois l'exécution terminée, vous pouvez utiliser les tables et les vues que vous avez définies pour toutes vos analyses dans BigQuery.

Options de configuration de l'exécution

Pour exécuter un groupe spécifique d'actions de votre workflow, vous pouvez ajouter des tags d'exécution Dataform aux fichiers que vous sélectionnez. Vous pouvez ensuite exécuter uniquement les fichiers avec un tag sélectionné lorsque vous déclenchez manuellement une exécution.

Par défaut, Dataform exécute votre workflow avec les paramètres d'exécution définis dans le fichier dataform.json. Vous pouvez remplacer ces paramètres d'exécution à l'aide de remplacements de compilation.

Les remplacements de compilation d'espace de travail vous permettent de transformer les espaces de travail en environnements d'exécution isolés. Cela signifie que lorsque vous déclenchez manuellement l'exécution dans un espace de travail, Dataform exécute la sortie dans un emplacement isolé de BigQuery.

Pour créer et exécuter un résultat de compilation unique avec des remplacements de compilation, vous pouvez transmettre des requêtes avec l'API Dataform.

Les configurations de version vous permettent de configurer des remplacements de compilation pour l'ensemble de votre dépôt, ainsi que la fréquence de création des résultats de compilation avec les paramètres appliqués.

Pour en savoir plus sur la configuration de la compilation et du cycle de vie du code dans Dataform, consultez Présentation du cycle de vie du code dans Dataform.

Étapes suivantes