Présentation des workflows SQL

Ce document vous aide à comprendre l'architecture et l'exécution des workflows SQL dans Dataform.

Vous pouvez utiliser Dataform pour développer, tester et contrôler les versions de workflows SQL que vous pouvez exécuter dans BigQuery pour transformer des données à des fins d'analyse. Vous pouvez développer des workflows SQL avec Dataform Core, à l'aide de fichiers SQLX et éventuellement de fichiers JavaScript, ou avec JavaScript.

Un workflow SQL peut être constitué des objets suivants:

Déclarations de sources de données
Déclarations de sources de données BigQuery vous permettant de référencer ces sources de données dans les définitions de table Dataform et les opérations SQL.
Tables
Tables que vous créez dans Dataform en fonction des sources de données déclarées ou d'autres tables de votre workflow SQL. Dataform accepte les types de tables suivants: table, table incrémentielle, vue et vue matérialisée.
Assertions
Requêtes de test de qualité des données permettant de valider les données d'un tableau Dataform exécute des assertions chaque fois qu'il met à jour votre workflow SQL et vous alerte si des assertions échouent.
Opérations SQL personnalisées
Instructions SQL que Dataform exécute dans BigQuery telles quelles, sans modification.
Inclut
Fichiers JavaScript avec des définitions de variables et de fonctions que vous pouvez réutiliser dans votre workflow SQL.

Visualisation d'un workflow SQL

Vous pouvez visualiser votre workflow SQL sous la forme d'un graphe orienté acyclique (DAG, Directed Acyclic Graph). Le DAG affiche tous les objets du workflow SQL définis dans votre espace de travail, ainsi que les relations entre eux. Vous pouvez faire un zoom avant et arrière, et utiliser le glisser-déposer pour naviguer dans le DAG. Si votre workflow SQL comporte des erreurs de compilation, Dataform affiche un message d'erreur au lieu du DAG.

Pour afficher le DAG de votre workflow SQL, dans votre espace de travail, cliquez sur Graphique compilé.

Exécution d'un workflow SQL

Dans votre espace de travail de développement, vous pouvez déclencher manuellement l'exécution de l'ensemble de votre workflow SQL, d'une sélection d'actions ou d'une sélection de balises.

Vous pouvez planifier des exécutions avec des configurations de version et des configurations de workflow Dataform. Commencez par créer une configuration de version pour générer les résultats de compilation de votre dépôt. Créez ensuite une configuration de workflow, sélectionnez une configuration de version, choisissez les actions de workflow SQL que vous souhaitez exécuter, puis définissez le calendrier d'exécution.

Vous pouvez également planifier des exécutions avec Cloud Composer ou Workflows et Cloud Scheduler.

Lors de l'exécution, Dataform exécute les requêtes SQL dans BigQuery, en suivant l'ordre des dépendances d'objets dans votre workflow SQL. Après l'exécution, vous pouvez utiliser les tables et les vues que vous avez définies pour toutes vos analyses dans BigQuery.

Options de configuration de l'exécution

Pour exécuter un groupe spécifique d'objets de votre workflow SQL, vous pouvez ajouter des tags d'exécution Dataform aux fichiers que vous sélectionnez. Vous pouvez ensuite exécuter uniquement les fichiers associés à la balise sélectionnée lorsque vous déclenchez l'exécution manuellement.

Par défaut, Dataform exécute votre workflow SQL avec les paramètres d'exécution définis dans le fichier dataform.json. Vous pouvez remplacer ces paramètres d'exécution par des remplacements de compilation.

Les remplacements de compilation d'espace de travail vous permettent de transformer les espaces de travail en environnements d'exécution isolés. Cela signifie que lorsque vous déclenchez manuellement l'exécution dans un espace de travail, Dataform exécute la sortie dans un emplacement isolé dans BigQuery.

Pour créer et exécuter un seul résultat de compilation avec des remplacements de compilation, vous pouvez transmettre des requêtes avec l'API Dataform.

Les configurations de version vous permettent de configurer des remplacements de compilation pour l'ensemble du dépôt, ainsi que la fréquence de création des résultats de compilation avec les paramètres appliqués.

Pour en savoir plus sur la configuration de la compilation et du cycle de vie du code dans Dataform, consultez la page Présentation du cycle de vie du code dans Dataform.

Étapes suivantes