Présentation des workflows SQL

Ce document vous aide à comprendre l'architecture et l'exécution des workflows SQL dans Dataform.

Vous pouvez utiliser Dataform pour développer, tester et contrôler les versions des workflows SQL que vous pouvez exécuter dans BigQuery pour transformer des données à des fins d'analyse. Vous pouvez développer des workflows SQL avec le noyau Dataform, à l'aide de fichiers SQLX et éventuellement de fichiers JavaScript, ou avec JavaScript.

Un workflow SQL peut se composer des objets suivants:

Déclarations de sources de données
Déclarations de sources de données BigQuery qui vous permettent de faire référence à ces sources de données dans les définitions de table Dataform et les opérations SQL.
Tables
Tables que vous créez dans Dataform en fonction des sources de données déclarées ou d'autres tables de votre workflow SQL. Dataform est compatible avec les types de tables suivants: table, table incrémentielle, vue et vue matérialisée.
Assertions
Requêtes de test de qualité des données que vous pouvez utiliser pour valider les données de la table. Dataform exécute des assertions chaque fois qu'il met à jour votre workflow SQL et vous avertit en cas d'échec.
Opérations SQL personnalisées
Instructions SQL que Dataform exécute dans BigQuery telles quelles, sans modification.
Inclut
Fichiers JavaScript contenant des définitions de variables et de fonctions que vous pouvez réutiliser dans votre workflow SQL.

Visualisation d'un workflow SQL

Vous pouvez afficher votre workflow SQL sous la forme d'un graphe orienté acyclique (DAG). Le DAG affiche tous les objets du workflow SQL définis dans votre espace de travail, ainsi que les relations entre eux. Vous pouvez faire un zoom avant ou arrière, et utiliser le glisser-déposer pour naviguer dans le DAG. Si votre workflow SQL comporte des erreurs de compilation, Dataform affiche un message d'erreur au lieu du DAG.

Pour afficher le DAG de votre workflow SQL, cliquez sur Graphique compilé dans votre espace de travail.

Exécution d'un workflow SQL

Dans votre espace de travail de développement, vous pouvez déclencher manuellement l'exécution de l'ensemble de votre workflow SQL, d'une sélection d'actions ou d'une sélection de balises.

Vous pouvez planifier des exécutions avec les configurations de version et les configurations de workflow Dataform. Commencez par créer une configuration de version pour créer des résultats de compilation de votre dépôt. Ensuite, créez une configuration de workflow, sélectionnez une configuration de version, sélectionnez les actions de workflow SQL que vous souhaitez exécuter, puis définissez la planification d'exécution.

Vous pouvez également planifier des exécutions avec Cloud Composer ou avec Workflows et Cloud Scheduler.

Lors de l'exécution, Dataform exécute des requêtes SQL dans BigQuery, en suivant l'ordre des dépendances d'objets dans votre workflow SQL. Après l'exécution, vous pouvez utiliser les tables et les vues définies pour tous vos besoins d'analyse dans BigQuery.

Options de configuration d'exécution

Pour exécuter un groupe spécifique d'objets de workflow SQL, vous pouvez ajouter des balises d'exécution Dataform aux fichiers que vous sélectionnez. Vous pouvez ensuite exécuter uniquement les fichiers associés à une balise sélectionnée lorsque vous déclenchez manuellement l'exécution.

Par défaut, Dataform exécute votre workflow SQL avec les paramètres d'exécution définis dans le fichier dataform.json. Vous pouvez remplacer ces paramètres d'exécution par des forçages de compilation.

Les remplacements de compilation d'espace de travail vous permettent de transformer des espaces de travail en environnements d'exécution isolés. Cela signifie que lorsque vous déclenchez manuellement l'exécution dans un espace de travail, Dataform exécute la sortie dans un emplacement isolé de BigQuery.

Pour créer et exécuter un seul résultat de compilation avec des forçages de compilation, vous pouvez transmettre des requêtes avec l'API Dataform.

Les configurations de version vous permettent de configurer des forçages de compilation pour l'ensemble de votre dépôt, ainsi que la fréquence de création des résultats de compilation avec les paramètres appliqués.

Pour en savoir plus sur la configuration de la compilation et du cycle de vie du code dans Dataform, consultez la section Présentation du cycle de vie du code dans Dataform.

Étape suivante