Présentation de la transformation des données

Ce document décrit les différentes manières de transformer les données de vos tables BigQuery.

Pour en savoir plus sur les intégrations de données, consultez la section Introduction au chargement, à la transformation et à l'exportation de données.

Méthodes de transformation des données

Vous pouvez transformer des données dans BigQuery de différentes manières :

  • Utilisez le langage de manipulation de données (LMD) pour transformer les données de vos tables BigQuery.
  • Utilisez des vues matérialisées pour mettre automatiquement en cache les résultats d'une requête afin d'améliorer les performances et l'efficacité.
  • Utilisez des requêtes continues pour analyser les données entrantes en temps réel et insérer en continu les lignes de sortie dans une table BigQuery, ou les exporter vers Pub/Sub ou Bigtable.
  • Utilisez Dataform pour développer, tester, contrôler les versions et planifier des workflows SQL dans BigQuery.
  • Utilisez la préparation des données avec des recommandations de transformation générées par IA et adaptées au contexte pour nettoyer les données à des fins d'analyse.

Le tableau suivant présente les différentes caractéristiques de chaque méthode de transformation.

Méthode de transformation Cible de transformation Méthode de définition Fréquence de transformation
Langage de manipulation de données (LMD) Table (en place) Instructions DML SQL Déclenchement par l'utilisateur ou planification
Vues matérialisées Vue matérialisée Requête SQL Actualisation automatique ou manuelle
Requêtes continues Table, sujet Pub/Sub, table Bigtable Requête SQL avec EXPORT DATA Continue
Dataform Table Dataform Core (SQLX) Planifié (workflows)
Préparation des données Table Éditeur visuel Planifié

Vous pouvez également examiner l'historique des modifications d'une table BigQuery pour examiner les transformations apportées à une table sur une période donnée.

Transformer des données avec le langage LMD

Vous pouvez utiliser le langage de manipulation de données (LMD) pour transformer les données de vos tables BigQuery. Les instructions LMD sont des requêtes GoogleSQL qui manipulent les données de table existantes pour ajouter ou supprimer des lignes, modifier des données dans des lignes existantes ou fusionner des données avec des valeurs d'une autre table. Les transformations LMD sont également compatibles avec les tables partitionnées.

Vous pouvez exécuter plusieurs instructions LMD simultanément, BigQuery met en file d'attente plusieurs instructions LMD qui transforment vos données l'une après l'autre. BigQuery gère l'exécution des instructions LMD simultanées en fonction du type de transformation.

Transformer des données avec des vues matérialisées

Les vues matérialisées sont des vues précalculées qui mettent régulièrement en cache les résultats d'une requête SQL pour améliorer les performances et l'efficacité. BigQuery exploite les résultats précalculés des vues matérialisées et, dans la mesure du possible, ne lit que les modifications des tables de base pour calculer les résultats à jour.

Les vues matérialisées sont précalculées en arrière-plan lorsque les tables de base changent. Toutes les modifications incrémentielles apportées aux données depuis les tables de base sont automatiquement ajoutées aux vues matérialisées, sans aucune action de l'utilisateur.

Transformer des données avec des requêtes continues

Les requêtes continues sont des instructions SQL qui s'exécutent de façon continue. Les requêtes continues vous permettent d'analyser les données entrantes dans BigQuery en temps réel. Vous pouvez insérer les lignes de sortie produites par une requête continue dans une table BigQuery ou les exporter vers Pub/Sub ou Bigtable.

Transformer des données avec Dataform

Dataform vous permet de gérer la transformation des données dans le processus d'extraction, de chargement et de transformation (ELT) pour l'intégration des données. Après avoir extrait les données brutes des systèmes sources et les avoir chargées dans BigQuery, vous pouvez les utiliser dans Dataform pour les transformer en tables organisées, testées et documentées. Alors que dans le langage LMD, vous adoptez une approche impérative en indiquant à BigQuery comment exactement transformer vos données, dans Dataform, vous écrivez des instructions déclaratives dans lesquelles Dataform détermine ensuite la transformation nécessaire pour atteindre cet état.

Dans Dataform, vous pouvez développer, tester et contrôler les versions des workflows SQL pour la transformation de données, qu'il s'agisse de déclarations de source de données, de tables de sortie, de vues ou de vues matérialisées. Vous pouvez développer des workflows SQL avec le noyau Dataform ou du JavaScript pur. Dataform Core est un métalangage Open Source qui étend SQL avec SQLX et JavaScript. Vous pouvez utiliser Dataform Core pour gérer les dépendances, configurer des tests automatisés de qualité des données et documenter les descriptions de tables ou de colonnes dans le code.

Dataform stocke le code de votre workflow SQL dans des dépôts et utilise Git pour suivre les modifications de fichiers. Les espaces de travail de développement dans Dataform vous permettent de travailler sur le contenu du dépôt sans affecter le travail des autres personnes qui travaillent dans le même dépôt. Vous pouvez connecter des dépôts Dataform à des fournisseurs Git tiers, y compris Azure DevOps Services, Bitbucket, GitHub et GitLab.

Vous pouvez exécuter ou planifier des workflows SQL avec des configurations de version et de workflow Dataform. Vous pouvez également planifier des exécutions avec Cloud Composer, ou avec Workflows et Cloud Scheduler. Lors de l'exécution, Dataform exécute les requêtes SQL dans BigQuery par ordre de dépendances d'objets dans votre workflow SQL. Une fois l'exécution terminée, vous pouvez utiliser les tables et les vues définies pour l'analyse dans BigQuery.

Pour en savoir plus sur la création de workflows SQL de transformation de données dans Dataform, consultez Présentation de Dataform et Présentation des fonctionnalités de Dataform.

Préparer les données dans BigQuery

Pour réduire la pénibilité de la préparation des données, BigQuery vous permet de nettoyer les données à l'aide de suggestions de transformation générées par Gemini. La préparation des données dans BigQuery offre les fonctionnalités suivantes:

  • Appliquer des transformations et des règles de qualité des données
  • Standardiser et enrichir les données
  • Automatiser le mappage de schéma

Vous pouvez valider les résultats dans un aperçu de vos données avant d'exécuter les modifications sur toutes vos données.

Pour en savoir plus, consultez la page Présentation de la préparation des données BigQuery.

Étape suivante