Présentation de la préparation de données BigQuery

Ce document décrit la préparation des données optimisée par l'IA dans BigQuery. Les préparations de données sont des ressources BigQuery Studio qui utilisent Gemini dans BigQuery pour analyser vos données et fournir des suggestions intelligentes pour les nettoyer, les transformer et les enrichir. Vous pouvez réduire considérablement le temps et les efforts nécessaires aux tâches de préparation manuelle des données. L'orchestration des préparations de données est assurée par Dataform.

Avantages

  • Vous pouvez réduire le temps consacré au développement de pipelines de données grâce à des suggestions de transformation générées par Gemini en fonction du contexte.
  • Vous pouvez valider les résultats générés dans un aperçu et recevoir des suggestions de nettoyage et d'enrichissement de la qualité des données grâce au mappage automatique des schémas.
  • Dataform vous permet d'utiliser un processus d'intégration et de développement continus (CI/CD), qui permet la collaboration entre les équipes pour les révisions de code et le contrôle des sources.

Rôles requis

Les utilisateurs qui préparent les données et les comptes de service Dataform qui exécutent les tâches ont besoin de rôles IAM (Identity and Access Management). Pour en savoir plus, consultez les sections Rôles requis et Configurer Gemini pour BigQuery.

Points d'entrée de la préparation des données

Vous pouvez créer et gérer des préparations de données sur la page BigQuery Studio (voir Ouvrir l'éditeur de préparation des données dans BigQuery).

Lorsque vous ouvrez une table dans la préparation des données BigQuery, une tâche BigQuery s'exécute à l'aide de vos identifiants. L'exécution crée des exemples de lignes à partir de la table choisie et écrit les résultats dans une table temporaire du même projet. Gemini utilise l'exemple de données et le schéma pour générer des suggestions de préparation des données qui s'affichent dans l'éditeur de préparation des données.

Vues dans l'éditeur de préparation des données

Les préparations de données apparaissent sous forme d'onglets sur la page BigQuery Studio. Chaque onglet comporte une série de sous-onglets, ou vues de préparation des données, dans lesquels vous concevez et gérez vos préparations de données.

Aperçu des données

Lorsque vous créez une préparation de données, un onglet de l'éditeur de préparation de données s'ouvre et affiche la vue des données, qui contient un échantillon représentatif du tableau. Pour les préparations de données existantes, vous pouvez accéder à la vue des données en cliquant sur un nœud dans la vue graphique de votre pipeline de préparation des données.

La vue des données vous permet d'effectuer les opérations suivantes:

  • Interagissez avec vos données pour définir les étapes de préparation des données.
  • Appliquez les suggestions de Gemini.
  • Améliorez la qualité des suggestions Gemini en saisissant des exemples de valeurs dans les cellules.

Pour chaque colonne de votre tableau, un profil statistique (un histogramme) indique le nombre des valeurs les plus élevées de chaque colonne dans les lignes d'aperçu.

Vue graphique

La vue graphique est un aperçu visuel de votre préparation des données. Il s'affiche sous forme d'onglet sur la page BigQuery Studio de la console lorsque vous ouvrez une préparation de données. Le graphique affiche les nœuds de toutes les étapes de votre pipeline de préparation des données. Vous pouvez sélectionner un nœud sur le graphique pour configurer les étapes de préparation des données qu'il représente.

Vue du schéma

La vue du schéma de préparation des données affiche le schéma actuel de l'étape de préparation des données active. Le schéma affiché correspond aux colonnes de la vue des données.

Dans la vue du schéma, vous pouvez effectuer des opérations de schéma dédiées, telles que la suppression de colonnes, ce qui crée également des étapes dans la liste Étapes appliquées.

Suggestions de Gemini

Gemini fournit des suggestions contextuelles pour vous aider à effectuer les tâches de préparation des données suivantes:

  • Appliquer des transformations et des règles de qualité des données
  • Standardiser et enrichir les données
  • Automatiser le mappage de schéma

Chaque suggestion s'affiche dans une fiche de la liste des suggestions de l'éditeur de préparation des données. La fiche contient les informations suivantes:

  • Catégorie de haut niveau de l'étape, par exemple Conserver les lignes ou Transformation
  • Description de l'étape, par exemple Conserver les lignes si COLUMN_NAME n'est pas NULL
  • Expression SQL correspondante utilisée pour exécuter l'étape

Vous pouvez prévisualiser ou appliquer la fiche de suggestion, ou l'ajuster. Vous pouvez également ajouter des étapes manuellement. Pour en savoir plus, consultez Préparer des données avec Gemini.

Pour affiner les suggestions de Gemini, donnez-lui un exemple de ce que vous souhaitez modifier dans une colonne.

Échantillonnage de données

BigQuery utilise l'échantillonnage de données pour vous donner un aperçu de la préparation de vos données. Vous pouvez afficher l'échantillon dans la vue des données pour chaque nœud. Les données de l'échantillon ne sont pas actualisées automatiquement. Pour en savoir plus, consultez la section Actualiser les exemples de préparation des données.

Mode d'écriture

Pour optimiser les coûts et le temps de traitement, vous pouvez modifier les paramètres du mode d'écriture afin de traiter de manière incrémentielle les nouvelles données de la source. Par exemple, si vous disposez d'une table dans BigQuery dans laquelle des enregistrements sont insérés quotidiennement et d'un tableau de bord Looker qui doit refléter les données modifiées, vous pouvez planifier la préparation des données BigQuery pour lire de manière incrémentielle les nouveaux enregistrements de la table source et les propager vers la table de destination.

Pour configurer la manière dont vos données préparées sont écrites dans une table de destination, consultez la section Optimiser la préparation des données en les traitant de manière incrémentielle.

Les modes d'écriture suivants sont acceptés:

Option de mode d'écriture Description
Actualisation complète Insère les données préparées pour remplacer toutes les données de la table de destination. La table est recréée, et non tronquée. L'actualisation complète est le mode par défaut lors de l'écriture dans une table de destination.
Ajouter Insère les données préparées dans de nouvelles lignes de la table de destination.
Incrémentielle Insère uniquement les données nouvelles ou modifiées dans la table de destination, en fonction de la colonne incrémentielle choisie.

Étapes de préparation des données compatibles

BigQuery accepte les types d'étapes de préparation des données suivants:

Type d'étape Description
Source Ajoute une source lorsque vous sélectionnez une table BigQuery à lire ou lorsque vous ajoutez une étape de jointure.
Transformation Nettoie et transforme les données à l'aide d'une expression SQL. Vous recevez des fiches de suggestion pour les expressions suivantes:
  • Fonctions de cast de type, telles que CAST
  • Fonctions de chaîne, telles que SUBSTR, CONCAT, REPLACE, UPPER, LOWER et TRIM
  • Fonctions DATETIME, telles que PARSE_DATE, TIMESTAMP, EXTRACT et DATE_ADD
  • Fonctions JSON, telles que JSON_EXTRACT

Vous pouvez également utiliser n'importe quelle expression SQL BigQuery valide dans les étapes de transformation manuelles. Exemple:
  • Mathématiques avec des nombres, par exemple convertir des wattheures en kilowattheures
  • Fonctions de tableau, telles que ARRAY_AGG, ARRAY_CONCAT et UNNEST
  • Fonctions de fenêtre, telles que ROW_NUMBER, LAG, LEAD, RANK et NTILE


Pour en savoir plus, consultez Ajouter une transformation.
Filter Supprime les lignes à l'aide de la syntaxe de la clause WHERE. Lorsque vous ajoutez une étape de filtrage, vous pouvez choisir de la transformer en étape de validation.

Pour en savoir plus, consultez Filtrer les lignes.
Validation Envoie les lignes qui répondent aux critères de la règle de validation vers une table d'erreurs. Si les données ne respectent pas la règle de validation et qu'aucune table d'erreurs n'est configurée, la préparation des données échoue lors de l'exécution.

Pour en savoir plus, consultez Configurer la table des erreurs et ajouter une règle de validation.
Rejoindre Associe les valeurs de deux sources. Les tables doivent se trouver au même emplacement. Les colonnes de clé de jointure doivent être du même type de données. Les préparations de données sont compatibles avec les opérations de jointure suivantes:
  • Jointures internes
  • Jointures gauches
  • Jointures droites
  • Jointures externes complètes
  • Jointures croisées (si aucune colonne de clé de jointure n'est sélectionnée, une jointure croisée est utilisée)


Pour en savoir plus, consultez Ajouter une opération de jointure.
Destination Définit une destination pour l'affichage des étapes de préparation des données. Si vous saisissez une table de destination qui n'existe pas, la préparation des données crée une table à l'aide des informations du schéma actuel.

Pour en savoir plus, consultez Ajouter ou modifier une table de destination.
Supprimer les colonnes Supprime les colonnes du schéma. Vous effectuez cette étape depuis la vue du schéma.

Pour en savoir plus, consultez Supprimer une colonne.

Planifier des exécutions de préparation des données

Pour exécuter les étapes de préparation des données et charger les données préparées dans la table de destination, planifiez une exécution ponctuelle ou récurrente de la préparation des données. Vous pouvez planifier des préparations de données à partir de l'éditeur de préparation des données, et les gérer à partir de la page Orchestration de BigQuery. Pour en savoir plus, consultez la section Planifier la préparation des données.

API

La préparation de données BigQuery ne dispose pas de sa propre API. Pour en savoir plus sur l'utilisation de la préparation des données BigQuery avec Dataform, contactez bq-datapreparation-feedback@google.com.

Limites

La préparation des données est disponible avec les restrictions suivantes:

  • Tous les ensembles de données source et de destination de préparation des données BigQuery d'une préparation des données donnée doivent se trouver au même emplacement. Pour en savoir plus, consultez la section Emplacements compatibles.
  • Lors de la modification du pipeline, les données et les interactions sont envoyées à un centre de données américain pour être traitées. Pour en savoir plus, consultez la section Emplacements compatibles.
  • La préparation des données n'est pas compatible avec la génération de requêtes SQL en langage naturel.
  • Les préparations de données BigQuery ne permettent pas d'afficher, de comparer ni de restaurer les versions de préparation des données.
  • Les réponses de Gemini sont basées sur un échantillon de l'ensemble de données que vous fournissez lorsque vous concevez votre pipeline de préparation des données. Pour en savoir plus, consultez la page Comment Gemini pour Google Cloud utilise vos données et les conditions du programme Testeur de confiance de Gemini pour Google Cloud.

Emplacements

Les préparations de données sont compatibles avec le traitement des données dans tous les emplacements BigQuery. Les ensembles de données source et de destination d'une préparation de données donnée doivent se trouver au même endroit.

Tarifs

L'exécution de préparations de données et la création d'échantillons d'aperçu des données utilisent des ressources BigQuery, qui sont facturées selon les tarifs indiqués sur la page Tarifs de BigQuery.

La préparation des données est incluse dans les tarifs de Gemini dans BigQuery. Vous pouvez utiliser la préparation des données BigQuery pendant la phase Preview sans frais supplémentaires. Pour en savoir plus, consultez la page Configurer Gemini dans BigQuery.

Quotas

Pour en savoir plus, consultez les quotas de Gemini dans Google Cloud.

Étape suivante