Préparer des données avec Gemini

Ce document explique comment générer et gérer des suggestions de code SQL pour la préparation de vos données dans BigQuery.

Pour en savoir plus, consultez la page Présentation de la préparation des données BigQuery.

Avant de commencer

Ouvrir l'éditeur de préparation des données dans BigQuery

Vous pouvez ouvrir l'éditeur de préparation des données dans BigQuery en créant une préparation des données, en en créant une à partir d'une table existante ou en ouvrant une préparation des données existante. Pour en savoir plus sur ce qui se passe lorsque vous créez une préparation de données, consultez la section Points d'entrée de la préparation des données.

Sur la page BigQuery Studio, vous pouvez accéder à l'éditeur de préparation des données de différentes manières:

Créer

Pour créer une préparation de données dans BigQuery, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page BigQuery Studio.
    Accéder à BigQuery
  2. Accédez à la liste Créer, puis cliquez sur Préparation des données. L'éditeur de préparation des données s'affiche dans un nouvel onglet de préparation des données sans titre.
  3. Dans la barre de recherche de l'éditeur, saisissez le nom de votre table ou des mots clés, puis sélectionnez une table. L'éditeur de préparation des données du tableau s'ouvre et affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.

    Une ressource Préparation des données s'affiche dans le volet Explorer, où vous pourrez accéder à cette préparation à l'avenir.
  4. Facultatif: Pour simplifier la vue, activez le mode plein écran en cliquant sur plein écran Plein écran.

Créer à partir d'une table

Pour créer une préparation de données à partir d'une table existante, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page BigQuery Studio.
    Accéder à BigQuery
  2. Dans le volet Explorateur, pointez sur une table.
  3. Cliquez sur more_vert Menu > Requête dans > Préparation des données. L'éditeur de préparation des données du tableau s'ouvre et affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.

    Une ressource Préparation des données s'affiche dans le volet Explorer, où vous pourrez accéder à cette préparation à l'avenir.
  4. Facultatif: Pour simplifier la vue, activez le mode plein écran en cliquant sur plein écran Plein écran.

Ouvrir

Pour ouvrir l'éditeur pour une préparation de données existante, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page BigQuery Studio.
    Accéder à BigQuery
  2. Dans le volet Explorer, cliquez sur le nom de votre projet et sur Préparation des données.
  3. Sélectionnez la préparation des données existante. La vue graphique du pipeline de préparation des données s'affiche.
  4. Sélectionnez l'un des nœuds du graphique. L'éditeur de préparation des données du tableau s'ouvre et affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
  5. Facultatif: Pour simplifier la vue, activez le mode plein écran en cliquant sur plein écran Plein écran.

Créer des étapes de préparation des données

Vous préparez les données en plusieurs étapes. Vous pouvez prévisualiser ou appliquer les étapes suggérées par Gemini. Vous pouvez également affiner les suggestions ou appliquer vos propres étapes. Pour en savoir plus sur les étapes de préparation des données acceptées, consultez la section Étapes acceptées.

Afficher et appliquer les suggestions de Gemini

Lorsque vous ouvrez l'éditeur de préparation des données pour votre tableau dans les étapes précédentes, Gemini inspecte les données et le schéma du tableau que vous avez chargé, puis génère des suggestions.

Lorsque vous affichez les données dans la vue des données, cliquez sur un nom de colonne ou sur une cellule spécifique. Gemini génère des suggestions de filtre et de transformation spécifiques à cette colonne ou à cette cellule.

Appliquer une suggestion de Gemini comme étape de préparation des données:

  1. Dans la vue des données, accédez à la liste Étapes et examinez les suggestions.
  2. Facultatif: Pour modifier la description ou l'expression SQL d'une fiche de suggestion, cliquez sur Aperçu.
  3. Cliquez sur Appliquer.
  4. Facultatif: Pour obtenir de meilleures suggestions de la part de Gemini, fournissez des exemples et répétez ces étapes.

Vous pouvez effectuer les actions suivantes dans la vue des données lorsque vous cliquez sur Étapes appliquées et inspectez la liste des étapes:

  • Pour modifier ou supprimer une étape, cliquez sur more_vert Menu, puis apportez les modifications nécessaires.
  • Sélectionnez une étape de la liste pour afficher l'échantillon de données et le schéma à partir de cette étape.
  • Sélectionnez une étape dans la liste pour insérer de nouvelles étapes après celle sélectionnée.

Améliorer les suggestions avec un exemple

Pour affiner les suggestions de Gemini, donnez-lui un exemple de ce à quoi les données doivent ressembler dans la cellule:

  1. Dans la vue des données, modifiez les valeurs d'une à trois cellules pour montrer à quoi doivent ressembler les valeurs de cette colonne. Par exemple, saisissez une date au format souhaité pour toutes les dates. Gemini génère de nouvelles suggestions en fonction de vos modifications.

  2. Pour modifier une fiche de suggestion, cliquez sur Aperçu.

  3. Cliquez sur Appliquer.

Ajouter manuellement des étapes

Si aucune suggestion ne répond à vos besoins, ajoutez la vôtre en cliquant sur Ajouter une étape, en sélectionnant un type d'étape, puis en saisissant une description et une expression SQL.

Ajouter une transformation

  1. Dans la vue des données, sélectionnez une colonne, puis cliquez sur Ajouter une étape > Transformation.
  2. Saisissez une description de l'étape.
  3. Saisissez une expression SQL.
  4. Dans le champ Colonne cible, sélectionnez une colonne ou créez-en une.
  5. Facultatif: Cliquez sur Aperçu et vérifiez l'étape.
  6. Cliquez sur Appliquer.

Filtrer les lignes

Pour ajouter un filtre qui supprime des lignes, procédez comme suit:

  1. Dans la vue des données, cliquez sur Ajouter une étape > Filtrer.
  2. Saisissez une description de l'étape.
  3. Saisissez une expression SQL.
  4. Facultatif: Cliquez sur Aperçu et vérifiez l'étape.
  5. Cliquez sur Appliquer.

Format de l'expression de filtre

Les expressions SQL pour les filtres conservent les lignes qui correspondent à la condition spécifiée. Cela équivaut à une instruction SELECT … WHERE SQL_EXPRESSION.

Par exemple, pour conserver les enregistrements dans lesquels la colonne year est supérieure ou égale à 2000, la condition est year >= 2000.

Les expressions doivent respecter la syntaxe SQL de BigQuery pour la clause WHERE.

Configurer la table d'erreurs et ajouter une règle de validation

Vous pouvez ajouter un filtre qui crée une règle de validation, qui envoie des erreurs à une table d'erreurs ou qui échoue à l'exécution de la préparation des données.

Configurer la table d'erreurs

Pour configurer votre table d'erreurs, procédez comme suit:

  1. Dans la vue des données, accédez à la barre d'outils, puis cliquez sur Plus > Tableau des erreurs.
  2. Cliquez sur Activer la table des erreurs.
  3. Définissez l'emplacement de la table.
  4. Facultatif: définissez une durée maximale de conservation des erreurs.
  5. Cliquez sur Enregistrer.

Ajouter une règle de validation

Pour ajouter une règle de validation, procédez comme suit:

  1. Dans la vue des données, cliquez sur Ajouter une étape > Filtrer.
  2. Saisissez une description de l'étape.
  3. Saisissez une expression SQL sous la forme d'une clause WHERE.
  4. Facultatif: Si vous souhaitez que l'expression SQL agisse en tant que règle de validation, cochez la case Les lignes de validation ayant échoué sont envoyées vers la table d'erreurs. Vous pouvez également remplacer un filtre par une validation dans la barre d'outils de préparation des données en cliquant sur Plus > Tableau des erreurs.
  5. Facultatif: Cliquez sur Aperçu et vérifiez l'étape.
  6. Cliquez sur Appliquer.

Supprimer une colonne

Pour supprimer une colonne d'une préparation de données, procédez comme suit:

  1. Dans la vue du schéma, cliquez sur more_vert Menu à côté de la colonne à supprimer.
  2. Cliquez sur Supprimer. Une nouvelle étape appliquée est ajoutée pour la colonne supprimée.

Ajouter une opération JOIN

Pour ajouter une étape d'opération de jointure entre deux sources dans votre préparation des données, procédez comme suit:

  1. Dans la vue des données d'un nœud de votre préparation des données, accédez à la liste Étapes, puis cliquez sur Ajouter une étape > Join (Joindre).
  2. Dans la boîte de dialogue Configurer la jointure, sélectionnez l'autre table impliquée dans l'opération de jointure (appelée "côté droit" de la jointure).
  3. Facultatif: Sélectionnez les clés de jointure pour chaque table. Les clés de jointure doivent avoir le même type de données.
  4. Facultatif: Sélectionnez le type d'opération de jointure à effectuer, par exemple Jointure interne.
  5. Facultatif: Pour préparer le tableau de droite avant de spécifier une clé de jointure, par exemple lorsque les types de données des deux colonnes de la jointure diffèrent, procédez comme suit:

    1. Enregistrer une jointure sans clé de jointure sélectionnée
    2. Accédez à la vue graphique et sélectionnez la table source de droite.
    3. Préparez le tableau de droite, par exemple en transformant le type de données d'une colonne.
    4. Modifiez la jointure que vous avez enregistrée à l'étape précédente en définissant une clé.
  6. Cliquez sur Créer.

Toutes les lignes de la table sont conservées, même si aucune valeur correspondante n'est définie dans l'une des tables.

Une fois l'étape enregistrée, la table source que vous avez sélectionnée (côté droit de la jointure) et l'opération de jointure sont reflétées dans la liste des étapes appliquées et dans les nœuds de la vue graphique de votre préparation des données.

Ajouter ou modifier une table de destination

Pour ajouter ou modifier une table de destination pour la sortie de votre préparation de données, procédez comme suit:

  1. Dans la vue des données, cliquez sur Ajouter > Destination.
  2. Sélectionnez le projet dans lequel la table de destination est stockée.
  3. Sélectionnez l'un des ensembles de données ou chargez-en un nouveau.
  4. Saisissez une table de destination. Si la table n'existe pas, la préparation des données en crée une lors de la première exécution. Pour en savoir plus, consultez la section Mode écriture.
  5. Sélectionnez votre ensemble de données comme ensemble de données de destination.
  6. Cliquez sur Enregistrer.

Exécuter la préparation des données

Pour exécuter les étapes de préparation des données et charger les données préparées dans la table de destination, planifiez une exécution de préparation des données ponctuelle ou récurrente:

  1. Enregistrez les modifications en attente dans la préparation des données.
  2. Dans la barre d'outils de préparation des données, cliquez sur Planifier.
  3. Saisissez un nom de programmation.
  4. Saisissez le nom du compte de service associé à l'exécution.
  5. Définissez une fréquence.
  6. Cliquez sur Créer la programmation.

Pour en savoir plus, consultez Planifier la préparation des données.

Actualiser les exemples de préparation des données

Les données de l'échantillon ne sont pas actualisées automatiquement. Si les données des tables sources de la préparation des données ont changé, mais que les modifications ne sont pas reflétées dans l'échantillon de données de la préparation, cliquez sur Plus > Actualiser l'échantillon.

Étape suivante