Préparer des données avec Gemini
Ce document explique comment générer et gérer des suggestions de code SQL pour la préparation de vos données dans BigQuery.
Pour en savoir plus, consultez la page Présentation de la préparation des données BigQuery.
Avant de commencer
Ouvrir l'éditeur de préparation des données dans BigQuery
Vous pouvez ouvrir l'éditeur de préparation des données dans BigQuery en créant une préparation des données, en en créant une à partir d'une table existante ou en ouvrant une préparation des données existante. Pour en savoir plus sur ce qui se passe lorsque vous créez une préparation de données, consultez la section Points d'entrée de la préparation des données.
Sur la page BigQuery Studio, vous pouvez accéder à l'éditeur de préparation des données de différentes manières:
Créer
Pour créer une préparation de données dans BigQuery, procédez comme suit:
- Dans la console Google Cloud, accédez à la page BigQuery Studio.
Accéder à BigQuery - Accédez à la liste Créer, puis cliquez sur Préparation des données. L'éditeur de préparation des données s'affiche dans un nouvel onglet de préparation des données sans titre.
- Dans la barre de recherche de l'éditeur, saisissez le nom de votre table ou des mots clés, puis sélectionnez une table. L'éditeur de préparation des données du tableau s'ouvre et affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
Une ressource Préparation des données s'affiche dans le volet Explorer, où vous pourrez accéder à cette préparation à l'avenir. - Facultatif: Pour simplifier la vue, activez le mode plein écran en cliquant sur plein écran Plein écran.
Créer à partir d'une table
Pour créer une préparation de données à partir d'une table existante, procédez comme suit:
- Dans la console Google Cloud, accédez à la page BigQuery Studio.
Accéder à BigQuery - Dans le volet Explorateur, pointez sur une table.
- Cliquez sur plus_vert
Menu > Requête dans > Préparation des données. L'éditeur de préparation des données du tableau s'ouvre et affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
Une ressource Préparation des données s'affiche dans le volet Explorer, où vous pourrez accéder à cette préparation à l'avenir. - Facultatif: Pour simplifier la vue, activez le mode plein écran en cliquant sur plein écran Plein écran.
Ouvrir
Pour ouvrir l'éditeur pour une préparation de données existante, procédez comme suit:
- Dans la console Google Cloud, accédez à la page BigQuery Studio.
Accéder à BigQuery - Dans le volet Explorer, cliquez sur le nom de votre projet et sur Préparation des données.
- Sélectionnez la préparation des données existante. La vue graphique du pipeline de préparation des données s'affiche.
- Sélectionnez l'un des nœuds du graphique. L'éditeur de préparation des données du tableau s'ouvre et affiche un aperçu de vos données dans l'onglet Données, ainsi qu'un ensemble initial de suggestions de préparation des données de Gemini.
- Facultatif: Pour simplifier la vue, activez le mode plein écran en cliquant sur plein écran Plein écran.
Créer des étapes de préparation des données
Vous préparez les données en plusieurs étapes. Vous pouvez prévisualiser ou appliquer les étapes suggérées par Gemini. Vous pouvez également affiner les suggestions ou appliquer vos propres étapes. Pour en savoir plus sur les étapes de préparation des données acceptées, consultez la section Étapes acceptées.
Afficher, modifier et appliquer les suggestions de Gemini
Lorsque vous ouvrez l'éditeur de préparation des données pour votre table dans les étapes précédentes, Gemini inspecte les données et le schéma du tableau que vous avez chargé, puis génère des suggestions.
Lorsque vous affichez les données dans la vue des données, cliquez sur un nom de colonne ou sur une cellule spécifique. Gemini génère des suggestions de filtre et de transformation spécifiques à cette colonne ou à cette cellule.
Appliquer une suggestion de Gemini comme étape de préparation des données:
- Dans la vue des données, accédez à la liste Étapes et examinez les suggestions.
- Facultatif: Pour prévisualiser le résultat de la fiche de suggestion, cliquez sur Aperçu.
Facultatif: Pour modifier la fiche de suggestion à l'aide du langage naturel, cliquez sur Modifier.
Pour en savoir plus sur la modification des suggestions, consultez les articles Améliorer les suggestions à l'aide d'un exemple et Ajouter des étapes en langage naturel ou en expressions SQL.
Cliquez sur Appliquer.
Parcourir la liste d'étapes
Vous pouvez effectuer les actions suivantes dans la vue des données lorsque vous cliquez sur Étapes appliquées et inspectez la liste des étapes:
- Modifiez ou supprimez une étape de la liste en cliquant sur more_vert Menu, puis effectuez les modifications nécessaires.
- Sélectionnez une étape de la liste pour afficher l'échantillon de données et le schéma à partir de cette étape.
- Sélectionnez une étape dans la liste pour insérer de nouvelles étapes après celle sélectionnée.
Améliorer les suggestions avec un exemple
Pour affiner les suggestions de Gemini, donnez-lui un exemple de la forme que doivent prendre les données dans la cellule:
Dans la vue des données, modifiez les valeurs d'une à trois cellules pour montrer à quoi doivent ressembler les valeurs de cette colonne. Par exemple, saisissez une date au format souhaité pour toutes les dates. Gemini génère de nouvelles suggestions en fonction de vos modifications.
Pour modifier une fiche de suggestion, cliquez sur Modifier.
Cliquez sur Appliquer.
Ajouter des étapes avec du langage naturel ou des expressions SQL
Si aucune suggestion ne répond à vos besoins, ajoutez la vôtre en cliquant sur Ajouter une étape, en sélectionnant un type d'étape et en saisissant une invite en langage naturel décrivant votre intention.
Ajouter une transformation
- Dans la vue des données, cliquez sur Ajouter une étape, puis sélectionnez l'option Transformation.
- Dans le champ Description, saisissez une requête, par exemple
Convert the state column to a uppercase
. Cliquez sur Envoyer Envoyer.
Gemini génère une expression SQL et une nouvelle description en fonction de votre requête.
Dans la liste Colonne cible, sélectionnez ou saisissez un nom de colonne.
Facultatif: Pour mettre à jour l'expression SQL, révisez la requête, puis cliquez sur send (Envoyer) Send (Envoyer) ou saisissez manuellement une expression SQL.
Facultatif: Cliquez sur Aperçu et vérifiez l'étape.
Cliquez sur Appliquer.
Filtrer les lignes
Pour ajouter un filtre qui supprime des lignes, procédez comme suit:
- Dans la vue des données, cliquez sur Ajouter une étape > Filtrer.
- Dans le champ Description, saisissez une requête, par exemple
Column ID should not be NULL
. - Cliquez sur Générer. Gemini génère une expression SQL et une nouvelle description en fonction de votre requête.
- Facultatif: Pour mettre à jour l'expression SQL, révisez la requête, puis cliquez sur send (Envoyer) Send (Envoyer) ou saisissez une expression SQL manuellement.
- Facultatif: Cliquez sur Aperçu et vérifiez l'étape.
- Cliquez sur Appliquer.
Format de l'expression de filtre
Les expressions SQL pour les filtres conservent les lignes qui correspondent à la condition spécifiée. Cela équivaut à une instruction SELECT … WHERE SQL_EXPRESSION
.
Par exemple, pour conserver les enregistrements dans lesquels la colonne year
est supérieure ou égale à 2000
, la condition est year >= 2000
.
Les expressions doivent respecter la syntaxe SQL de BigQuery pour la clause WHERE
.
Configurer la table d'erreurs et ajouter une règle de validation
Vous pouvez ajouter un filtre qui crée une règle de validation, qui envoie des erreurs à une table d'erreurs ou qui échoue à l'exécution de la préparation des données.
Configurer la table d'erreurs
Pour configurer votre table d'erreurs, procédez comme suit:
- Dans la vue des données, accédez à la barre d'outils, puis cliquez sur Plus > Tableau des erreurs.
- Cliquez sur Activer la table des erreurs.
- Définissez l'emplacement de la table.
- Facultatif: définissez une durée maximale de conservation des erreurs.
- Cliquez sur Enregistrer.
Ajouter une règle de validation
Pour ajouter une règle de validation, procédez comme suit:
- Dans la vue des données, cliquez sur Ajouter une étape > Filtrer.
- Saisissez une description de l'étape.
- Saisissez une expression SQL sous la forme d'une clause
WHERE
. - Facultatif: Si vous souhaitez que l'expression SQL agisse en tant que règle de validation, cochez la case Les lignes de validation ayant échoué sont envoyées vers la table d'erreurs. Vous pouvez également remplacer un filtre par une validation dans la barre d'outils de préparation des données en cliquant sur Plus > Tableau des erreurs.
- Facultatif: Cliquez sur Aperçu et vérifiez l'étape.
- Cliquez sur Appliquer.
Supprimer une colonne
Pour supprimer une colonne d'une préparation de données, procédez comme suit:
- Dans la vue du schéma, cliquez sur more_vert Menu à côté de la colonne à supprimer.
- Cliquez sur Supprimer. Une nouvelle étape appliquée est ajoutée pour la colonne supprimée.
Ajouter une opération de jointure avec Gemini
Pour ajouter une étape d'opération de jointure entre deux sources dans votre préparation des données, procédez comme suit:
- Dans la vue des données d'un nœud de votre préparation des données, accédez à la liste Étapes, puis cliquez sur Ajouter une étape > Join (Joindre).
- Dans la boîte de dialogue Ajouter une jointure, cliquez sur Parcourir, puis sélectionnez l'autre table impliquée dans l'opération de jointure (appelée côté droit de la jointure).
- Facultatif: Sélectionnez le type d'opération de jointure que vous souhaitez effectuer, par exemple Jointure interne.
Vérifiez les informations sur la clé de jointure générée par Gemini dans les champs suivants:
- Description de la jointure: description en langage naturel de l'expression SQL pour l'opération de jointure. Lorsque vous modifiez cette description et cliquez sur Envoyer Envoyer, Gemini suggère de nouvelles conditions de jointure SQL.
Conditions de jointure: expressions SQL dans la clause
ON
pour l'opération de jointure. Vous pouvez utiliser les qualificatifsL
etR
pour faire référence aux tables sources de gauche et de droite, respectivement. Par exemple, pour joindre la colonnecustomer_id
de la table de gauche à la colonnecustomer_id
de la table de droite, saisissezL.customerId = R.customerId
. Ces qualificatifs ne sont pas sensibles à la casse.
Facultatif: Pour affiner les suggestions de Gemini, modifiez le champ Join description (Description de l'association), puis cliquez sur send (Envoyer).
Facultatif: Pour prévisualiser les paramètres de l'opération de jointure de votre préparation des données, cliquez sur Aperçu.
Cliquez sur Appliquer.
L'étape d'opération de jointure est créée. La table source que vous avez sélectionnée (côté droit de la jointure) et l'opération de jointure sont reflétées dans la liste des étapes appliquées et dans les nœuds de la vue graphique de la préparation des données.
Ajouter ou modifier une table de destination
Pour ajouter ou modifier une table de destination pour la sortie de votre préparation de données, procédez comme suit:
- Dans la vue des données, cliquez sur Ajouter > Destination.
- Sélectionnez le projet dans lequel la table de destination est stockée.
- Sélectionnez l'un des ensembles de données ou chargez-en un nouveau.
- Saisissez une table de destination. Si la table n'existe pas, la préparation des données en crée une lors de la première exécution. Pour en savoir plus, consultez la section Mode écriture.
- Sélectionnez votre ensemble de données comme ensemble de données de destination.
- Cliquez sur Enregistrer.
Exécuter la préparation des données
Une fois que vous avez ajouté vos étapes de préparation des données, configuré la destination et corrigé les éventuelles erreurs de validation, vous pouvez effectuer des exécutions tests sur un échantillon des données, ou déployer les étapes et planifier des exécutions de préparation des données. Pour en savoir plus, consultez la section Planifier la préparation des données.
Actualiser les exemples de préparation des données
Les données de l'échantillon ne sont pas actualisées automatiquement. Si les données des tables sources de la préparation des données ont changé, mais que les modifications ne sont pas reflétées dans l'échantillon de données de la préparation, cliquez sur Plus > Actualiser l'échantillon.
Étape suivante
- Découvrez comment planifier la préparation des données.
- Découvrez comment gérer la préparation des données.
- Découvrez les quotas et limites de Gemini dans BigQuery.
- Consultez les tarifs de Gemini dans BigQuery.