Générer des insights sur les données dans BigQuery
Les insights sur les données offrent un moyen automatisé d'explorer et de comprendre vos données. Ils utilisent Gemini pour générer des requêtes basées sur les métadonnées d'une table, et vous aident à découvrir des modèles, évaluer la qualité des données et effectuer des analyses statistiques.
Ce document décrit les principales fonctionnalités des insights sur les données et le processus permettant d'automatiser la génération de requêtes pour une exploration approfondie des données.
Avant de commencer
Les insights sur les données sont générés à l'aide de Gemini dans BigQuery. Pour commencer à générer des insights, vous devez d'abord configurer Gemini dans BigQuery.
Rôles requis
Pour créer, gérer et récupérer des insights sur les données, demandez à votre administrateur de vous accorder les rôles IAM suivants :
Éditeur Dataplex DataScan (
roles/dataplex.dataScanEditor
) ou Administrateur Dataplex DataScan (roles/dataplex.dataScanAdmin
) du projet pour lequel vous souhaitez générer des insights.Lecteur de données BigQuery (
roles/bigquery.dataViewer
) sur les tables BigQuery pour lesquelles vous souhaitez générer des insights.Utilisateur BigQuery (
roles/bigquery.user
) ou utilisateur BigQuery Studio (roles/bigquery.studioUser
) du projet pour lequel vous souhaitez générer des insights.
Pour obtenir un accès en lecture seule aux insights générés, demandez à votre administrateur de vous accorder le rôle IAM suivant :
- Lecteur de données Dataplex DataScan (
roles/dataplex.dataScanDataViewer
) sur le projet contenant les tables BigQuery pour lesquelles vous souhaitez afficher des insights.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux comptes de service.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis. Pour connaître les autorisations exactes requises pour générer des insights, développez la section Autorisations requises :
Autorisations requises
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
Activer les API
Pour utiliser les insights sur les données, activez les API suivantes dans votre projet :
Pour en savoir plus sur l'activation de l'API Gemini pour Google Cloud, consultez Activer l'API Gemini pour Google Cloud dans un projet Google Cloud.
À propos des insights sur les données
Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid. Le problème implique souvent des incertitudes concernant la structure des données, les approches clés et les insights associés dans les données, ce qui rend difficile l'écriture des requêtes. Les insights sur les données résolvent le problème de démarrage à froid en générant automatiquement des requêtes en langage naturel et SQL en fonction des métadonnées de la table. Plutôt que de commencer avec un éditeur de requêtes vide, vous pouvez lancer rapidement l'exploration des données à l'aide de requêtes pertinentes qui fournissent de précieux insights. Les requêtes générées à l'aide d'insights sont ancrées à l'aide des données d'analyse de profil publiées pour améliorer leur justesse et leur utilité.
Exemple d'exécution d'insights
Prenons l'exemple d'une table appelée telco_churn
contenant les métadonnées suivantes :
Nom du champ | Type |
---|---|
CustomerID | STRING |
Sexe | STRING |
Ancienneté | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Contrat | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :
Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifiez le service Internet qui compte le plus de clients perdus.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
À propos de l'ancrage des insights à l'aide des analyses de profil
Lorsque vous créez une analyse de profil de données pour une table, vous pouvez choisir de publier les résultats de l'analyse dans BigQuery et Dataplex Catalog. BigQuery utilise les données d'analyse de profil publiées pour générer des requêtes plus précises et adaptées concernant la table.
Les données d'analyse de profil fournissent des informations sur la distribution des données, les types de données et les résumés statistiques de l'ensemble de données. Les insights sur les données utilisent les données d'analyse de profil pour créer des requêtes basées sur la distribution et les modèles réels des données de l'ensemble de données. Ce processus comprend les étapes suivantes :
- Analyse des données d'analyse de profil pour identifier des modèles, des tendances ou des anomalies intéressants dans les données
- Génération des requêtes axées sur ces modèles, tendances ou anomalies afin d'identifier des insights
- Validation des requêtes générées par rapport aux données d'analyse de profil pour vous assurer qu'elles renvoient des résultats significatifs
Si aucune analyse n'est disponible, les insights sont générés en fonction des noms et des descriptions des colonnes.
Conseils pour améliorer les insights sur les données
Les requêtes ancrées garantissent que les insights générés sont basés sur les tendances réelles et les valeurs réelles de vos données. Pour tirer le meilleur parti des requêtes ancrées à l'aide des données d'analyse de profil, suivez ces conseils :
- Assurez-vous que votre table contient des données d'analyse de profil publiées à jour.
- Examinez les requêtes générées pour comprendre comment elles sont ancrées sur les données d'analyse de profil.
- Ajustez les paramètres d'analyse de votre profil pour augmenter la taille de l'échantillonnage et filtrer les lignes et les colonnes.
- Ajoutez des descriptions à la table et à ses colonnes. Des descriptions plus précises et détaillées peuvent contribuer à produire des insights de meilleure qualité.
- Une fois que vous avez mis à jour l'analyse de votre profil ou les descriptions, générez à nouveau des insights pour votre table.
Générer des insights pour une table BigQuery
Afin de générer des insights pour une table BigQuery, vous devez accéder à l'entrée de table dans BigQuery à l'aide de BigQuery Studio.
Dans la console Google Cloud, accédez à BigQuery Studio.
Dans le volet Explorateur, sélectionnez la table pour laquelle vous souhaitez générer des insights.
Cliquez sur l'onglet Insights. Si l'onglet est vide, cela signifie que les insights de cette table ne sont pas encore générés.
Pour déclencher le pipeline d'insights, cliquez sur Générer des insights.
L'insertion des insights prend quelques minutes.
Si une analyse de profil publiée pour la table est disponible, elle permet de générer des insights complets. Sinon, les insights sont générés en fonction des noms et des descriptions des colonnes. Cette approche vous permet de recevoir des insights indifféremment de la disponibilité d'une analyse de profil.
Dans l'onglet Insights, explorez les requêtes générées et leur description.
Pour ouvrir une requête dans BigQuery, cliquez sur Copier vers la requête.
Pour générer un nouvel ensemble de requêtes, cliquez sur Générer des insights et déclenchez une nouvelle exécution de pipeline.
Une fois que vous avez généré des insights pour une table, toute personne disposant de l'autorisation dataplex.datascans.getData
et ayant accès à la table peut les consulter.
Générer des insights pour une table externe BigQuery
Les insights sur les données BigQuery permettent de générer des insights pour les tables externes BigQuery contenant des données dans Cloud Storage.
Vous et le compte de service Dataplex pour le projet actuel devez disposer du rôle Lecteur des objets Storage (roles/storage.objectViewer
) sur le bucket Cloud Storage contenant les données. Pour plus d'informations, consultez la section Ajouter un compte principal à une stratégie au niveau du bucket.
Pour générer des insights pour une table externe BigQuery, suivez les instructions décrites dans la section Générer des insights pour une table BigQuery de ce document.
Générer des insights pour une table BigLake
Pour générer des insights pour une table BigLake, procédez comme suit :
Activez l'API Connection BigQuery dans votre projet.
Créer une connexion BigQuery Pour en savoir plus, consultez la page Gérer les connexions.
Attribuez le rôle IAM de lecteur des objets de l'espace de stockage (
roles/storage.objectViewer
) au compte de service correspondant à la connexion BigQuery que vous avez créée.Vous pouvez récupérer l'ID du compte de service à partir des informations de connexion.
Pour générer des insights, suivez les instructions décrites dans la section Générer des insights pour une table BigQuery de ce document.
Tarifs
Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.
Quotas et limites
Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.
Limites
- Les insights sur les données sont disponibles pour les tables BigQuery, les tables BigLake, les tables externes et les vues.
- Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
- Les insights sur les données ne sont pas compatibles avec les types de colonnes
Geo
etJSON
. - Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, relancez le pipeline d'insights.
- Pour les tables avec un contrôle des accès au niveau des colonnes (LCA) et des autorisations utilisateur limitées, vous pouvez générer des insights si vous disposez d'un accès en lecture à toutes les colonnes de la table. Pour exécuter les requêtes générées, vous devez disposer d'autorisations suffisantes.
Étape suivante
- En savoir plus sur le profilage de données Dataplex.
- Découvrez comment écrire des requêtes avec l'assistance de Gemini dans BigQuery.