Accéder aux insights sur les données dans Dataplex

Les insights sur les données offrent un moyen automatisé d'explorer et de comprendre vos données. Avec les insights sur les données, Gemini utilise les métadonnées pour générer des questions en langage naturel sur votre tableau et les requêtes pour y répondre. Cela vous aide à découvrir des tendances, à évaluer la qualité des données et à effectuer des analyses statistiques.

Ce document décrit les principales fonctionnalités des insights sur les données et explique comment les afficher pour une exploration approfondie des données.

Avant de commencer

Les insights sur les données sont générés à l'aide de Gemini dans BigQuery et ne peuvent être générés que dans BigQuery Studio. Commencez par configurer Gemini dans BigQuery, puis générez des insights dans BigQuery. Gemini traite vos métadonnées pour obtenir des insights exclusivement dans la région us-central1. Pour en savoir plus, consultez la section Emplacements de diffusion de Gemini. Une fois les insights générés, vous pouvez les consulter dans Dataplex.

Rôles requis

Pour obtenir un accès en lecture seule aux insights générés, demandez à votre administrateur de vous accorder le rôle IAM suivant :

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis. Pour connaître les autorisations exactes requises pour générer des insights, développez la section Autorisations requises :

Autorisations requises

  • dataplex.datascans.get
  • dataplex.datascans.getData

Activer les API

Pour utiliser les insights sur les données, activez les API suivantes dans votre projet :

Pour en savoir plus sur l'activation de l'API Gemini pour Google Cloud, consultez Activer l'API Gemini pour Google Cloud dans un projet Google Cloud.

À propos des insights sur les données

Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid. Le problème implique souvent des incertitudes concernant la structure des données, les approches clés et les insights associés dans les données, ce qui rend difficile l'écriture des requêtes.

Les insights sur les données résolvent le problème de démarrage à froid en générant automatiquement des requêtes en langage naturel et leurs équivalents SQL en fonction des métadonnées d'une table. Plutôt que de commencer avec un éditeur de requêtes vide, vous pouvez lancer rapidement l'exploration des données à l'aide de requêtes pertinentes qui fournissent de précieux insights. Pour approfondir l'examen, vous pouvez poser des questions complémentaires dans le canevas de données.

Exemple d'exécution d'insights

Prenons l'exemple d'une table appelée telco_churn contenant les métadonnées suivantes :

Nom du champ Type
CustomerID STRING
Sexe STRING
Ancienneté INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrat STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :

  • Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifiez le service Internet qui compte le plus de clients perdus.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Afficher les statistiques

Pour afficher les insights d'une table BigQuery, accédez à l'entrée de table dans Dataplex à l'aide de la recherche Dataplex.

  1. Dans la console Google Cloud, accédez à la page Recherche de Dataplex.

    Accéder à page de "Recherche" de Dataplex

  2. Recherchez l'entrée de table dans Dataplex.

  3. Cliquez sur l'onglet Insights. Si l'onglet est vide, cela signifie que les insights de cette table ne sont pas encore générés. Vous pouvez générer des insights sur les données dans BigQuery Studio.

Tarifs

Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.

Quotas et limites

Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.

Limites

  • Les insights sur les données sont disponibles pour les tables BigQuery, les tables BigLake, les tables externes et les vues.
  • Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
  • Les insights sur les données ne sont pas compatibles avec les types de colonnes Geo et JSON.
  • Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, regénérez les insights dans BigQuery Studio.

Étape suivante