Générer des insights de profils de données à l'aide des analyses

Ce document explique comment utiliser BigQuery et Dataplex pour mieux comprendre vos données. BigQuery utilise Dataplex pour analyser les caractéristiques statistiques de vos données, telles que les valeurs moyennes, les valeurs uniques et les valeurs maximales. Dataplex utilise également ces informations pour recommander des règles pour les contrôles de qualité des données.

Pour en savoir plus sur le profilage de données, consultez la page À propos du profilage de données.

Avant de commencer

  • Pour créer et modifier des analyses dans votre projet, activez l'API Dataplex.

    Activez l'API Dataplex.

  • Pour les analyses multiprojets : créez un identifiant de service Dataplex à l'aide de la commande gcloud beta services identity create. Si aucun identifiant de service Dataplex n'existe, cette commande en renvoie un nouveau. Si un identifiant de service existe déjà, la commande renvoie l'identifiant existant. Cette commande peut vous inviter à installer le composant des commandes bêta de gcloud CLI.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Rôles requis

Demandez à votre administrateur d'attribuer les rôles suivants aux comptes principaux appropriés en fonction des cas d'utilisation auxquels ils ont besoin d'accéder. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Rôles BigQuery

  • Lecteur de données BigQuery sur une table pour créer une analyse sur cette table sans publier les résultats.
  • Éditeur de données BigQuery sur une table pour créer une analyse sur cette table et la publier.
  • Si la table BigQuery et l'analyse du profil de données se trouvent dans des projets différents, vous devez attribuer au compte principal ou au compte de service Dataplex associé l'autorisation de lecture bigquery.tables.getData (ou le rôle Lecteur de données BigQuery) sur la table BigQuery correspondante. Pour obtenir l'identité du service pour un compte de service, consultez la section Avant de commencer.
  • Si vous analysez une table externe BigQuery à partir de Cloud Storage, attribuez le rôle Cloud Storage (roles/storage.objectViewer) au compte de service Dataplex.

Rôles Dataplex

  • Administrateur Dataplex DataScan au niveau du projet : permet de créer des analyses.
  • Éditeur Dataplex DataScan sur une analyse : permet de modifier les propriétés d'une analyse (à l'exception des autorisations), d'exécuter l'analyse et de la supprimer.
  • Lecteur de données Dataplex DataScan sur une analyse : permet d'afficher les résultats d'une analyse.

Ces rôles contiennent les autorisations nécessaires pour les cas d'utilisation précédents. Pour connaître les autorisations exactes requises, développez la section Autorisations requises.

Autorisations requises

Vous devez disposer des autorisations suivantes pour utiliser divers aspects des analyses de profils de données :

  • Pour modifier la configuration d'une analyse de données : dataplex.datascans.update - sur la ressource d'analyse de données
  • Pour modifier la stratégie d'une analyse de données : dataplex.datascans.setIamPolicy - sur la ressource d'analyse de données
  • Pour créer une analyse de données sur une table BigQuery : bigquery.tables.getData - la table à analyser
  • Pour créer des analyses de données dans un projet : dataplex.datascans.create - sur le projet
  • Pour supprimer une analyse de données : dataplex.datascans.delete - sur la ressource d'analyse de données
  • Pour exporter les résultats de l'analyse de données vers un ensemble de données BigQuery : bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData - l'ensemble de données de destination.
  • Pour publier les résultats d'une analyse de données dans une table : bigquery.tables.update - la table de destination
  • Pour exécuter une analyse de données : dataplex.datascans.run - sur la ressource d'analyse de données
  • Pour analyser une table externe Cloud Storage : storage.buckets.get, storage.objects.get - le bucket contenant les tables à analyser
  • Pour afficher les résultats d'une analyse de données : dataplex.datascans.getData - sur la ressource d'analyse de données
  • Pour afficher les résultats d'une analyse de données : dataplex.datascans.get - sur la ressource d'analyse de données
  • Pour afficher les résultats d'une analyse de données : dataplex.datascans.list - sur la ressource d'analyse de données

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer une analyse de profil de données

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, cliquez sur une table pour l'analyse du profil de données.

  3. Cliquez sur l'onglet Profil de données.

  4. Cliquez sur Analyse du profil de données > Créer une analyse.

  5. Facultatif : modifiez les valeurs suivantes :

    • Nom à afficher : nom modifiable de la ressource dans la console.
    • ID : identifiant unique de l'analyse. Cet identifiant ne peut plus être modifié une fois l'analyse créée.
    • Description : une description de l'analyse.
    • Région : définit la région dans laquelle l'analyse des données est traitée.
    • Champ d'application : plage de données disponible pour l'analyse. Sélectionnez Incrémentiel ou Intégralité des données. Si vous choisissez Incrémentiel, nous vous recommandons d'inclure une colonne DATE ou TIMESTAMP qui augmente de façon linéaire. Cette colonne peut être utilisée pour identifier de nouveaux enregistrements. Pour les tables partitionnées sur des colonnes de type DATE ou TIMESTAMP, il est recommandé d'utiliser la colonne de partition comme champ d'horodatage.
    • Filtres : filtres à appliquer aux données avant l'exécution de l'analyse. Vous pouvez sélectionner Filtrer les lignes, Filtrer les colonnes ou les deux.
      • Pour filtrer des lignes, cochez la case Filtrer des lignes et saisissez une expression SQL valide dans le champ de texte d'entrée. L'expression doit être en syntaxe SQL standard BigQuery et peut être utilisée dans une clause WHERE.
      • Pour filtrer les colonnes, cochez la case Filtrer les colonnes et renseignez le champ Inclure les colonnes, le champ Exclure des colonnes, ou les deux.
    • Taille d'échantillonnage : pourcentage de données que vous souhaitez échantillonner. Pour les analyses de données incrémentielles, seul le dernier incrément est échantillonné.
    • Publier les résultats dans les interfaces utilisateur de BigQuery et de Dataplex Catalog : cette option permet de rendre les derniers résultats d'analyse de profilage des données disponibles dans l'interface utilisateur de BigQuery, sous l'onglet Profil de données pour la table source. Si une analyse est en cours d'exécution et configurée pour être publiée, cette option peut ne pas être disponible.
    • Programmation : peut être défini sur À la demande (par défaut) ou Répéter. Si vous sélectionnez Répéter, spécifiez la fréquence de l'analyse planifiée avec Quotidienne, Hebdomadaire, Mensuelle, ou Personnalisée. Pour une fréquence personnalisée, le format Cron est utilisé pour spécifier la planification. Par exemple, une analyse configurée pour s'exécuter le deuxième mardi du mois à 1h00 ressemblerait à ceci : 0 1 8-14 * 2.
  6. Facultatif : pour faire défiler le volet afin d'afficher des paramètres facultatifs supplémentaires, cliquez sur Continuer et modifiez les valeurs suivantes :

    • Exporter les résultats d'analyse vers une table BigQuery : sélectionnez un ensemble de données BigQuery et une table où enregistrer les résultats d'analyse de profil. Si un ensemble de données est défini, mais qu'aucune table n'est définie, Dataplex crée une table pour vous. Les tables créées de cette manière peuvent entraîner des coûts de stockage.
    • Libellés : permet d'ajouter un libellé à l'analyse.
  7. Cliquez sur l'un des boutons suivants en fonction de vos besoins :

    • Pour enregistrer les paramètres d'analyse, cliquez sur Créer.
    • Pour enregistrer et exécuter l'analyse, cliquez sur Exécuter.

Gérer les autorisations d'analyse de profil de données

Pour modifier les autorisations d'accès aux analyses de profil existantes, procédez comme suit :

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de profil de données.

  3. Cliquez sur l'onglet Profil de données.

  4. Cliquez sur Analyse du profil de données > Gérer les autorisations d'analyse. Dataplex s'ouvre alors dans un nouvel onglet.

  5. Cliquez sur l'onglet Autorisations.

    • Pour accorder l'accès à un compte principal, cliquez sur Accorder l'accès et accordez le rôle Lecteur de données Dataplex DataScan au compte principal associé.
    • Pour supprimer l'accès d'un compte principal, cliquez sur Supprimer l'accès et supprimez Lecteur de données Dataplex DataScan du compte principal associé.

Modifier une analyse de profil de données existante

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de profil de données.

  3. Cliquez sur Analyse du profil de données > Modifier la configuration d'analyse.

Les paramètres d'analyse du profil de données s'ouvrent. Ils peuvent être modifiés et enregistrés pour les analyses ultérieures.

Afficher les résultats d'analyse de profil de données

Il existe plusieurs façons d'afficher les résultats d'analyse de profils de données. Choisissez l'option qui correspond le mieux à vos besoins.

Afficher les résultats publiés

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de profil de données.

  3. Cliquez sur l'onglet Profil de données.

Les derniers résultats publiés s'affichent dans cette vue.

Afficher l'historique des résultats d'analyse

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de profil de données.

  3. Cliquez sur l'onglet Profil de données.

  4. Cliquez sur Analyse du profil de données > Afficher l'historique des résultats.

Afficher toutes les analyses de profils de données sur une table

Pour ouvrir l'historique d'analyse pour une table spécifique dans Dataplex, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de profil de données.

  3. Cliquez sur Analyse du profil de données > Afficher toutes les analyses.