Surveiller la qualité des données grâce aux analyses

Ce document explique comment utiliser BigQuery et Dataplex pour vous assurer que les données répondent à vos attentes en termes de qualité. BigQuery utilise Dataplex pour définir des vérifications de données continues, surveiller les résultats et résoudre les problèmes de qualité des données.

Pour en savoir plus sur la qualité automatique des données, consultez la page À propos de la qualité automatique des données.

Avant de commencer

  • Pour créer et modifier des analyses dans votre projet, activez l'API Dataplex.

    Activez l'API Dataplex.

  • Pour les analyses multiprojets : créez un identifiant de service Dataplex à l'aide de la commande gcloud beta services identity create. Si aucun identifiant de service Dataplex n'existe, cette commande en renvoie un nouveau. Si un identifiant de service existe déjà, la commande renvoie l'identifiant existant. Cette commande peut vous inviter à installer le composant des commandes bêta de gcloud CLI.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Rôles requis

Demandez à votre administrateur d'attribuer les rôles suivants aux comptes principaux appropriés en fonction des cas d'utilisation auxquels ils ont besoin d'accéder. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Rôles BigQuery

  • Lecteur de données BigQuery sur une table pour créer une analyse sur cette table sans publier les résultats.
  • Éditeur de données BigQuery sur une table pour créer une analyse sur cette table et la publier.
  • Si la table BigQuery et l'analyse de qualité des données se trouvent dans des projets différents, vous devez attribuer au compte de service Dataplex l'autorisation de lecture bigquery.tables.getData (ou le rôle Lecteur de données BigQuery) sur la table BigQuery correspondante. Pour obtenir l'identité du service pour un compte de service, consultez la section Avant de commencer.
  • Si vous analysez une table externe BigQuery à partir de Cloud Storage, attribuez le rôle Cloud Storage (roles/storage.objectViewer) au compte de service Dataplex.

Rôles Dataplex

  • Administrateur Dataplex DataScan au niveau du projet : permet de créer des analyses.
  • Éditeur Dataplex DataScan sur une analyse : permet de modifier les propriétés d'une analyse (à l'exception des autorisations), d'exécuter l'analyse et de la supprimer.
  • Lecteur de données Dataplex DataScan sur une analyse : permet d'afficher les résultats d'une analyse.

Ces rôles contiennent les autorisations nécessaires pour les cas d'utilisation précédents. Pour connaître les autorisations exactes requises, développez la section Autorisations requises.

Autorisations requises

Vous devez disposer des autorisations suivantes pour utiliser divers aspects des analyses de qualité des données :

  • Pour modifier la configuration d'une analyse de données : dataplex.datascans.update - sur la ressource d'analyse de données
  • Pour modifier la stratégie d'une analyse de données : dataplex.datascans.setIamPolicy - sur la ressource d'analyse de données
  • Pour créer une analyse de données sur une table BigQuery : bigquery.tables.getData - la table à analyser
  • Pour créer des analyses de données dans un projet : dataplex.datascans.create - sur le projet
  • Pour supprimer une analyse de données : dataplex.datascans.delete - sur la ressource d'analyse de données
  • Pour exporter les résultats de l'analyse de données vers un ensemble de données BigQuery : bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData - l'ensemble de données de destination.
  • Pour publier les résultats d'une analyse de données dans une table : bigquery.tables.update - la table de destination
  • Pour exécuter une analyse de données : dataplex.datascans.run - sur la ressource d'analyse de données
  • Pour analyser une table externe Cloud Storage : storage.buckets.get, storage.objects.get - le bucket contenant les tables à analyser
  • Pour afficher les résultats d'une analyse de données : dataplex.datascans.getData - sur la ressource d'analyse de données
  • Pour afficher les résultats d'une analyse de données : dataplex.datascans.get - sur la ressource d'analyse de données
  • Pour afficher les résultats d'une analyse de données : dataplex.datascans.list - sur la ressource d'analyse de données

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer une analyse de qualité des données

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, cliquez sur une table pour l'analyse de qualité des données.

  3. Cliquez sur l'onglet Qualité des données.

  4. Cliquez sur Analyse de qualité des données > Créer une analyse.

  5. Facultatif : modifiez les valeurs suivantes :

    • Nom à afficher : nom modifiable de la ressource dans la console.
    • ID : identifiant unique de l'analyse. Cet identifiant ne peut plus être modifié une fois l'analyse créée.
    • Description : une description de l'analyse.
    • Région : définit la région dans laquelle l'analyse des données est traitée.
    • Champ d'application : plage de données disponible pour l'analyse. Sélectionnez Incrémentiel ou Intégralité des données. Si vous choisissez Incrémentiel, nous vous recommandons d'inclure une colonne DATE ou TIMESTAMP qui augmente de façon linéaire. Cette colonne peut être utilisée pour identifier de nouveaux enregistrements. Pour les tables partitionnées sur des colonnes de type DATE ou TIMESTAMP, il est recommandé d'utiliser la colonne de partition comme champ d'horodatage.
    • Filtres : filtres à appliquer aux données avant l'exécution de l'analyse. Pour filtrer des lignes, cochez la case Filtrer des lignes et saisissez une expression SQL valide dans le champ de texte d'entrée. L'expression doit être en syntaxe SQL standard BigQuery et peut être utilisée dans une clause WHERE.
    • Taille d'échantillonnage : pourcentage de données que vous souhaitez échantillonner. Pour les analyses de données incrémentielles, seul le dernier incrément est échantillonné.
    • Publier les résultats dans les interfaces utilisateur de BigQuery et de Dataplex Catalog : cette option permet de rendre les derniers résultats d'analyse de profilage des données disponibles dans l'interface utilisateur de BigQuery, sous l'onglet Qualité des données pour la table source. Si une analyse est en cours d'exécution et configurée pour être publiée, cette option peut ne pas être disponible.
    • Programmation : peut être défini sur À la demande (par défaut) ou Répéter. Si vous sélectionnez Répéter, spécifiez la fréquence de l'analyse planifiée avec Quotidienne, Hebdomadaire, Mensuelle, ou Personnalisée. Pour une fréquence personnalisée, le format Cron est utilisé pour spécifier la planification. Par exemple, une analyse configurée pour s'exécuter le deuxième mardi du mois à 1h00 ressemblerait à ceci : 0 1 8-14 * 2.
  6. Pour faire défiler le volet afin d'afficher les paramètres des règles de qualité des données, cliquez sur Continuer.

  7. Cliquez sur Ajouter des règles et ajoutez une ou plusieurs des règles suivantes, le cas échéant. Vous pouvez également supprimer des règles en utilisant l'option Supprimer.

    • Recommandations basées sur les profils
    • Types de règles intégrés
    • Règle de vérification des lignes SQL
    • Règle de vérification des agrégations SQL
  8. Facultatif : pour faire défiler le volet afin d'afficher des paramètres facultatifs supplémentaires, cliquez sur Continuer et modifiez les valeurs suivantes :

    • Exporter les résultats d'analyse vers une table BigQuery : sélectionnez un ensemble de données BigQuery et une table où enregistrer les résultats d'analyse de qualité. Si un ensemble de données est défini, mais qu'aucune table n'est définie, Dataplex crée une table pour vous. Les tables créées de cette manière peuvent entraîner des coûts de stockage.
    • Libellés : permet d'ajouter un libellé à l'analyse.
  9. Cliquez sur l'un des boutons suivants en fonction de vos besoins :

    • Pour enregistrer les paramètres d'analyse, cliquez sur Créer.
    • Pour enregistrer et exécuter l'analyse, cliquez sur Exécuter.

Gérer les autorisations liées à l'analyse de qualité des données

Pour modifier les autorisations d'accès aux analyses de qualité existantes, procédez comme suit :

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de qualité des données.

  3. Cliquez sur l'onglet Qualité des données.

  4. Cliquez sur Analyse de qualité des données> Gérer les autorisations d'analyse. Dataplex s'ouvre alors dans un nouvel onglet.

  5. Cliquez sur l'onglet Autorisations.

    • Pour accorder l'accès à un compte principal, cliquez sur Accorder l'accès et accordez le rôle Lecteur de données Dataplex DataScan au compte principal associé.
    • Pour supprimer l'accès d'un compte principal, cliquez sur Supprimer l'accès et supprimez Lecteur de données Dataplex DataScan du compte principal associé.

Modifier une analyse de qualité des données existante

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de qualité des données.

  3. Cliquez sur Analyse de qualité des données > Modifier la configuration d'analyse.

Les paramètres d'analyse de qualité des données s'affichent. Ils peuvent être modifiés et enregistrés pour des analyses ultérieures.

Afficher les résultats d'analyse de qualité des données

Il existe plusieurs façons d'afficher les résultats d'analyse de qualité des données. Choisissez l'option qui correspond le mieux à vos besoins.

Afficher les résultats publiés

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de qualité des données.

  3. Cliquez sur l'onglet Qualité des données.

Les derniers résultats publiés s'affichent dans cette vue.

Afficher l'historique des résultats d'analyse

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de qualité des données.

  3. Cliquez sur l'onglet Qualité des données.

  4. Cliquez sur Analyse de qualité des données> Afficher l'historique des résultats.

Afficher toutes les analyses de qualité des données sur une table

Pour ouvrir l'historique d'analyse pour une table spécifique dans Dataplex, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, sélectionnez une table pour l'analyse de qualité des données.

  3. Cliquez sur Analyse de qualité des données > Afficher toutes les analyses.