Rechercher les problèmes de qualité des données
Ce document explique comment utiliser BigQuery et Dataplex Universal Catalog pour vous assurer que les données répondent à vos attentes en termes de qualité. La qualité des données automatique de Dataplex Universal Catalog vous permet de définir et de mesurer la qualité des données de vos tables BigQuery. Vous pouvez automatiser l'analyse des données, les valider par rapport à des règles définies et enregistrer des alertes si vos données ne répondent pas aux exigences de qualité.
Pour en savoir plus sur la qualité automatique des données, consultez la présentation de la qualité automatique des données.
Avant de commencer
-
Enable the Dataplex API.
- Facultatif : Si vous souhaitez que Dataplex Universal Catalog génère des recommandations pour les règles de qualité des données en fonction des résultats d'une analyse de profilage des données, créez et exécutez l'analyse de profilage des données.
Rôles requis
Pour exécuter une analyse de la qualité des données sur une table BigQuery, vous devez disposer de l'autorisation de lire la table BigQuery et de créer un job BigQuery dans le projet utilisé pour analyser la table.
Si la table BigQuery et l'analyse de la qualité des données se trouvent dans des projets différents, vous devez attribuer au compte de service Dataplex Universal Catalog du projet contenant l'analyse de la qualité des données l'autorisation de lecture pour la table BigQuery correspondante.
Si les règles de qualité des données font référence à d'autres tables, le compte de service du projet d'analyse doit disposer des autorisations de lecture sur ces mêmes tables.
Pour obtenir les autorisations nécessaires pour exporter les résultats de l'analyse vers une table BigQuery, demandez à votre administrateur d'accorder au compte de service Dataplex Universal Catalog le rôle IAM Éditeur de données BigQuery (
roles/bigquery.dataEditor
) sur l'ensemble de données et la table de résultats. Ces rôles comportent les autorisations suivantes :bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Si les données BigQuery sont organisées dans un lac Dataplex Universal Catalog, accordez au compte de service Dataplex Universal Catalog les rôles IAM Lecteur de métadonnées Dataplex (
roles/dataplex.metadataReader
) et Lecteur Dataplex (roles/dataplex.viewer
). Sinon, vous devez disposer de toutes les autorisations suivantes :dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Si vous analysez une table externe BigQuery à partir de Cloud Storage, accordez au compte de service Dataplex Universal Catalog le rôle Lecteur des objets Storage (
roles/storage.objectViewer
) pour le bucket. Vous pouvez également attribuer les autorisations suivantes au compte de service Dataplex Universal Catalog :storage.buckets.get
storage.objects.get
Si vous souhaitez publier les résultats de l'analyse de la qualité des données en tant que métadonnées Dataplex Universal Catalog, vous devez disposer du rôle IAM Éditeur de données BigQuery (
roles/bigquery.dataEditor
) pour la table et de l'autorisationdataplex.entryGroups.useDataQualityScorecardAspect
sur le groupe d'entrées@bigquery
au même emplacement que la table. Vous pouvez également vous voir attribuer le rôle Éditeur de catalogue Dataplex (roles/dataplex.catalogEditor
) pour le groupe d'entrées@bigquery
au même emplacement que la table.Sinon, vous devez disposer de toutes les autorisations suivantes :
bigquery.tables.update
: sur la tabledataplex.entryGroups.useDataQualityScorecardAspect
sur le groupe d'entrées@bigquery
Ou de toutes les autorisations suivantes :
dataplex.entries.update
: sur le groupe d'entrées@bigquery
dataplex.entryGroups.useDataQualityScorecardAspect
sur le groupe d'entrées@bigquery
Si vous devez accéder à des colonnes protégées par des règles d'accès BigQuery au niveau des colonnes, attribuez les autorisations correspondantes au compte de service Dataplex Universal Catalog. L'utilisateur qui crée ou met à jour une analyse des données doit également disposer des autorisations pour les colonnes.
Si des règles d'accès BigQuery au niveau des lignes sont activées pour une table, vous ne pouvez analyser que les lignes visibles par le compte de service Dataplex Universal Catalog. Notez que les droits d'accès de chaque utilisateur ne sont pas évalués pour les règles au niveau des lignes.
Rôles requis pour l'analyse des données
Pour utiliser la qualité des données automatique, demandez à votre administrateur de vous accorder l'un des rôles IAM suivants :
- Accès complet aux ressources
DataScan
: administrateur Dataplex DataScan (roles/dataplex.dataScanAdmin
) - Pour créer des ressources
DataScan
: créateur Dataplex DataScan (roles/dataplex.dataScanCreator
) sur le projet - Accès en écriture aux ressources
DataScan
: éditeur Dataplex DataScan (roles/dataplex.dataScanEditor
) - Accès en lecture aux ressources
DataScan
, à l'exception des règles et des résultats : lecteur Dataplex DataScan (roles/dataplex.dataScanViewer
) - Accès en lecture aux ressources
DataScan
, y compris les règles et les résultats : lecteur de données Dataplex DataScan (roles/dataplex.dataScanDataViewer
)
Le tableau suivant répertorie les autorisations DataScan
:
Nom de l'autorisation | Accorde l'autorisation d'effectuer les opérations suivantes : |
---|---|
dataplex.datascans.create |
Créer un DataScan |
dataplex.datascans.delete |
Supprimer un DataScan |
dataplex.datascans.get |
Afficher les métadonnées opérationnelles telles que l'ID ou le calendrier, mais pas les résultats ni les règles |
dataplex.datascans.getData |
Afficher les détails du DataScan , y compris les règles et les résultats |
dataplex.datascans.list |
Lister les analyses DataScan |
dataplex.datascans.run |
Exécuter un DataScan |
dataplex.datascans.update |
Mettre à jour la description d'une analyse DataScan |
dataplex.datascans.getIamPolicy |
Afficher les autorisations IAM actuelles sur l'analyse |
dataplex.datascans.setIamPolicy |
Définir les autorisations IAM sur l'analyse |
Créer une analyse de qualité des données
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur Créer une analyse de la qualité des données.
Dans la fenêtre Définir l'analyse, renseignez les champs suivants :
Facultatif : Saisissez un nom à afficher.
Saisissez un ID. Consultez les conventions d'attribution de noms aux ressources.
Facultatif : saisissez une description.
Dans le champ Table, cliquez sur Parcourir. Choisissez la table à analyser, puis cliquez sur Sélectionner. Seules les tables BigQuery standards sont acceptées.
Pour les tables des ensembles de données multirégionaux, choisissez une région dans laquelle créer l'analyse de données.
Pour parcourir les tables organisées dans les lacs Dataplex Universal Catalog, cliquez sur Parcourir les lacs Dataplex.
Dans le champ Champ d'application, sélectionnez Incrémentiel ou Intégralité des données.
- Si vous choisissez Incrémentiel : dans le champ Colonne de code temporel, sélectionnez une colonne de type
DATE
ouTIMESTAMP
dans votre table BigQuery qui augmente à mesure que de nouveaux enregistrements sont ajoutés et qui permet d'identifier de nouveaux enregistrements. Il peut s'agir d'une colonne qui partitionne la table.
- Si vous choisissez Incrémentiel : dans le champ Colonne de code temporel, sélectionnez une colonne de type
Pour filtrer vos données, cochez la case Filtrer les lignes. Fournissez un filtre de ligne constitué d'une expression SQL valide pouvant être utilisée dans une clause
WHERE
en syntaxe GoogleSQL. Par exemple,col1 >= 0
. Le filtre peut être une combinaison de plusieurs conditions de colonne. Par exemple,col1 >= 0 AND col2 < 10
.Pour échantillonner vos données, sélectionnez un pourcentage d'échantillonnage dans la liste Taille d'échantillonnage. Choisissez un pourcentage compris entre 0,0 et 100,0 %, avec un maximum de trois chiffres après la virgule. Pour les ensembles de données plus volumineux, choisissez un pourcentage d'échantillonnage plus faible. Par exemple, pour une table de 1 Po, si vous saisissez une valeur comprise entre 0,1 et 1 %, l'analyse de la qualité des données échantillonne entre 1 et 10 To de données. Pour les analyses de données incrémentielles, l'analyse de la qualité des données applique l'échantillonnage au dernier incrément.
Pour publier les résultats de l'analyse de la qualité des données en tant que métadonnées Dataplex Universal Catalog, cochez la case Publier les résultats dans BigQuery et Dataplex Catalog.
Vous pouvez consulter les derniers résultats de l'analyse dans l'onglet Qualité des données des pages BigQuery et Dataplex Universal Catalog pour la table source. Pour permettre aux utilisateurs d'accéder aux résultats d'analyse publiés, consultez la section Accorder l'accès aux résultats d'analyse de profil de données de ce document.
Dans la section Programmation, choisissez l'une des options suivantes :
Répéter : exécutez l'analyse de la qualité des données selon une planification horaire, quotidienne, hebdomadaire, mensuelle ou personnalisée. Spécifiez la fréquence et l'heure d'exécution de l'analyse. Si vous choisissez "Personnalisée", utilisez le format cron pour spécifier la planification.
À la demande : exécutez l'analyse de la qualité des données à la demande.
Cliquez sur Continuer.
Dans la fenêtre Règles sur la qualité des données, définissez les règles à configurer pour cette analyse de la qualité des données.
Cliquez sur Ajouter des règles, puis sélectionnez l'une des options suivantes.
Recommandations basées sur les profils : créez des règles à partir des recommandations basées sur une analyse de profilage des données existante.
Sélectionner des colonnes : sélectionnez les colonnes pour lesquelles vous souhaitez obtenir des règles recommandées.
Sélectionner un projet d'analyse : si l'analyse de profilage des données se trouve dans un projet différent de celui dans lequel vous créez l'analyse de la qualité des données, sélectionnez le projet à partir duquel extraire les analyses de profilage.
Sélectionner des résultats de profil : sélectionnez un ou plusieurs résultats de profil, puis cliquez sur OK. Une liste de règles suggérées s'affiche. Vous pouvez l'utiliser comme point de départ.
Cochez les cases correspondant aux règles que vous souhaitez ajouter, puis cliquez sur Sélectionner. Une fois sélectionnées, les règles sont ajoutées à votre liste de règles actuelle. Vous pouvez ensuite modifier les règles.
Types de règles intégrés : créez des règles à partir de règles prédéfinies. Consultez la liste des règles prédéfinies.
Sélectionner des colonnes : sélectionnez les colonnes pour lesquelles vous souhaitez sélectionner des règles.
Choisir les types de règles : sélectionnez les types de règles que vous souhaitez choisir, puis cliquez sur OK. Les types de règles qui s'affichent dépendent des colonnes que vous avez sélectionnées.
Cochez les cases correspondant aux règles que vous souhaitez ajouter, puis cliquez sur Sélectionner. Une fois sélectionnées, les règles sont ajoutées à votre liste de règles actuelle. Vous pouvez ensuite modifier les règles.
Règle de vérification des lignes SQL : créez une règle SQL personnalisée à appliquer à chaque ligne.
Dans Dimension, choisissez une dimension.
Dans Seuil de réussite, choisissez le pourcentage d'enregistrements qui doivent réussir le contrôle.
Dans Nom de la colonne, sélectionnez une colonne.
Dans le champ Fournissez une expression SQL, saisissez une expression SQL qui renvoie la valeur booléenne
true
(succès) oufalse
(échec). Pour en savoir plus, consultez Types de règles SQL personnalisées compatibles et les exemples de la section Définir des règles de qualité des données.Cliquez sur Ajouter.
Règle de vérification des agrégations SQL : créez une règle de condition de table SQL personnalisée.
Dans Dimension, choisissez une dimension.
Dans Nom de la colonne, sélectionnez une colonne.
Dans le champ Fournissez une expression SQL, saisissez une expression SQL qui renvoie la valeur booléenne
true
(succès) oufalse
(échec). Pour en savoir plus, consultez Types de règles SQL personnalisées compatibles et les exemples de la section Définir des règles de qualité des données.Cliquez sur Ajouter.
Règle d'assertion SQL : créez une règle d'assertion SQL personnalisée pour vérifier si les données sont dans un état non valide.
Dans Dimension, choisissez une dimension.
Facultatif : dans Nom de la colonne, sélectionnez une colonne.
Dans le champ Fournissez une instruction SQL, saisissez une instruction SQL qui renvoie les lignes correspondant à l'état non valide. Si des lignes sont renvoyées, cette règle échoue. Omettez le point-virgule de fin de l'instruction SQL. Pour en savoir plus, consultez Types de règles SQL personnalisées compatibles et les exemples de la section Définir des règles de qualité des données.
Cliquez sur Ajouter.
Facultatif : Pour toute règle de qualité des données, vous pouvez attribuer un nom personnalisé à utiliser pour la surveillance et les alertes, ainsi qu'une description. Pour ce faire, modifiez une règle et spécifiez les informations suivantes :
- Nom de la règle : saisissez un nom de règle personnalisé de 63 caractères maximum. Le nom de la règle peut inclure des lettres (a-z, A-Z), des chiffres (0-9) et des traits d'union (-). Il doit commencer par une lettre et se terminer par un chiffre ou une lettre.
- Description : saisissez une description de la règle de 1 024 caractères maximum.
Répétez les étapes précédentes pour ajouter d'autres règles à l'analyse de la qualité des données. Lorsque vous avez terminé, cliquez sur Continuer.
Facultatif : exportez les résultats de l'analyse vers une table BigQuery standard. Dans la section Exporter les résultats d'analyse dans une table BigQuery, procédez comme suit :
Dans le champ Sélectionnez un ensemble de données BigQuery, cliquez sur Parcourir. Sélectionnez un ensemble de données BigQuery dans lequel stocker les résultats de l'analyse de la qualité des données.
Dans le champ Table BigQuery, spécifiez la table dans laquelle stocker les résultats de l'analyse de la qualité des données. Si vous utilisez une table existante, assurez-vous qu'elle est compatible avec le schéma de la table d'exportation. Si la table spécifiée n'existe pas, Dataplex Universal Catalog la crée pour vous.
Facultatif : ajoutez des étiquettes. Les étiquettes sont des paires clé/valeur qui vous permettent de regrouper des objets associés ou de les combiner à d'autres Google Cloud ressources.
Facultatif : configurez des rapports de notification par e-mail pour informer les utilisateurs de l'état et des résultats d'un job d'analyse de la qualité des données. Dans la section Rapport de notification, cliquez sur
Ajouter un ID d'adresse e-mail et saisissez jusqu'à cinq adresses e-mail. Sélectionnez ensuite les scénarios pour lesquels vous souhaitez envoyer des rapports :- Niveau de qualité (<=) : envoie un rapport lorsqu'un job réussit avec un niveau de qualité des données inférieur au niveau cible spécifié. Saisissez un score de qualité cible compris entre 0 et 100.
- Échecs de jobs : envoie un rapport en cas d'échec du job lui-même, quels que soient les résultats de la qualité des données.
- Achèvement de jobs (réussite ou échec) : envoie un rapport à la fin du job, quels que soient les résultats de la qualité des données.
Cliquez sur Créer.
Une fois l'analyse créée, vous pouvez l'exécuter à tout moment en cliquant sur Exécuter maintenant.
gcloud
Pour créer une analyse de la qualité des données, utilisez la commande gcloud dataplex datascans create data-quality
.
Si les données source sont organisées dans un lac Dataplex Universal Catalog, incluez l'indicateur --data-source-entity
:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
Si les données source ne sont pas organisées dans un lac Dataplex Universal Catalog, incluez l'indicateur --data-source-resource
:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
Remplacez les variables suivantes :
DATASCAN
: nom de l'analyse de la qualité des données.LOCATION
: région Google Cloud dans laquelle créer l'analyse de la qualité des données.DATA_QUALITY_SPEC_FILE
: chemin d'accès au fichier JSON ou YAML contenant les spécifications de l'analyse de la qualité des données. Il peut s'agir d'un fichier local ou d'un chemin d'accès Cloud Storage avec le préfixegs://
. Utilisez ce fichier pour spécifier les règles de qualité des données pour l'analyse. Vous pouvez également spécifier des informations supplémentaires dans ce fichier, telles que des filtres, un pourcentage d'échantillonnage et des actions post-analyse (par exemple, l'exportation vers BigQuery ou l'envoi de rapports de notification par e-mail). Consultez la documentation sur la représentation JSON et l'exemple de représentation YAML.DATA_SOURCE_ENTITY
: entité Dataplex Universal Catalog contenant les données pour l'analyse de la qualité des données. Exemple :projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
.DATA_SOURCE_RESOURCE
: nom de la ressource contenant les données pour l'analyse de la qualité des données. Exemple ://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
.
REST
Pour créer une analyse de la qualité des données, utilisez la méthode dataScans.create
.
Si vous souhaitez créer des règles pour l'analyse de la qualité des données à l'aide de recommandations de règles basées sur les résultats d'une analyse de profilage des données, obtenez les recommandations en appelant la méthode dataScans.jobs.generateDataQualityRules
sur l'analyse de profilage des données.
Exécuter une analyse de la qualité des données
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur l'analyse de la qualité des données à exécuter.
Cliquez sur Exécuter maintenant.
gcloud
Pour exécuter une analyse de la qualité des données, utilisez la commande gcloud dataplex datascans run
:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION \
Remplacez les variables suivantes :
LOCATION
: région Google Cloud dans laquelle l'analyse de la qualité des données a été créée.DATASCAN
: nom de l'analyse de la qualité des données.
REST
Pour exécuter une analyse de la qualité des données, utilisez la méthode dataScans.run
.
Afficher les résultats d'analyse de qualité des données
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur le nom d'une analyse de la qualité des données.
La section Présentation affiche des informations sur les jobs les plus récents, y compris la date d'exécution de l'analyse, le nombre d'enregistrements analysés dans chaque job, si tous les contrôles de qualité des données ont réussi, et s'il y a eu des échecs, le nombre de contrôles de qualité des données qui ont échoué.
La section Configuration de l'analyse de la qualité des données affiche des informations sur l'analyse.
Pour afficher des informations détaillées sur un job, comme les scores de qualité des données qui indiquent le pourcentage de règles réussies, les règles qui ont échoué et les journaux de job, cliquez sur l'onglet Historique des jobs. Cliquez ensuite sur un ID de job.
gcloud
Pour afficher les résultats d'un job d'analyse de la qualité des données, utilisez la commande gcloud dataplex datascans jobs describe
:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Remplacez les variables suivantes :
JOB
: ID du job d'analyse de la qualité des données.LOCATION
: région Google Cloud dans laquelle l'analyse de la qualité des données a été créée.DATASCAN
: nom de l'analyse de la qualité des données à laquelle appartient le job.--view=FULL
: pour afficher le résultat du job d'analyse, spécifiezFULL
.
REST
Pour afficher les résultats d'une analyse de la qualité des données, utilisez la méthode dataScans.get
.
Afficher les résultats publiés
Si les résultats de l'analyse de la qualité des données sont publiés en tant que métadonnées Dataplex Universal Catalog, vous pouvez consulter les derniers résultats de l'analyse sur les pages BigQuery et Dataplex Universal Catalog de la consoleGoogle Cloud , dans l'onglet Qualité des données de la table source.
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, sélectionnez la table dont vous souhaitez afficher les résultats de l'analyse de la qualité des données.
Cliquez sur l'onglet Qualité des données.
Les derniers résultats publiés s'affichent.
Afficher l'historique des résultats d'analyse
Dataplex Universal Catalog enregistre l'historique des analyses de la qualité des données des 300 derniers jobs ou de l'année écoulée, selon la première échéance.
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur le nom d'une analyse de la qualité des données.
Cliquez sur l'onglet Historique des jobs.
L'onglet Historique des jobs fournit des informations sur les jobs passés, comme le nombre d'enregistrements analysés dans chaque job, l'état du job, l'heure à laquelle le job a été exécuté, et la réussite ou l'échec de chaque règle.
Pour afficher des informations détaillées sur un job, cliquez sur l'un des jobs de la colonne ID de job.
gcloud
Pour afficher l'historique des jobs d'analyse de la qualité des données, utilisez la commande gcloud dataplex datascans jobs list
:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
Remplacez les variables suivantes :
LOCATION
: région Google Cloud dans laquelle l'analyse de la qualité des données a été créée.DATASCAN
: nom de l'analyse de la qualité des données pour laquelle afficher les jobs historiques.
REST
Pour afficher l'historique des jobs d'analyse de la qualité des données, utilisez la méthode dataScans.jobs.list
.
Accorder l'accès aux résultats de l'analyse de la qualité des données
Pour permettre aux utilisateurs de votre organisation d'afficher les résultats d'analyse, procédez comme suit :
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur l'analyse de la qualité des données dont vous souhaitez partager les résultats.
Cliquez sur l'onglet Autorisations.
Procédez comme suit :
- Pour accorder l'accès à un compte principal, cliquez sur Accorder l'accès. Accordez le rôle Lecteur de données Dataplex DataScan au compte principal associé.
- Pour supprimer l'accès d'un compte principal, sélectionnez celui pour lequel vous souhaitez supprimer le rôle Lecteur de données Dataplex DataScan. Cliquez sur > Supprimer l'accès, puis confirmez lorsque vous y êtes invité.
Résoudre un échec de qualité des données
Vous pouvez définir des alertes en cas d'échec de la qualité des données à l'aide des journaux dans Cloud Logging. Pour en savoir plus, y compris sur les exemples de requêtes, consultez Définir des alertes dans Cloud Logging.
Pour chaque job avec des règles au niveau des lignes qui échouent, Dataplex Universal Catalog fournit une requête permettant d'obtenir les enregistrements ayant échoué. Exécutez cette requête pour afficher les enregistrements qui ne correspondaient pas à votre règle.
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur le nom de l'analyse de la qualité des données dont vous souhaitez résoudre les enregistrements ayant échoué.
Cliquez sur l'onglet Historique des jobs.
Cliquez sur l'ID du job qui a identifié des échecs de qualité des données.
Dans la fenêtre des résultats du job qui s'ouvre, dans la section Règles, recherchez la colonne Requête d'obtention des enregistrements ayant échoué. Cliquez sur Copier la requête dans le presse-papiers pour la règle ayant échoué.
Exécutez la requête dans BigQuery pour afficher les enregistrements qui ont entraîné l'échec du job.
gcloud
Non compatible
REST
Pour obtenir le job qui a identifié des échecs de qualité des données, utilisez la méthode
dataScans.get
.Dans l'objet de réponse, le champ
failingRowsQuery
affiche la requête.Exécutez la requête dans BigQuery pour afficher les enregistrements qui ont entraîné l'échec du job.
Gérer les analyses de qualité des données pour une table spécifique
Les étapes de ce document expliquent comment gérer les analyses de qualité des données dans votre projet à l'aide de la page BigQuery Curation des métadonnées > Profilage et qualité des données dans la consoleGoogle Cloud .
Vous pouvez également créer et gérer des analyses de la qualité des données lorsque vous travaillez avec une table spécifique. Dans la console Google Cloud , sur la page BigQuery de la table, utilisez l'onglet Qualité des données. Procédez comme suit :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le volet Explorateur, sélectionnez la table.
Cliquez sur l'onglet Qualité des données.
Selon que la table dispose ou non d'une analyse de la qualité des données dont les résultats sont publiés en tant que métadonnées Dataplex Universal Catalog, vous pouvez interagir avec les analyses de la qualité des données de la table de différentes manières :
Les résultats de l'analyse de la qualité des données sont publiés : les derniers résultats de l'analyse s'affichent sur la page.
Pour gérer les analyses de la qualité des données pour ce tableau, cliquez sur Analyse de la qualité des données, puis sélectionnez l'une des options suivantes :
Créer une analyse : créez une analyse de la qualité des données. Pour en savoir plus, consultez la section Créer une analyse de la qualité des données de ce document. Lorsque vous créez une analyse à partir de la page d'informations d'une table, celle-ci est présélectionnée.
Exécuter : exécutez l'analyse.
Modifier la configuration de l'analyse : modifiez les paramètres, y compris le nom à afficher, les filtres et la planification.
Pour modifier les règles sur la qualité des données, cliquez sur l'onglet Qualité des données, puis sur l'onglet Règles. Cliquez sur Modifier les règles. Modifiez les règles, puis cliquez sur Enregistrer.
Gérer les autorisations d'analyse : contrôlez qui peut accéder aux résultats de l'analyse. Pour en savoir plus, consultez la section Accorder l'accès aux résultats de l'analyse de la qualité des données de ce document.
Afficher l'historique des résultats : affichez des informations détaillées sur les jobs d'analyse de la qualité des données précédents. Pour en savoir plus, consultez les sections Afficher les résultats d'analyse de qualité des données et Afficher l'historique des résultats d'analyse de ce document.
Afficher toutes les analyses : affichez la liste des analyses de qualité des données qui s'appliquent à cette table.
Les résultats de l'analyse de la qualité des données ne sont pas publiés : sélectionnez l'une des options suivantes :
Créer une analyse de la qualité des données : créez une analyse de la qualité des données. Pour en savoir plus, consultez la section Créer une analyse de la qualité des données de ce document. Lorsque vous créez une analyse à partir de la page d'informations d'une table, celle-ci est présélectionnée.
Afficher les analyses existantes : affichez la liste des analyses de qualité des données qui s'appliquent à cette table.
Afficher les analyses de qualité des données pour une table
Pour afficher les analyses de qualité des données qui s'appliquent à une table spécifique, procédez comme suit :
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Filtrez la liste par nom de tableau et type d'analyse.
Mettre à jour une analyse de la qualité des données
Vous pouvez modifier différents paramètres d'une analyse de la qualité des données existante, comme le nom à afficher, les filtres, la planification et les règles de qualité des données.
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur le nom d'une analyse de la qualité des données.
Pour modifier les paramètres, y compris le nom à afficher, les filtres et la planification, cliquez sur Modifier. Modifiez les valeurs, puis cliquez sur Enregistrer.
Pour modifier les règles sur la qualité des données, cliquez sur l'onglet Règles actuelles sur la page des détails de l'analyse. Cliquez sur Modifier les règles. Modifiez les règles, puis cliquez sur Enregistrer.
gcloud
Pour modifier la description d'une analyse de la qualité des données, utilisez la commande gcloud dataplex datascans update data-quality
:
gcloud dataplex datascans update data-quality DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Remplacez les éléments suivants :
DATASCAN
: nom de l'analyse de la qualité des données à mettre à jour.LOCATION
: région Google Cloud dans laquelle l'analyse de la qualité des données a été créée.DESCRIPTION
: nouvelle description de l'analyse de la qualité des données.
REST
Pour modifier une analyse de la qualité des données, utilisez la méthode dataScans.patch
.
Supprimer une analyse de la qualité des données
Console
Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.
Cliquez sur l'analyse que vous souhaitez supprimer.
Cliquez sur Supprimer, puis confirmez l'opération lorsque vous y êtes invité.
gcloud
Pour supprimer une analyse de la qualité des données, utilisez la commande gcloud dataplex datascans delete
:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION \ --async
Remplacez les variables suivantes :
DATASCAN
: nom de l'analyse de la qualité des données à supprimer.LOCATION
: région Google Cloud dans laquelle l'analyse de la qualité des données a été créée.
REST
Pour supprimer une analyse de la qualité des données, utilisez la méthode dataScans.delete
.
Étapes suivantes
- En savoir plus sur la gouvernance des données dans BigQuery