Créer et utiliser des analyses de profil de données

Cette page vous explique comment créer et gérer des analyses de profil de données. Le profilage de données vous permet d'identifier des caractéristiques statistiques courantes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser plus efficacement vos données.

Pour en savoir plus sur les analyses de profilage des données Dataplex Universal Catalog, consultez À propos du profilage de données.

Avant de commencer

Enable the Dataplex API.

Enable the API

Rôles requis

Pour exécuter une analyse de profilage des tables BigQuery, vous devez disposer des autorisations suivantes :

  • Pour exécuter une analyse de profilage des données sur une table BigQuery, vous devez avoir l'autorisation de lire la table BigQuery et de créer une tâche BigQuery dans le projet utilisé pour analyser la table.

  • Si la table BigQuery et l'analyse de profilage des données se trouvent dans des projets différents, vous devez attribuer au compte de service Dataplex Universal Catalog l'autorisation de lecture sur la table BigQuery correspondante.

  • Si les données BigQuery sont organisées dans un lac Dataplex Universal Catalog, vous avez besoin des rôles Dataplex Universal Catalog roles/dataplex.metadataReader et roles/dataplex.viewer pour créer une analyse de profilage de données. Ces rôles comportent les autorisations suivantes :

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Si vous analysez une table externe BigQuery à partir de Cloud Storage, attribuez au compte de service Dataplex Universal Catalog le rôle Lecteur d'objets Storage (roles/storage.objectViewer) ou les autorisations suivantes pour le bucket :

    • storage.buckets.get
    • storage.objects.get
  • Si vous souhaitez publier les résultats de l'analyse de profilage des données sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console pour les tables sources, vous devez disposer du rôle Éditeur de données BigQuery (roles/bigquery.dataEditor) sur la table. Sinon, vous devez disposer de toutes les autorisations suivantes :

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • Pour exporter les résultats de l'analyse vers une table BigQuery, votre compte de service Dataplex Universal Catalog doit disposer du rôle Éditeur de données BigQuery (roles/bigquery.dataEditor). Ce rôle comporte les autorisations suivantes :

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Si vous devez accéder à des colonnes protégées par des règles d'accès BigQuery au niveau des colonnes, attribuez les autorisations correspondantes au compte de service Dataplex Universal Catalog. L'utilisateur qui crée ou met à jour une analyse des données doit également disposer des autorisations pour les colonnes.

  • Si des règles d'accès BigQuery au niveau des lignes sont activées pour une table, vous ne pouvez analyser que les lignes visibles par le compte de service Dataplex Universal Catalog. Notez que les droits d'accès d'un utilisateur donné ne sont pas évalués pour les règles au niveau des lignes.

Rôles et autorisations concernant l'analyse des données

Pour utiliser le profilage des données, demandez à votre administrateur de vous accorder l'un des rôles IAM suivants :

  • roles/dataplex.dataScanAdmin : accès complet aux ressources DataScan.
  • roles/dataplex.dataScanEditor : accès en écriture aux ressources DataScan.
  • roles/dataplex.dataScanViewer : accès en lecture aux ressources DataScan, à l'exception des résultats.
  • roles/dataplex.dataScanDataViewer : accès en lecture aux ressources DataScan, y compris aux résultats.

Le tableau suivant liste les autorisations liées à l'analyse des données :

Nom de l'autorisation Accorde l'autorisation d'effectuer les opérations suivantes :
dataplex.datascans.create Créer un DataScan
dataplex.datascans.delete Supprimer une analyse DataScan
dataplex.datascans.get Afficher les détails de l'analyse DataScan, à l'exception des résultats
dataplex.datascans.getData Afficher les détails de l'analyse DataScan, y compris les résultats
dataplex.datascans.list Lister les analyses DataScan
dataplex.datascans.run Exécuter un DataScan
dataplex.datascans.update Mettre à jour la description d'une analyse DataScan
dataplex.datascans.getIamPolicy Afficher les autorisations IAM actuelles sur l'analyse
dataplex.datascans.setIamPolicy Définir les autorisations IAM sur l'analyse

Créer une analyse de profilage de données

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur Créer une analyse de profil de données.

  3. Facultatif : Saisissez un nom à afficher.

  4. Saisissez un ID. Consultez les conventions d'attribution de noms pour les ressources.

  5. Facultatif : saisissez une description.

  6. Dans le champ Table, cliquez sur Parcourir. Choisissez la table à analyser, puis cliquez sur Sélectionner.

    Pour les tables des ensembles de données multirégionaux, choisissez une région dans laquelle créer l'analyse de données.

    Pour parcourir les tables organisées dans les lacs Dataplex Universal Catalog, cliquez sur Parcourir les lacs Dataplex.

  7. Dans le champ Champ d'application, sélectionnez Incrémentiel ou Intégralité des données.

    • Si vous choisissez des données incrémentielles, sélectionnez pour le champ Colonne d'horodatage une colonne de votre table BigQuery (de type DATE ou TIMESTAMP) qui augmente à mesure que de nouveaux enregistrements sont ajoutés et qui permet d'identifier de nouveaux enregistrements. Pour les tables partitionnées sur une colonne de type DATE ou TIMESTAMP, nous vous recommandons d'utiliser la colonne de partition comme champ de code temporel.
  8. Facultatif : Pour filtrer vos données, effectuez l'une des opérations suivantes :

    • Pour filtrer par ligne, cochez la case Filtrer les lignes. Saisissez une expression SQL valide pouvant être utilisée dans une clause WHERE en syntaxe GoogleSQL. Exemple : col1 >= 0

      Le filtre peut être une combinaison de conditions SQL sur plusieurs colonnes. Exemple : col1 >= 0 AND col2 < 10.

    • Pour filtrer par colonne, cochez la case Filtrer les colonnes.

      • Pour inclure des colonnes dans l'analyse de profilage, cliquez sur Parcourir dans le champ Inclure des colonnes. Sélectionnez les colonnes à inclure, puis cliquez sur Sélectionner.

      • Pour exclure des colonnes de l'analyse de profilage, dans le champ Exclure des colonnes, cliquez sur Parcourir. Sélectionnez les colonnes à exclure, puis cliquez sur Sélectionner.

  9. Pour appliquer l'échantillonnage à l'analyse de profilage des données, sélectionnez un pourcentage d'échantillonnage dans la liste Taille d'échantillonnage. Choisissez un pourcentage compris entre 0 et 100 %, avec un maximum de trois chiffres après la virgule.

    • Pour les ensembles de données plus volumineux, choisissez un pourcentage d'échantillonnage plus faible. Par exemple, pour une table de 1 Po, si vous saisissez une valeur comprise entre 0,1 et 1 %, le profil de données échantillonne entre 1 et 10 To de données.

    • Vous devez disposer d'au moins 100 enregistrements dans les données échantillonnées pour obtenir un résultat.

    • Pour les analyses de données incrémentielles, l'analyse de profilage des données applique l'échantillonnage au dernier incrément.

  10. Facultatif : publiez les résultats de l'analyse de profilage des données sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console pour la table source. Cochez la case Publier les résultats dans les interfaces utilisateur de BigQuery et de Dataplex Catalog.

    Vous pouvez consulter les derniers résultats de l'analyse dans l'onglet Profil de données des pages BigQuery et Dataplex Universal Catalog pour la table source. Pour permettre aux utilisateurs d'accéder aux résultats d'analyse publiés, consultez la section Accorder l'accès aux résultats d'analyse de profil de données de ce document.

    L'option de publication peut ne pas être disponible dans les cas suivants :

    • Vous ne disposez pas des autorisations requises pour cette table.
    • Une autre analyse de la qualité des données est configurée pour publier les résultats.
  11. Dans la section Programmation, choisissez l'une des options suivantes :

    • Répéter : exécutez l'analyse du profil de données selon une planification horaire, quotidienne, hebdomadaire, mensuelle ou personnalisée. Spécifiez la fréquence et l'heure d'exécution de l'analyse. Si vous choisissez "Personnalisée", utilisez le format cron pour spécifier la planification.

    • À la demande : exécutez l'analyse de profilage des données à la demande.

  12. Cliquez sur Continuer.

  13. Facultatif : exportez les résultats de l'analyse vers une table BigQuery standard. Dans la section Exporter les résultats d'analyse dans une table BigQuery, procédez comme suit :

    1. Dans le champ Sélectionnez un ensemble de données BigQuery, cliquez sur Parcourir. Sélectionnez un ensemble de données BigQuery dans lequel stocker les résultats de l'analyse de profilage des données.

    2. Dans le champ Table BigQuery, spécifiez la table dans laquelle stocker les résultats de l'analyse de profilage des données. Si vous utilisez une table existante, assurez-vous qu'elle est compatible avec le schéma de la table d'exportation. Si la table spécifiée n'existe pas, Dataplex Universal Catalog la crée pour vous.

  14. Facultatif : ajoutez des étiquettes. Les étiquettes sont des paires clé/valeur qui vous permettent de regrouper des objets associés ou de les combiner à d'autres Google Cloud ressources.

  15. Pour créer l'analyse, cliquez sur Créer.

    Si vous définissez la planification sur "À la demande", vous pouvez également exécuter l'analyse maintenant en cliquant sur Exécuter l'analyse.

gcloud

Pour créer une analyse de profilage des données, utilisez la commande gcloud dataplex datascans create data-profile.

Si les données source sont organisées dans un lac Dataplex Universal Catalog, incluez l'indicateur --data-source-entity :

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Si les données source ne sont pas organisées dans un lac Dataplex Universal Catalog, incluez l'indicateur --data-source-resource :

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Remplacez les variables suivantes :

  • DATASCAN : nom de l'analyse de profilage des données.
  • LOCATION : Google Cloud région dans laquelle créer l'analyse de profilage des données.
  • DATA_SOURCE_ENTITY : entité Dataplex Universal Catalog contenant les données pour l'analyse de profilage des données. Exemple : projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE : nom de la ressource contenant les données pour l'analyse de profilage des données. Exemple : //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Pour créer une analyse de profil de données, utilisez la méthode dataScans.create.

Exporter le schéma de table

Si vous souhaitez exporter les résultats de l'analyse de profilage des données vers une table BigQuery existante, assurez-vous qu'elle est compatible avec le schéma de table suivant :

Nom de la colonne Type de données de la colonne Nom du sous-champ (le cas échéant) Type de données du sous-champ Mode Exemple
data_profile_scan struct/record resource_name string nullable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string nullable test-project
location string nullable us-central1
data_scan_id string nullable test-datascan
data_source struct/record resource_name string nullable

Cas d'entité : //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Cas de table : //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string nullable test-project
dataplex_entity_project_number integer nullable 123456789012
dataplex_lake_id string nullable

(Valide uniquement si la source est une entité)

test-lake

dataplex_zone_id string nullable

(Valide uniquement si la source est une entité)

test-zone

dataplex_entity_id string nullable

(Valide uniquement si la source est une entité)

test-entity

table_project_id string nullable dataplex-table
table_project_number int64 nullable 345678901234
dataset_id string nullable

(Valide uniquement si la source est une table)

test-dataset

table_id string nullable

(Valide uniquement si la source est une table)

test-table

data_profile_job_id string nullable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string nullable ondemand/schedule
incremental boolean nullable true/false
sampling_percent float nullable

(0-100)

20.0 (indique 20 %)

row_filter string nullable col1 >= 0 AND col2 < 10
column_filter json nullable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json nullable {"key1":value1}
job_start_time timestamp nullable 2023-01-01 00:00:00 UTC
job_end_time timestamp nullable 2023-01-01 00:00:00 UTC
job_rows_scanned integer nullable 7500
column_name string nullable column-1
column_type string nullable string
column_mode string nullable repeated
percent_null float nullable

(0,0-100,0)

20.0 (indique 20 %)

percent_unique float nullable

(0,0-100,0)

92.5

min_string_length integer nullable

(Valable uniquement si le type de colonne est une chaîne)

10

max_string_length integer nullable

(Valable uniquement si le type de colonne est une chaîne)

4

average_string_length float nullable

(Valable uniquement si le type de colonne est une chaîne)

7.2

min_value float nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
max_value float nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
average_value float nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
standard_deviation float nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
quartile_lower integer nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
quartile_median integer nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
quartile_upper integer nullable (Valable uniquement si le type de colonne est numérique : entier/nombre à virgule flottante)
top_n struct/record - repeated value string nullable "4009"
count integer nullable 20
percent float nullable 10 (indique 10 %)

Configuration de l'exportation vers une table

Lorsque vous exportez des données vers des tables BigQueryExport, suivez ces consignes :

  • Pour le champ resultsTable, utilisez le format suivant : //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Utilisez une table BigQuery standard.
  • Si la table n'existe pas lorsque l'analyse est créée ou mise à jour, Dataplex Universal Catalog la crée pour vous.
  • Par défaut, la table est partitionnée quotidiennement sur la colonne job_start_time.
  • Si vous souhaitez que la table soit partitionnée selon d'autres configurations ou si vous ne voulez pas la partition, recréez la table avec le schéma et les configurations requis, puis fournissez la table préalablement créée en tant que table de résultats.
  • Assurez-vous que la table de résultats se trouve au même emplacement que la table source.
  • Si VPC-SC est configuré dans le projet, la table de résultats doit se trouver dans le même périmètre VPC-SC que la table source.
  • Si la table est modifiée lors de l'étape d'exécution de l'analyse, le job en cours d'exécution est exporté vers la table de résultats précédente et la modification de la table prend effet à partir du prochain job d'analyse.
  • Ne modifiez pas le schéma de table. Si vous avez besoin de colonnes personnalisées, créez une vue sur la table.
  • Pour réduire les coûts, définissez un délai d'expiration pour la partition en fonction de votre cas d'utilisation. Pour en savoir plus, découvrez comment définir le délai d'expiration de la partition.

Créer plusieurs analyses de profilage des données

Vous pouvez configurer des analyses de profil de données pour plusieurs tables d'un ensemble de données BigQuery en même temps à l'aide de la console Google Cloud .

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur Créer une analyse de profil de données.

  3. Sélectionnez l'option Plusieurs analyses de profil de données.

  4. Saisissez un préfixe d'ID. Dataplex Universal Catalog génère automatiquement des ID d'analyse en utilisant le préfixe fourni et des suffixes uniques.

  5. Saisissez une Description pour toutes les analyses de profilage des données.

  6. Dans le champ Ensemble de données, cliquez sur Parcourir. Sélectionnez un ensemble de données dans lequel choisir des tables. Cliquez sur Sélectionner.

  7. Si l'ensemble de données est multirégional, sélectionnez une région dans laquelle créer les analyses de profilage des données.

  8. Configurez les paramètres communs pour les analyses :

    1. Dans le champ Champ d'application, sélectionnez Incrémentiel ou Intégralité des données.

    2. Pour appliquer l'échantillonnage aux analyses de profilage des données, sélectionnez un pourcentage d'échantillonnage dans la liste Taille d'échantillonnage.

      Choisissez un pourcentage compris entre 0 et 100 %, avec un maximum de trois chiffres après la virgule.

    3. Facultatif : publiez les résultats de l'analyse de profilage des données sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console pour la table source. Cochez la case Publier les résultats dans les interfaces utilisateur de BigQuery et de Dataplex Catalog.

      Vous pouvez consulter les derniers résultats de l'analyse dans l'onglet Profil de données des pages BigQuery et Dataplex Universal Catalog pour la table source. Pour permettre aux utilisateurs d'accéder aux résultats d'analyse publiés, consultez la section Accorder l'accès aux résultats d'analyse de profil de données de ce document.

    4. Dans la section Programmation, choisissez l'une des options suivantes :

      • Répéter : exécutez les analyses de profilage des données selon une planification horaire, quotidienne, hebdomadaire, mensuelle ou personnalisée. Spécifiez la fréquence et l'heure d'exécution des analyses. Si vous choisissez "Personnalisée", utilisez le format cron pour spécifier la planification.

      • À la demande : exécutez les analyses de profilage des données à la demande.

  9. Cliquez sur Continuer.

  10. Dans le champ Choisir des tables, cliquez sur Parcourir. Choisissez une ou plusieurs tables à analyser, puis cliquez sur Sélectionner.

  11. Cliquez sur Continuer.

  12. Facultatif : exportez les résultats de l'analyse vers une table BigQuery standard. Dans la section Exporter les résultats d'analyse dans une table BigQuery, procédez comme suit :

    1. Dans le champ Sélectionnez un ensemble de données BigQuery, cliquez sur Parcourir. Sélectionnez un ensemble de données BigQuery dans lequel stocker les résultats de l'analyse de profilage des données.

    2. Dans le champ Table BigQuery, spécifiez la table dans laquelle stocker les résultats de l'analyse de profilage des données. Si vous utilisez une table existante, assurez-vous qu'elle est compatible avec le schéma de la table d'exportation. Si la table spécifiée n'existe pas, Dataplex Universal Catalog la crée pour vous.

      Dataplex Universal Catalog utilise la même table de résultats pour toutes les analyses de profilage des données.

  13. Facultatif : ajoutez des étiquettes. Les étiquettes sont des paires clé/valeur qui vous permettent de regrouper des objets associés ou de les combiner à d'autres ressources Google Cloud .

  14. Pour créer les analyses, cliquez sur Créer.

    Si vous définissez le calendrier sur "À la demande", vous pouvez également exécuter les analyses maintenant en cliquant sur Exécuter l'analyse.

Exécuter une analyse de profilage des données

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur l'analyse de profilage des données à exécuter.
  3. Cliquez sur Exécuter maintenant.

gcloud

Pour exécuter une analyse de profilage des données, utilisez la commande gcloud dataplex datascans run :

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Remplacez les variables suivantes :

  • DATASCAN : nom de l'analyse de profilage des données.
  • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.

REST

Pour exécuter une analyse de profilage des données, utilisez la méthode dataScans.run.

Afficher les résultats d'analyse de profil de données

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur le nom d'une analyse de profil de données.

    • La section Vue d'ensemble affiche des informations sur les jobs les plus récents, y compris la date d'exécution de l'analyse, le nombre d'enregistrements de table analysés et l'état du job.

    • La section Configuration de l'analyse du profil de données affiche des informations sur l'analyse.

  3. Pour afficher des informations détaillées sur un job, comme les colonnes de la table analysée, des statistiques sur les colonnes trouvées lors de l'analyse et les journaux de job, cliquez sur l'onglet Historique des jobs. Cliquez ensuite sur un ID de job.

gcloud

Pour afficher les résultats d'un job d'analyse de profilage des données, utilisez la commande gcloud dataplex datascans jobs describe :

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Remplacez les variables suivantes :

  • JOB : ID du job d'analyse de profilage des données.
  • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
  • DATASCAN : nom de l'analyse de profilage des données à laquelle appartient le job.
  • --view=FULL : pour afficher le résultat du job d'analyse, spécifiez FULL.

REST

Pour afficher les résultats d'une analyse de profilage des données, utilisez la méthode dataScans.get.

Afficher les résultats publiés

Si les résultats de l'analyse de profilage des données sont publiés sur les pages BigQuery et Dataplex Universal Catalog de la console Google Cloud , vous pouvez consulter les derniers résultats de l'analyse dans l'onglet Profil de données de la table source.

  1. Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.

    Accéder à la recherche

  2. Recherchez la table, puis sélectionnez-la.

  3. Cliquez sur l'onglet Profil de données.

    Les derniers résultats publiés s'affichent.

Afficher le job d'analyse de profilage des données le plus récent

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur le nom d'une analyse de profil de données.

  3. Cliquez sur l'onglet Résultats du dernier job.

    Lorsqu'au moins une exécution a été effectuée avec succès, l'onglet Résultats du dernier job fournit des informations sur le dernier job. Cet onglet recense les colonnes de la table analysée et les statistiques sur les colonnes trouvées lors de l'analyse.

gcloud

Pour afficher la dernière analyse de profilage des données réussie, utilisez la commande gcloud dataplex datascans describe :

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Remplacez les variables suivantes :

  • DATASCAN : nom de l'analyse de profilage des données pour laquelle vous souhaitez afficher le job le plus récent.
  • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
  • --view=FULL : pour afficher le résultat du job d'analyse, spécifiez FULL.

REST

Pour afficher le job d'analyse le plus récent, utilisez la méthode dataScans.get.

Afficher l'historique des résultats d'analyse

Dataplex Universal Catalog enregistre l'historique des analyses de profilage des données pour les 300 derniers jobs ou l'année écoulée, selon la première échéance.

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur le nom d'une analyse de profil de données.

  3. Cliquez sur l'onglet Historique des jobs.

    L'onglet Historique des jobs fournit des informations sur les jobs passés, comme le nombre d'enregistrements analysés dans chaque job, l'état du job et l'heure à laquelle le job a été exécuté.

  4. Pour afficher des informations détaillées sur un job, cliquez sur l'un des jobs de la colonne ID de job.

gcloud

Pour afficher l'historique des jobs d'analyse de profilage des données, utilisez la commande gcloud dataplex datascans jobs list :

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Remplacez les variables suivantes :

  • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
  • DATASCAN : nom de l'analyse de profilage des données pour laquelle vous souhaitez afficher les jobs.

REST

Pour afficher l'historique des jobs d'analyse de profilage des données, utilisez la méthode dataScans.jobs.list.

Accorder l'accès aux résultats d'analyse de profil de données

Pour permettre aux utilisateurs de votre organisation d'afficher les résultats d'analyse, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur l'analyse de la qualité des données dont vous souhaitez partager les résultats.

  3. Cliquez sur l'onglet Autorisations.

  4. Procédez comme suit :

    • Pour accorder l'accès à un compte principal, cliquez sur Accorder l'accès. Accordez le rôle Lecteur de données Dataplex DataScan au compte principal associé.
    • Pour supprimer l'accès d'un compte principal, sélectionnez celui pour lequel vous souhaitez supprimer le rôle Lecteur de données Dataplex DataScan. Cliquez sur  > Supprimer l'accès, puis confirmez lorsque vous y êtes invité.

Gérer les analyses de profil de données pour une table spécifique

Les étapes décrites dans ce document expliquent comment gérer les analyses de profilage des données dans votre projet à l'aide de la page Qualité et profilage des données de Dataplex Universal Catalog dans la console Google Cloud .

Vous pouvez également créer et gérer des analyses de profil de données lorsque vous travaillez avec une table spécifique. Dans la console Google Cloud , sur la page Dataplex Universal Catalog de la table, utilisez l'onglet Profil de données. Procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.

    Accéder à la recherche

    Recherchez la table, puis sélectionnez-la.

  2. Cliquez sur l'onglet Profil de données.

  3. Selon que la table comporte ou non une analyse de profilage des données dont les résultats sont publiés, vous pouvez effectuer les opérations suivantes :

    • Les résultats de l'analyse du profil de données sont publiés : les derniers résultats de l'analyse publiée s'affichent sur la page.

      Pour gérer les analyses de profil des données de ce tableau, cliquez sur Analyse de profil des données, puis sélectionnez l'une des options suivantes :

      • Créer une analyse : créez une analyse de profilage des données. Pour en savoir plus, consultez la section Créer une analyse de profil de données de ce document. Lorsque vous créez une analyse à partir de la page d'informations d'une table, celle-ci est présélectionnée.

      • Exécuter : exécutez l'analyse.

      • Modifier la configuration d'analyse : modifiez les paramètres, y compris le nom à afficher, les filtres, la taille de l'échantillon et la planification.

      • Gérer les autorisations d'analyse : contrôlez qui peut accéder aux résultats de l'analyse. Pour en savoir plus, consultez la section Accorder l'accès aux résultats d'analyse de profil des données de ce document.

      • Afficher l'historique des résultats : affichez des informations détaillées sur les jobs d'analyse de profilage des données précédents. Pour en savoir plus, consultez les sections Afficher les résultats d'analyse de profil de données et Afficher l'historique des résultats d'analyse de ce document.

      • Afficher toutes les analyses : affichez la liste des analyses de profilage des données qui s'appliquent à ce tableau.

    • Les résultats de l'analyse du profil de données ne sont pas publiés : cliquez sur le menu à côté de Profil de données rapide, puis sélectionnez l'une des options suivantes :

      • Personnaliser le profilage des données : créez une analyse de profilage des données. Pour en savoir plus, consultez la section Créer une analyse de profil de données de ce document. Lorsque vous créez une analyse à partir de la page d'informations d'une table, celle-ci est présélectionnée.

      • Afficher les profils précédents : affichez la liste des analyses de profilage des données qui s'appliquent à cette table.

Mettre à jour une analyse de profilage des données

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur le nom d'une analyse de profil de données.

  3. Cliquez sur Modifier, puis modifiez les valeurs.

  4. Cliquez sur Enregistrer.

gcloud

Pour mettre à jour une analyse de profilage des données, utilisez la commande gcloud dataplex datascans update data-profile :

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Remplacez les variables suivantes :

  • DATASCAN : nom de l'analyse de profilage des données à mettre à jour.
  • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
  • DESCRIPTION : nouvelle description de l'analyse de profilage des données.

REST

Pour modifier une analyse du profil de données, utilisez la méthode dataScans.patch.

Supprimer une analyse de profilage des données

Console

  1. Dans la console Google Cloud , accédez à la page Qualité et profilage des données de Dataplex Universal Catalog.

    Accéder à la page "Qualité et profilage des données"

  2. Cliquez sur l'analyse que vous souhaitez supprimer.

  3. Cliquez sur Supprimer, puis confirmez l'opération lorsque vous y êtes invité.

gcloud

Pour supprimer une analyse de profilage des données, utilisez la commande gcloud dataplex datascans delete :

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Remplacez les variables suivantes :

  • DATASCAN : nom de l'analyse de profilage des données à supprimer.
  • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.

REST

Pour supprimer une analyse de profilage des données, utilisez la méthode dataScans.delete.

Étape suivante