À propos du profilage de données

Le profilage de données Dataplex Universal Catalog vous permet d'identifier des caractéristiques statistiques courantes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser plus efficacement vos données.

Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Combiné à la classification des données, le profilage des données peut détecter des classes de données ou des informations sensibles qui peuvent, à leur tour, activer des règles de contrôle des accès.

Dataplex Universal Catalog utilise également ces informations pour recommander des règles pour les vérifications de la qualité des données.

Modèle conceptuel

Dataplex Universal Catalog vous permet de mieux comprendre le profil de vos données en créant une analyse de profil de données.

Le schéma suivant montre comment Dataplex Universal Catalog analyse les données pour générer des rapports sur les caractéristiques statistiques.

Une analyse de profil de données analyse les données d'une table pour générer un rapport sur les caractéristiques statistiques.

Une analyse de profil de données est associée à une table BigQuery et l'analyse pour générer les résultats du profilage des données. L'analyse d'un profil de données est compatible avec plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour exécuter des analyses de profil de données.

Options de programmation

Vous pouvez planifier une analyse du profil de données avec une fréquence définie ou l'exécuter à la demande.

Champ d'application

Vous pouvez spécifier le champ d'application des données à analyser :

  • Table complète : l'intégralité de la table est analysée lors de l'analyse du profil de données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.

  • Incrémentiel : les données incrémentielles que vous spécifiez sont analysées dans l'analyse de profilage des données. Spécifiez une colonne Date ou Timestamp dans le tableau à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.

Filtrer les données

Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et de colonnes. L'utilisation de filtres vous aide à réduire la durée d'exécution et les coûts, et à exclure les données sensibles et inutiles.

  • Filtres de ligne : ils vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer les données dont le code temporel est antérieur à une certaine date.

  • Filtres de colonnes : ils vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse du profil de données.

Exemples de données

Vous pouvez spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profil de données. La création d'analyses de profil de données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données.

Plusieurs analyses de profil de données

Vous pouvez créer plusieurs analyses de profilage des données à la fois à l'aide de la console Google Cloud . Vous pouvez sélectionner jusqu'à 100 tables à partir d'un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. Pour en savoir plus, consultez Créer plusieurs analyses de profilage des données.

Exporter les résultats de l'analyse vers une table BigQuery

Vous pouvez exporter les résultats de l'analyse du profil de données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données des tables BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes :

Type de colonne Résultats du profilage des données
Colonne numérique
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes de la colonne. Il peut être inférieur à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles ne sont pas incluses). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées lors de l'analyse actuelle est affiché.
  • Valeurs moyenne, écart type, minimale, quartile inférieur approximatif, médiane approximative, quartile supérieur approximatif et maximale.
Colonne de chaîne
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus fréquentes de la colonne (moins de 10 si le nombre de valeurs uniques de la colonne est inférieur à 10).
  • Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.)
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus fréquentes de la colonne (moins de 10 si le nombre de valeurs uniques de la colonne est inférieur à 10).
Toutes les autres colonnes de types de données imbriqués ou complexes (telles que "Record", "Array" ou "JSON") ou toute colonne avec le mode repeated.
  • Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés dans chaque job.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants :

  • Rapports publiés avec la table source sur les pages BigQuery et Dataplex Universal Catalog

    Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console, vous pouvez consulter les derniers résultats de l'analyse de profilage des données sur ces pages, dans l'onglet Profil de données de la table source, depuis n'importe quel projet.

    Rapports publiés.

  • Rapport historique par tâche

    Sur la page Profilage et qualité des données > Analyse du profil de données de Dataplex Universal Catalog et BigQuery, vous pouvez consulter les rapports détaillés des jobs les plus récents et de l'historique. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.

    Rapport historique par tâche.

  • Onglet "Analyse"

    Sur la page Profilage et qualité des données > Analyse du profil de données de Dataplex Universal Catalog et BigQuery, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs jobs de profilage. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir comment la moyenne d'une valeur a évolué au fil du temps.

    Onglet "Analyse".

  • Créer votre propre tableau de bord ou vos propres données analytiques

    Si vous avez configuré une analyse de profilage des données pour exporter les résultats vers une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.

Limites

  • Le profilage des données est compatible avec les tables BigQuery comportant tous les types de colonnes, à l'exception de BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et n'est pas créée.

Tarifs

  • Dataplex Universal Catalog utilise le SKU de traitement premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.

  • Le traitement Premium de Dataplex Universal Catalog pour le profilage des données est facturé à la seconde, avec un minimum d'une minute.

  • Les analyses de profil de données ayant échoué ne vous sont pas facturées.

  • Les frais dépendent du nombre de lignes et de colonnes, de la quantité de données analysées, des paramètres de partitionnement et de clustering de la table, ainsi que de la fréquence de l'analyse.

  • Plusieurs options permettent de réduire le coût des analyses de profil de données :

    • Échantillonnage
    • Analyses incrémentales
    • Filtrage de colonne
    • Filtrage des lignes
  • Pour séparer les frais de profilage des données des autres frais associés au SKU de traitement premium Dataplex Universal Catalog, utilisez le libellé goog-dataplex-workload-type avec la valeur DATA_PROFILE dans le rapport Cloud Billing.

  • Pour filtrer les frais agrégés, utilisez les libellés suivants :

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Étape suivante