À propos du profilage des données

Le profilage des données Dataplex vous permet d'identifier les caractéristiques statistiques communes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser vos données plus efficacement.

Des informations telles que les valeurs de données classiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Lorsqu'il est associé à la classification des données, le profilage des données peut détecter des classes de données ou des informations sensibles qui, à leur tour, peuvent activer des stratégies de contrôle d'accès.

Dataplex exploite également ces informations pour recommander des règles de contrôle de la qualité des données.

Modèle conceptuel

Dataplex vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage.

Le schéma suivant montre comment Dataplex analyse les données pour créer des rapports sur les caractéristiques statistiques.

Une analyse de profilage des données analyse les données d'une table pour créer des rapports sur les caractéristiques statistiques.

Une analyse de profilage des données est associée à une table BigQuery, puis l'analyse pour générer les résultats du profilage des données. Une analyse de profilage des données est compatible avec plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.

Options de programmation

Vous pouvez planifier une analyse de profilage des données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.

Définition du champ d'application

Dans le cadre de la spécification d'une analyse de profilage des données, vous pouvez spécifier le champ d'application d'une tâche de l'une des façons suivantes:

  • Table complète: l'ensemble de la table est analysé lors de l'analyse du profilage des données. L'échantillonnage ainsi que les filtres de ligne et de colonne sont appliqués à l'ensemble de la table avant de calculer les statistiques de profilage.

  • Incrémentiel: les données incrémentielles que vous spécifiez sont analysées dans l'analyse du profil de données. Spécifiez une colonne Date ou Timestamp dans la table à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, ainsi que les filtres de ligne et de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.

Filtrer les données

Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de ligne et de colonne. L'utilisation de filtres vous permet de réduire le temps d'exécution et les coûts, et d'exclure les données sensibles et inutiles.

  • Filtres de lignes: ces filtres vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer les données avec un horodatage antérieur à une certaine date.

  • Filtres de colonne: les filtres de colonne vous permettent d'inclure et d'exclure des colonnes spécifiques de votre table pour exécuter l'analyse de profilage des données.

Exemples de données

Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour l'exécution d'une analyse de profilage. En créant des analyses de profilage des données sur un échantillon de données plus petit, vous pouvez réduire le temps d'exécution et le coût liés à l'interrogation de l'ensemble de données complet.

Plusieurs analyses de profilage des données

Dataplex vous permet de créer plusieurs analyses de profilage de données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables dans un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus

Exporter les résultats d'analyse dans une table BigQuery

Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes:

Type de colonne Résultats du profilage des données
Colonne numérique
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes dans la colonne Elle peut être inférieure à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles ne sont pas incluses). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées au cours de l'analyse en cours est affiché.
  • Moyenne, écart type, minimum, quartile inférieur approximatif, médiane approximative, quartile supérieur approximatif et maximum.
Colonne de chaîne
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10
  • Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.)
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Les 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10
Toutes les autres colonnes de type données imbriquées ou complexes (telles que Record, Array, JSON) ou toute colonne en mode repeated
  • Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et des méthodes suivants:

  • Rapports publiés avec la table source dans les pages BigQuery et Data Catalog

    Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher les derniers résultats d'analyse de profilage sur ces pages dans l'onglet Profil de données de n'importe quel projet.

    Rapports publiés.

  • Historique, rapport par tâche dans Dataplex

    Sur la page Profil Dataplex, vous pouvez afficher des rapports détaillés sur les jobs les plus récents et historiques. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.

    Rapport "Historique par job"

  • Onglet "Analysis" (Analyse)

    Sur la page Profil Dataplex, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs tâches de profil. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir l'évolution de la moyenne d'une valeur au fil du temps.

    Analyse.

  • Créer votre propre tableau de bord ou vos propres données analytiques

    Si vous avez configuré une analyse de profilage des données pour exporter ou enregistrer les résultats dans une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.

Limites

  • Les résultats du profilage des données ne sont pas publiés dans Data Catalog sous forme de tags.
  • Le profilage des données est compatible avec les tables BigQuery comportant tous les types de colonnes, à l'exception de BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et n'est pas créée.
  • Les tables BigQuery à analyser ne doivent pas comporter plus de 300 colonnes.

Tarification

  • Dataplex utilise le SKU de traitement premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.

  • La publication des résultats du profilage des données sur Data Catalog n'est pas encore disponible. Lorsqu'elle sera disponible, elle sera facturée au même tarif que le tarif de stockage des métadonnées du catalogue. Pour en savoir plus, reportez-vous à la section Tarification.

  • Le traitement Premium de Dataplex pour le profilage des données est facturé à la seconde avec une durée minimale d'une minute.

  • Les échecs d'analyse de profilage ne vous sont pas facturés.

  • Les frais dépendent du nombre de lignes, du nombre de colonnes, de la quantité de données analysées, des paramètres de partitionnement et de clustering de la table, ainsi que de la fréquence des analyses.

  • Plusieurs options permettent de réduire le coût des analyses de profilage des données:

    • Sampling
    • Analyses incrémentielles
    • Filtrage de colonne
    • Filtrage des lignes
  • Pour séparer les frais de profilage des données des autres frais liés au code SKU de traitement premium Dataplex, utilisez l'étiquette goog-dataplex-workload-type avec la valeur DATA_PROFILE.

  • Pour filtrer les frais agrégés, utilisez les étiquettes suivantes:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Étape suivante