À propos du profilage des données

Le profilage des données Dataplex vous permet d'identifier les caractéristiques statistiques des colonnes de votre tableaux. Ces informations vous aident à comprendre et à analyser vos données plus efficacement.

Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Associé à la classification des données, le profilage des données détecter les classes de données ou les informations sensibles qui, à leur tour, peuvent permettre l'accès des stratégies de contrôle.

Dataplex utilise également ces informations pour recommander des règles pour les contrôles de qualité des données.

Modèle conceptuel

Dataplex vous permet de mieux comprendre le profil de vos données en pour créer une analyse de profilage des données.

Le schéma suivant montre comment Dataplex analyse les données pour générer des rapports. les caractéristiques statistiques.

Une analyse de profilage des données analyse les données d'une table pour générer des rapports sur des caractéristiques statistiques.

Une analyse de profilage de données est associée à une table BigQuery et analyse la table pour générer les résultats du profilage des données. Le profilage des données scan accepte plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour l'exécution de profilage des données.

Options de programmation

Vous pouvez planifier une analyse de profilage des données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.

Champ d'application

Dans le cadre de la spécification d'une analyse de profilage de données, vous pouvez spécifier le champ d'application d'une tâche selon l'une des options suivantes:

  • Table complète : l'analyse de profilage des données analyse l'intégralité de la table. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.

  • Incrémentiel : les données incrémentielles que vous spécifiez sont analysées lors de l'analyse du profil de données. Spécifiez une colonne Date ou Timestamp de la table à utilisée comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.

Filtrer les données

Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et des filtres de colonne. L'utilisation de filtres vous permet de réduire le temps d'exécution et les coûts, et d'exclure les données sensibles et inutiles.

  • Filtres de ligne : les filtres de ligne vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer des données avec un horodatage avant une certaine date.

  • Filtres de colonne : les filtres de colonne vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse de profilage des données.

Exemples de données

Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. Créer des analyses de profilage des données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données complet.

Plusieurs analyses de profilage des données

Dataplex vous permet de créer plusieurs analyses de profilage des données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables dans un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus

Exporter les résultats d'analyse dans une table BigQuery

Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes:

Type de colonne Résultats du profilage des données
Colonne numérique
  • Pourcentage de valeurs nulles.
  • Pourcentage approximatif de valeurs uniques (distinctes).
  • 10 valeurs les plus courantes de la colonne. Elle peut être inférieure à 10 si le le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles inclus). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées lors de l'analyse en cours est affiché.
  • Moyenne, écart type, valeur minimale, quart inférieur approximatif, médiane approximative, quart supérieur approximatif et valeur maximale.
Colonne de chaîne
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques de la colonne est inférieur à 10.
  • Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, fichier binaire, etc.)
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques de la colonne est inférieur à 10.
Toutes les autres colonnes de type de données imbriquées ou complexes (telles que Record, Array, JSON) ou toute colonne avec le mode repeated (répété).
  • Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des éléments suivants : et méthodes:

  • Rapports publiés avec la table source sur les pages BigQuery et Data Catalog

    Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher les derniers résultats de l'analyse de profilage des données sur ces pages, dans l'onglet Profil de données, à partir de n'importe quel projet.

    Rapports publiés

  • Historique, par rapport dans Dataplex

    Sur la page Profil de Dataplex, vous pouvez afficher les détails pour les emplois les plus récents et les plus anciens. Cela inclut les profils au niveau des colonnes et la configuration utilisée.

    Rapport "Historique" par tâche

  • Onglet "Analyse"

    Sur la page Profile (Profil) de Dataplex, vous pouvez utiliser l'onglet Analysis (Analyse) pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs tâches de profil. Par exemple, dans le cas d'une analyse incrémentielle, la moyenne d'une valeur a connu des tendances au fil du temps.

    Analyse.

  • Créer votre propre tableau de bord ou vos propres données analytiques

    Si vous avez configuré une analyse de profilage de données pour exporter ou enregistrer les résultats dans un table BigQuery, vous pouvez créer vos propres tableaux de bord tels que Looker Studio.

Limites

  • Les résultats du profilage des données ne sont pas publiés dans Data Catalog, car .
  • Le profilage des données est disponible pour les tables BigQuery comportant toutes les colonnes autres que BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et ne peut pas être créée.
  • Les tables BigQuery à analyser doivent comporter 300 colonnes ou moins.

Tarifs

  • Dataplex utilise le SKU de traitement Premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.

  • La publication des résultats de profilage des données dans Data Catalog n'est pas encore disponibles. Lorsqu'il sera disponible, il sera facturé au même tarif que le stockage des métadonnées de catalogue. Pour en savoir plus, reportez-vous à la section Tarification.

  • Le traitement premium Dataplex pour le profilage des données est facturé par seconde, avec un minimum d'une minute.

  • Les analyses de profilage qui échouent ne vous sont pas facturées.

  • Le montant débité dépend du nombre de lignes et de colonnes, ainsi que de la quantité des données analysées, des paramètres de partitionnement et de clustering sur la table, et la la fréquence d'analyse.

  • Il existe plusieurs options pour réduire le coût des analyses de profilage des données:

    • Échantillonnage
    • Analyses incrémentielles
    • Filtrage de colonne
    • Filtrage des lignes
  • Pour séparer les frais de profilage des données des autres frais dans Dataplex un SKU de traitement premium, sur le rapport Cloud Billing, utilisez le libellé goog-dataplex-workload-type avec la valeur DATA_PROFILE

  • Pour filtrer les frais cumulés, utilisez les étiquettes suivantes:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Étape suivante