À propos du profilage des données

Le profilage des données Dataplex vous permet d'identifier les caractéristiques statistiques des colonnes tableaux. Ces informations vous aident à comprendre et à analyser vos données plus efficacement.

Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Associé à la classification des données, le profilage des données détecter les classes de données ou les informations sensibles qui, à leur tour, peuvent permettre l'accès des stratégies de contrôle.

Dataplex utilise aussi ces informations pour recommander des règles pour les contrôles de qualité des données.

Modèle conceptuel

Dataplex vous permet de mieux comprendre le profil de vos données en pour créer une analyse de profilage des données.

Le schéma suivant montre comment Dataplex analyse les données pour générer des rapports. les caractéristiques statistiques.

Une analyse de profilage des données analyse les données d'une table pour générer des rapports sur des caractéristiques statistiques.

Une analyse de profilage de données est associée à une table BigQuery et analyse la table pour générer les résultats du profilage des données. Le profilage des données scan accepte plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour l'exécution de profilage des données.

Options de programmation

Vous pouvez planifier une analyse de profilage des données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.

Champ d'application

Dans le cadre de la spécification d'une analyse de profilage de données, vous pouvez spécifier le champ d'application d'une tâche selon l'une des options suivantes:

  • Table complète: l'intégralité de la table est analysée lors de l'analyse du profilage des données. L'échantillonnage, les filtres de lignes et de colonnes sont appliqués à l'ensemble de la table avant de calculer les statistiques de profilage.

  • Incrémentiel: les données incrémentielles que vous spécifiez sont analysées dans les données. l'analyse du profil. Spécifiez une colonne Date ou Timestamp de la table à utilisée comme incrément. Généralement, il s'agit de la colonne sur laquelle le tableau est partitionné. L'échantillonnage, les filtres de lignes et de colonnes sont appliqués au niveau des données incrémentielles avant de calculer les statistiques de profilage.

Filtrer les données

Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et des filtres de colonne. L'utilisation de filtres vous aide à réduire le temps et le coût d'exécution, et exclure les données sensibles et inutiles.

  • Filtres de lignes: ils vous permettent de vous concentrer sur les données d'un moment spécifique d'une période spécifique ou d'un segment spécifique, tel qu'une région. Par exemple, vous pouvez filtrer des données avec un horodatage antérieur à une certaine date.

  • Filtres de colonne: ils vous permettent d'inclure et d'exclure des éléments spécifiques colonnes de votre table pour exécuter l'analyse de profilage des données.

Exemples de données

Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données. à un échantillon pour exécuter une analyse de profilage de données. Création... les analyses de profilage de données sur un petit échantillon de données la durée d'exécution et le coût liés à l'interrogation de l'ensemble de données.

Plusieurs analyses de profilage des données

Dataplex vous permet de créer plusieurs analyses de profilage des données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables pour un ensemble de données et créer une analyse de profilage de données pour chaque ensemble de données. En savoir plus

Exporter les résultats d'analyse dans une table BigQuery

Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données d'une table BigQuery vers un tableau de bord Looker. Vous pouvez créer un rapport cumulé en utilisant le même tableau de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes:

Type de colonne Résultats du profilage des données
Colonne numérique
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Top 10 des valeurs les plus courantes dans la colonne. Elle peut être inférieure à 10 si le le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles inclus). Pour chacune de ces valeurs les plus courantes, le pourcentage dans les données analysées lors de l'analyse en cours.
  • Moyenne, écart type, minimum, quartile inférieur approximatif valeurs médianes approximatives, quartile supérieur approximatif et maximum.
Colonne de chaîne
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Top 10 des valeurs les plus courantes dans la colonne, qui peut être inférieure à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10.
  • Longueurs moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, fichier binaire, etc.)
  • Pourcentage de valeurs nulles.
  • Pourcentage de valeurs uniques (distinctes) approximatives.
  • Top 10 des valeurs les plus courantes dans la colonne, qui peut être inférieure à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10.
Toutes les autres colonnes imbriquées ou complexes de type de données (telles que Record, Array, JSON) ou toute colonne en mode repeated.
  • Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des éléments suivants : et méthodes:

  • Rapports publiés avec la table source sur les pages BigQuery et Data Catalog

    Si vous avez configuré une analyse de profilage de données pour publier les résultats dans les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher la dernière analyse de profilage des données sur ces pages, dans l'onglet Profil de données, à partir de n'importe quel projet.

    Rapports publiés

  • Rapport "Historique", par job dans Dataplex

    Sur la page Profil de Dataplex, vous pouvez afficher les détails pour les emplois les plus récents et les plus anciens. Cela inclut le profil au niveau des colonnes et la configuration utilisée.

    Rapport "Historique par job"

  • Onglet "Analyse"

    Sur la page Profil de Dataplex, vous pouvez utiliser l'outil Analyse. pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs Jobs de création de profils. Par exemple, dans le cas d'une analyse incrémentielle, la moyenne d'une valeur a évolué au fil du temps.

    Analyse.

  • Créer votre propre tableau de bord ou vos données analytiques

    Si vous avez configuré une analyse de profilage de données pour exporter ou enregistrer les résultats dans un table BigQuery, vous pouvez créer vos propres tableaux de bord tels que Looker Studio.

Limites

  • Les résultats du profilage des données ne sont pas publiés dans Data Catalog, car .
  • Le profilage des données est disponible pour les tables BigQuery comportant toutes les colonnes à l'exception de BIGNUMERIC. Une analyse créée pour une table avec un BIGNUMERIC génère une erreur de validation et n'a pas été correctement créée.
  • Les tables BigQuery à analyser doivent comporter 300 colonnes ou en moins.

Tarifs

  • Dataplex utilise le SKU de traitement Premium pour facturer les données et le profilage. Pour en savoir plus, reportez-vous à la page Tarifs.

  • La publication des résultats de profilage des données dans Data Catalog n'est pas encore disponibles. Lorsqu'elle sera disponible, elle sera facturée au même tarif que Tarifs de stockage des métadonnées du catalogue Pour en savoir plus, reportez-vous à la section Tarification.

  • Le traitement Premium de Dataplex pour le profilage des données est facturé par seconde avec une durée minimale d'une minute.

  • L'échec des analyses de profilage ne vous est pas facturé.

  • Le montant débité dépend du nombre de lignes et de colonnes, ainsi que de la quantité des données analysées, des paramètres de partitionnement et de clustering sur la table, et la la fréquence d'analyse.

  • Il existe plusieurs options pour réduire le coût des analyses de profilage des données:

    • Échantillonnage
    • Analyses incrémentielles
    • Filtrage de colonne
    • Filtrage des lignes
  • Pour séparer les frais de profilage des données des autres frais dans Dataplex un SKU de traitement premium, sur le rapport Cloud Billing, utilisez le libellé goog-dataplex-workload-type avec la valeur DATA_PROFILE

  • Pour filtrer les frais cumulés, utilisez les étiquettes suivantes:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Étape suivante