À propos du profilage de données

Le profilage de données Dataplex vous permet d'identifier des caractéristiques statistiques courantes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser plus efficacement vos données.

Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Combiné à la classification des données, le profilage des données peut détecter des classes de données ou des informations sensibles qui, à leur tour, peuvent activer des stratégies de contrôle des accès.

Dataplex utilise également ces informations pour recommander des règles pour les contrôles de qualité des données.

Modèle conceptuel

Dataplex vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage des données.

Le schéma suivant montre comment Dataplex analyse les données pour générer des rapports sur les caractéristiques statistiques.

Une analyse de profilage des données analyse les données de table pour générer des rapports sur les caractéristiques statistiques.

Une analyse de profilage de données est associée à une table BigQuery et analyse la table pour générer les résultats de profilage de données. Une analyse de profilage des données accepte plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.

Options de programmation

Vous pouvez planifier une analyse de profilage des données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.

Champ d'application

Dans le cadre de la spécification d'une analyse de profilage des données, vous pouvez spécifier la portée d'une tâche comme l'une des options suivantes:

  • Table complète: l'analyse de profilage des données analyse l'intégralité de la table. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.

  • Incrémentiel: les données incrémentielles que vous spécifiez sont analysées lors de l'analyse du profil de données. Spécifiez une colonne Date ou Timestamp dans le tableau à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.

Filtrer les données

Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de ligne et de colonne. L'utilisation de filtres vous permet de réduire le temps d'exécution et les coûts, et d'exclure les données sensibles et inutiles.

  • Filtres de ligne: les filtres de ligne vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer les données avec un code temporel antérieur à une certaine date.

  • Filtres de colonne: les filtres de colonne vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse de profilage des données.

Exemples de données

Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. Créer des analyses de profilage des données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données complet.

Plusieurs analyses de profilage des données

Dataplex vous permet de créer plusieurs analyses de profilage de données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables dans un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus

Exporter les résultats d'analyse dans une table BigQuery

Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez connecter les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes:

Type de colonne Résultats du profilage des données
Colonne numérique
  • Pourcentage de valeurs nulles.
  • Pourcentage approximatif de valeurs uniques (distinctes).
  • 10 valeurs les plus courantes de la colonne. Il peut être inférieur à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles ne sont pas incluses). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées lors de l'analyse en cours est affiché.
  • Moyenne, écart type, valeur minimale, quart inférieur approximatif, médiane approximative, quart supérieur approximatif et valeur maximale.
Colonne de chaîne
  • Pourcentage de valeurs nulles.
  • Pourcentage approximatif de valeurs uniques (distinctes).
  • Les 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques de la colonne est inférieur à 10.
  • Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.)
  • Pourcentage de valeurs nulles.
  • Pourcentage approximatif de valeurs uniques (distinctes).
  • Les 10 valeurs les plus courantes de la colonne, qui peuvent être inférieures à 10 si le nombre de valeurs uniques de la colonne est inférieur à 10.
Toutes les autres colonnes de type de données imbriquées ou complexes (telles que "Enregistrement", "Tableau" ou "JSON") ou toute colonne avec le mode répété.
  • Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et des méthodes suivants:

  • Rapports publiés avec la table source sur les pages BigQuery et Data Catalog

    Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher les derniers résultats de l'analyse de profilage des données sur ces pages dans l'onglet Profil de données, à partir de n'importe quel projet.

    Rapports publiés.

  • Historique, par rapport dans Dataplex

    Sur la page Profil de Dataplex, vous pouvez consulter les rapports détaillés des derniers jobs et de l'historique. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.

    Rapport "Historique" par tâche

  • Onglet "Analyse"

    Sur la page Profile (Profil) de Dataplex, vous pouvez utiliser l'onglet Analysis (Analyse) pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs tâches de profil. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir l'évolution de la moyenne d'une valeur au fil du temps.

    Onglet "Analyse".

  • Créer votre propre tableau de bord ou vos propres données analytiques

    Si vous avez configuré une analyse de profilage des données pour exporter ou enregistrer les résultats dans une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.

Limites

  • Les résultats du profilage des données ne sont pas publiés dans Data Catalog en tant que balises.
  • Le profilage des données est compatible avec les tables BigQuery de tous les types de colonnes, à l'exception de BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et ne peut pas être créée.
  • Les tables BigQuery à analyser doivent comporter 300 colonnes ou moins.

Tarifs

  • Dataplex utilise le SKU de traitement Premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.

  • La publication des résultats du profilage des données dans Data Catalog n'est pas encore disponible. Lorsqu'il sera disponible, il sera facturé au même tarif que le stockage des métadonnées de catalogue. Pour en savoir plus, reportez-vous à la section Tarification.

  • Le traitement premium Dataplex pour le profilage des données est facturé par seconde, avec un minimum d'une minute.

  • Les analyses de profilage qui échouent ne vous sont pas facturées.

  • Les frais dépendent du nombre de lignes et de colonnes, de la quantité de données analysées, des paramètres de partitionnement et de clustering de la table, ainsi que de la fréquence de l'analyse.

  • Plusieurs options permettent de réduire les coûts des analyses de profilage des données:

    • Échantillonnage
    • Analyses incrémentielles
    • Filtrage de colonne
    • Filtrage des lignes
  • Pour séparer les frais de profilage des données des autres frais dans le SKU de traitement premium Dataplex, dans le rapport de facturation Cloud, utilisez le libellé goog-dataplex-workload-type avec la valeur DATA_PROFILE.

  • Pour filtrer les frais cumulés, utilisez les libellés suivants:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Étape suivante