Le profilage des données Dataplex vous permet d'identifier les caractéristiques statistiques des colonnes de votre tableaux. Ces informations vous aident à comprendre et à analyser vos données plus efficacement.
Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Associé à la classification des données, le profilage des données détecter les classes de données ou les informations sensibles qui, à leur tour, peuvent permettre l'accès des stratégies de contrôle.
Dataplex utilise également ces informations pour recommander des règles pour les contrôles de qualité des données.
Modèle conceptuel
Dataplex vous permet de mieux comprendre le profil de vos données en pour créer une analyse de profilage des données.
Le schéma suivant montre comment Dataplex analyse les données pour générer des rapports. les caractéristiques statistiques.
Une analyse de profilage de données est associée à une table BigQuery et analyse la table pour générer les résultats du profilage des données. Le profilage des données scan accepte plusieurs options de configuration.
Options de configuration
Cette section décrit les options de configuration disponibles pour l'exécution de profilage des données.
Options de programmation
Vous pouvez planifier une analyse de profilage des données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.
Champ d'application
Dans le cadre de la spécification d'une analyse de profilage de données, vous pouvez spécifier le champ d'application d'une tâche selon l'une des options suivantes:
Table complète : l'analyse de profilage des données analyse l'intégralité de la table. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.
Incrémentiel : les données incrémentielles que vous spécifiez sont analysées lors de l'analyse du profil de données. Spécifiez une colonne
Date
ouTimestamp
de la table à utilisée comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.
Filtrer les données
Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et des filtres de colonne. L'utilisation de filtres vous permet de réduire le temps d'exécution et les coûts, et d'exclure les données sensibles et inutiles.
Filtres de ligne : les filtres de ligne vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer des données avec un horodatage avant une certaine date.
Filtres de colonne : les filtres de colonne vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse de profilage des données.
Exemples de données
Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. Créer des analyses de profilage des données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données complet.
Plusieurs analyses de profilage des données
Dataplex vous permet de créer plusieurs analyses de profilage des données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables dans un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus
Exporter les résultats d'analyse dans une table BigQuery
Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.
Résultats du profilage des données
Les résultats du profilage des données incluent les valeurs suivantes:
Type de colonne | Résultats du profilage des données |
---|---|
Colonne numérique |
|
Colonne de chaîne |
|
Autres colonnes non imbriquées (date, heure, code temporel, fichier binaire, etc.) |
|
Toutes les autres colonnes de type de données imbriquées ou complexes (telles que Record, Array, JSON) ou toute colonne avec le mode repeated (répété). |
|
Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.
Création de rapports et surveillance
Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des éléments suivants : et méthodes:
Rapports publiés avec la table source sur les pages BigQuery et Data Catalog
Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher les derniers résultats de l'analyse de profilage des données sur ces pages, dans l'onglet Profil de données, à partir de n'importe quel projet.
Historique, par rapport dans Dataplex
Sur la page Profil de Dataplex, vous pouvez afficher les détails pour les emplois les plus récents et les plus anciens. Cela inclut les profils au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"
Sur la page Profile (Profil) de Dataplex, vous pouvez utiliser l'onglet Analysis (Analyse) pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs tâches de profil. Par exemple, dans le cas d'une analyse incrémentielle, la moyenne d'une valeur a connu des tendances au fil du temps.
Créer votre propre tableau de bord ou vos propres données analytiques
Si vous avez configuré une analyse de profilage de données pour exporter ou enregistrer les résultats dans un table BigQuery, vous pouvez créer vos propres tableaux de bord tels que Looker Studio.
Limites
- Les résultats du profilage des données ne sont pas publiés dans Data Catalog, car .
- Le profilage des données est disponible pour les tables BigQuery comportant toutes les colonnes
autres que
BIGNUMERIC
. Une analyse créée pour une table avec une colonneBIGNUMERIC
génère une erreur de validation et ne peut pas être créée. - Les tables BigQuery à analyser doivent comporter 300 colonnes ou moins.
Tarifs
Dataplex utilise le SKU de traitement Premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.
La publication des résultats de profilage des données dans Data Catalog n'est pas encore disponibles. Lorsqu'il sera disponible, il sera facturé au même tarif que le stockage des métadonnées de catalogue. Pour en savoir plus, reportez-vous à la section Tarification.
Le traitement premium Dataplex pour le profilage des données est facturé par seconde, avec un minimum d'une minute.
Les analyses de profilage qui échouent ne vous sont pas facturées.
Le montant débité dépend du nombre de lignes et de colonnes, ainsi que de la quantité des données analysées, des paramètres de partitionnement et de clustering sur la table, et la la fréquence d'analyse.
Il existe plusieurs options pour réduire le coût des analyses de profilage des données:
- Échantillonnage
- Analyses incrémentielles
- Filtrage de colonne
- Filtrage des lignes
Pour séparer les frais de profilage des données des autres frais dans Dataplex un SKU de traitement premium, sur le rapport Cloud Billing, utilisez le libellé
goog-dataplex-workload-type
avec la valeurDATA_PROFILE
Pour filtrer les frais cumulés, utilisez les étiquettes suivantes:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Étape suivante
- Découvrez comment utiliser le profilage de données.
- En savoir plus sur la qualité automatique des données
- Découvrez comment utiliser la qualité automatique des données.