Le profilage des données Dataplex vous permet d'identifier les caractéristiques statistiques courantes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser vos données plus efficacement.
Les informations telles que les valeurs de données classiques, la distribution des données et les nombres nuls peuvent accélérer l'analyse. Combiné à la classification des données, le profilage des données peut détecter des classes de données ou des informations sensibles qui, à leur tour, peuvent activer des stratégies de contrôle des accès.
Dataplex utilise également ces informations pour recommander des règles de contrôle de la qualité des données.
Modèle conceptuel
Dataplex vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage des données.
Le schéma suivant montre comment Dataplex analyse les données pour créer des rapports sur les caractéristiques statistiques.
Une analyse de profilage des données est associée à une table BigQuery et analyse la table pour générer les résultats du profilage des données. Une analyse de profilage des données est compatible avec plusieurs options de configuration.
Options de configuration
Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage de données.
Options de programmation
Vous pouvez planifier une analyse de profilage de données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.
Définition du champ d'application
Dans le cadre de la spécification d'une analyse de profilage de données, vous pouvez spécifier le champ d'application d'une tâche en utilisant l'une des options suivantes:
Table complète: la table entière est analysée lors de l'analyse du profilage des données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble de la table avant de calculer les statistiques de profilage.
incrémentiel: les données incrémentielles que vous spécifiez sont analysées dans l'analyse du profil de données. Spécifiez une colonne
Date
ouTimestamp
dans la table à utiliser comme incrément. Il s'agit généralement de la colonne sur laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.
Filtrer les données
Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de ligne et de colonnes. Les filtres vous aident à réduire le temps et les coûts d'exécution, et à exclure les données sensibles et inutiles.
Filtres de lignes: ils vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique (une région, par exemple). Par exemple, vous pouvez filtrer les données avec un code temporel avant une certaine date.
Filtres de colonne: ils vous permettent d'inclure et/ou d'exclure des colonnes spécifiques de votre table afin d'exécuter l'analyse de profilage des données.
Exemples de données
Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. La création d'analyses de profilage de données sur un plus petit échantillon de données peut réduire le temps d'exécution et le coût d'interrogation de l'ensemble de données complet.
Analyses de profilage de données multiples
Dataplex vous permet de créer plusieurs analyses de profilage des données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables à partir d'un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus
Exporter les résultats d'analyse dans une table BigQuery
Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery afin de procéder à une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant le même tableau de résultats pour plusieurs analyses.
Résultats du profilage des données
Les résultats du profilage des données incluent les valeurs suivantes:
Type de colonne | Résultats du profilage des données |
---|---|
Colonne numérique |
|
Colonne de chaîne |
|
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.) |
|
Toutes les autres colonnes de type de données imbriquées ou complexes (telles que "Record", "Array" ou "JSON") ou toute colonne en mode répété |
|
Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.
Création de rapports et surveillance
Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants:
Rapports publiés avec la table source sur les pages BigQuery et Data Catalog
Si vous avez configuré une analyse de profilage des données pour publier les résultats dans les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher les derniers résultats d'analyse de profilage des données sur ces pages dans l'onglet Profil de données de n'importe quel projet.
Historique par rapport aux tâches dans Dataplex
Sur la page Profil Dataplex, vous pouvez afficher des rapports détaillés sur les tâches récentes et historiques. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"
Sur la page Profil Dataplex, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs tâches de profil. Par exemple, si vous avez une analyse incrémentielle, vous pouvez consulter l'évolution de la moyenne d'une valeur au fil du temps.
Créer votre propre tableau de bord ou vos propres données analytiques
Si vous avez configuré une analyse de profilage des données pour exporter ou enregistrer des résultats dans une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.
Limites
- Les résultats du profilage des données ne sont pas publiés dans Data Catalog en tant que tags.
- Le profilage des données est compatible avec les tables BigQuery avec tous les types de colonnes, à l'exception de
BIGNUMERIC
. Une analyse créée pour une table comportant une colonneBIGNUMERIC
génère une erreur de validation et n'a pas abouti. - Les tables BigQuery à analyser ne doivent pas comporter plus de 300 colonnes.
Tarifs
Dataplex utilise le code SKU de traitement premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.
La publication des résultats du profilage des données dans Data Catalog n'est pas encore disponible. Lorsqu'elles seront disponibles, elles seront facturées au même tarif que le stockage des métadonnées de catalogue. Pour en savoir plus, reportez-vous à la page Tarifs.
Le traitement premium de Dataplex pour le profilage des données est facturé à la seconde avec un minimum d'une minute.
Les analyses de profilage ayant échoué ne vous sont pas facturées.
Les frais dépendent du nombre de lignes, du nombre de colonnes, de la quantité de données analysées, du partitionnement et du clustering sur la table, ainsi que de la fréquence d'analyse.
Il existe plusieurs façons de réduire le coût des analyses de profilage des données:
- Échantillonnage
- Analyses incrémentielles
- Filtrage des colonnes
- Filtrage des lignes
Pour séparer les frais de profilage des données des autres frais dans le code SKU de traitement Premium de Dataplex, utilisez le libellé
goog-dataplex-workload-type
avec la valeurDATA_PROFILE
.Pour filtrer les frais globaux, utilisez les étiquettes suivantes:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Étape suivante
- Découvrez comment utiliser le profilage des données.
- En savoir plus sur la qualité des données automatique
- Découvrez comment utiliser la qualité des données automatique.