Le profilage de données Dataplex vous permet d'identifier des caractéristiques statistiques courantes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser plus efficacement vos données.
Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Combiné à la classification des données, le profilage des données peut détecter des classes de données ou des informations sensibles qui, à leur tour, peuvent activer des stratégies de contrôle des accès.
Dataplex utilise également ces informations pour recommander des règles pour les contrôles de qualité des données.
Modèle conceptuel
Dataplex vous permet de mieux comprendre le profil de vos données en créant une analyse de profilage des données.
Le schéma suivant montre comment Dataplex analyse les données pour générer des rapports sur les caractéristiques statistiques.
Une analyse de profilage de données est associée à une table BigQuery et analyse la table pour générer les résultats de profilage de données. Une analyse de profilage des données accepte plusieurs options de configuration.
Options de configuration
Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.
Options de programmation
Vous pouvez planifier une analyse de profilage des données à une fréquence définie ou à la demande via l'API ou la console Google Cloud.
Champ d'application
Dans le cadre de la spécification d'une analyse de profilage des données, vous pouvez spécifier la portée d'une tâche comme l'une des options suivantes:
Table complète: l'analyse de profilage des données analyse l'intégralité de la table. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.
Incrémentiel: les données incrémentielles que vous spécifiez sont analysées lors de l'analyse du profil de données. Spécifiez une colonne
Date
ouTimestamp
dans le tableau à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.
Filtrer les données
Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de ligne et de colonne. L'utilisation de filtres vous permet de réduire le temps d'exécution et les coûts, et d'exclure les données sensibles et inutiles.
Filtres de ligne: les filtres de ligne vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer les données avec un code temporel antérieur à une certaine date.
Filtres de colonne: les filtres de colonne vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse de profilage des données.
Exemples de données
Dataplex vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. Créer des analyses de profilage des données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données complet.
Plusieurs analyses de profilage des données
Dataplex vous permet de créer plusieurs analyses de profilage de données à la fois à l'aide de la console Google Cloud. Vous pouvez sélectionner jusqu'à 100 tables dans un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus
Exporter les résultats d'analyse dans une table BigQuery
Vous pouvez exporter les résultats de l'analyse de profilage des données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez connecter les données de la table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.
Résultats du profilage des données
Les résultats du profilage des données incluent les valeurs suivantes:
Type de colonne | Résultats du profilage des données |
---|---|
Colonne numérique |
|
Colonne de chaîne |
|
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.) |
|
Toutes les autres colonnes de type de données imbriquées ou complexes (telles que "Enregistrement", "Tableau" ou "JSON") ou toute colonne avec le mode répété. |
|
Les résultats incluent le nombre d'enregistrements analysés à chaque exécution.
Création de rapports et surveillance
Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et des méthodes suivants:
Rapports publiés avec la table source sur les pages BigQuery et Data Catalog
Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Data Catalog de la console Google Cloud, vous pouvez afficher les derniers résultats de l'analyse de profilage des données sur ces pages dans l'onglet Profil de données, à partir de n'importe quel projet.
Historique, par rapport dans Dataplex
Sur la page Profil de Dataplex, vous pouvez consulter les rapports détaillés des derniers jobs et de l'historique. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"
Sur la page Profile (Profil) de Dataplex, vous pouvez utiliser l'onglet Analysis (Analyse) pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs tâches de profil. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir l'évolution de la moyenne d'une valeur au fil du temps.
Créer votre propre tableau de bord ou vos propres données analytiques
Si vous avez configuré une analyse de profilage des données pour exporter ou enregistrer les résultats dans une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.
Limites
- Les résultats du profilage des données ne sont pas publiés dans Data Catalog en tant que balises.
- Le profilage des données est compatible avec les tables BigQuery de tous les types de colonnes, à l'exception de
BIGNUMERIC
. Une analyse créée pour une table avec une colonneBIGNUMERIC
génère une erreur de validation et ne peut pas être créée. - Les tables BigQuery à analyser doivent comporter 300 colonnes ou moins.
Tarifs
Dataplex utilise le SKU de traitement Premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.
La publication des résultats du profilage des données dans Data Catalog n'est pas encore disponible. Lorsqu'il sera disponible, il sera facturé au même tarif que le stockage des métadonnées de catalogue. Pour en savoir plus, reportez-vous à la section Tarification.
Le traitement premium Dataplex pour le profilage des données est facturé par seconde, avec un minimum d'une minute.
Les analyses de profilage qui échouent ne vous sont pas facturées.
Les frais dépendent du nombre de lignes et de colonnes, de la quantité de données analysées, des paramètres de partitionnement et de clustering de la table, ainsi que de la fréquence de l'analyse.
Plusieurs options permettent de réduire les coûts des analyses de profilage des données:
- Échantillonnage
- Analyses incrémentielles
- Filtrage de colonne
- Filtrage des lignes
Pour séparer les frais de profilage des données des autres frais dans le SKU de traitement premium Dataplex, dans le rapport de facturation Cloud, utilisez le libellé
goog-dataplex-workload-type
avec la valeurDATA_PROFILE
.Pour filtrer les frais cumulés, utilisez les libellés suivants:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Étape suivante
- Découvrez comment utiliser le profilage de données.
- En savoir plus sur la qualité automatique des données
- Découvrez comment utiliser la qualité automatique des données.