Cette page a été traduite par l'API Cloud Translation.

À propos du profilage de données

Dataplex Universal Catalog facilite la compréhension et l'analyse de vos données en profilant automatiquement vos tables BigQuery.

Le profilage est comme un rapport de santé détaillé pour vos données. Il vous fournit des statistiques clés, telles que les valeurs courantes, la façon dont les données sont réparties (distribution) et le nombre d'entrées manquantes (nombre de valeurs nulles). Ces informations accélèrent votre analyse.

Le profilage des données détecte automatiquement les informations sensibles et vous permet de définir des règles de contrôle des accès. Il recommande des règles de vérification de la qualité des données pour garantir la fiabilité de vos données.

Modèle conceptuel

Dataplex Universal Catalog vous permet de mieux comprendre le profil de vos données en créant une analyse de profil de données.

Le schéma suivant montre comment Dataplex Universal Catalog analyse les données pour générer des rapports sur les caractéristiques statistiques.

Une analyse de profil de données est associée à une table BigQuery et l'analyse pour générer les résultats du profilage des données. L'analyse d'un profil de données est compatible avec plusieurs options de configuration.

Options de configuration

Cette section décrit les options de configuration disponibles pour exécuter des analyses de profil de données.

Options de programmation

Vous pouvez planifier une analyse du profil de données avec une fréquence définie ou l'exécuter à la demande.

Champ d'application

Vous pouvez spécifier le champ d'application des données à analyser :

Table complète : l'intégralité de la table est analysée lors de l'analyse du profil de données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.
Incrémentiel : les données incrémentielles que vous spécifiez sont analysées dans l'analyse de profilage des données. Spécifiez une colonne Date ou Timestamp dans le tableau à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de ligne et les filtres de colonne sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.

Filtrer les données

Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et de colonnes. L'utilisation de filtres vous permet de réduire la durée d'exécution et les coûts, et d'exclure les données sensibles et inutiles.

Filtres de ligne : ils vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer les données dont le code temporel est antérieur à une certaine date.
Filtres de colonnes : ils vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse du profil de données.

Exemples de données

Vous pouvez spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profil de données. La création d'analyses de profil de données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données.

Plusieurs analyses de profil de données

Vous pouvez créer plusieurs analyses de profilage des données à la fois à l'aide de la console Google Cloud . Vous pouvez sélectionner jusqu'à 100 tables à partir d'un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. Pour en savoir plus, consultez Créer plusieurs analyses de profilage des données.

Exporter les résultats de l'analyse vers une table BigQuery

Vous pouvez exporter les résultats de l'analyse du profil de données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données des table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.

Résultats du profilage des données

Les résultats du profilage des données incluent les valeurs suivantes :

Type de colonne	Résultats du profilage des données
Colonne numérique	Pourcentage de valeurs nulles. Pourcentage de valeurs uniques (distinctes) approximatives. Les 10 valeurs les plus courantes de la colonne. Il peut être inférieur à 10 si le nombre de valeurs uniques dans la colonne est inférieur à 10 (les valeurs nulles ne sont pas incluses). Pour chacune de ces valeurs les plus courantes, le pourcentage de leur occurrence dans les données analysées lors de l'analyse actuelle est affiché. Valeurs moyenne, écart-type, minimale, quartile inférieur approximatif, médiane approximative, quartile supérieur approximatif et maximale.
Colonne de chaîne	Pourcentage de valeurs nulles. Pourcentage de valeurs uniques (distinctes) approximatives. Les 10 valeurs les plus fréquentes de la colonne (moins de 10 si le nombre de valeurs uniques de la colonne est inférieur à 10). Longueur moyenne, minimale et maximale de la chaîne.
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.)	Pourcentage de valeurs nulles. Pourcentage de valeurs uniques (distinctes) approximatives. Les 10 valeurs les plus fréquentes de la colonne (moins de 10 si le nombre de valeurs uniques de la colonne est inférieur à 10).
Toutes les autres colonnes de types de données imbriqués ou complexes (telles que "Record", "Array" ou "JSON") ou toute colonne avec le mode repeated.	Pourcentage de valeurs nulles.

Les résultats incluent le nombre d'enregistrements analysés dans chaque job.

Création de rapports et surveillance

Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants :

Rapports publiés avec la table source sur les pages BigQuery et Dataplex Universal Catalog

Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console, vous pouvez consulter les derniers résultats de l'analyse de profilage des données sur ces pages, dans l'onglet Profil de données de la table source, depuis n'importe quel projet.
Rapport historique par tâche

Sur la page Profilage et qualité des données > Analyse du profil de données de Dataplex Universal Catalog et BigQuery, vous pouvez consulter les rapports détaillés des jobs les plus récents et de l'historique. Cela inclut les informations de profil au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"

Sur la page Profilage et qualité des données> Analyse du profil de données dans Dataplex Universal Catalog et BigQuery, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs jobs de profilage. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir comment la moyenne d'une valeur a évolué au fil du temps.
Créer votre propre tableau de bord ou vos propres données analytiques

Si vous avez configuré une analyse de profilage des données pour exporter les résultats vers une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.

Limites

Le profilage des données est compatible avec les tables BigQuery comportant tous les types de colonnes, à l'exception de BIGNUMERIC. Une analyse créée pour une table avec une colonne BIGNUMERIC génère une erreur de validation et n'est pas créée.

Tarifs

Pour en savoir plus sur les tarifs, consultez Tarifs de Dataplex Universal Catalog.

Étape suivante

Découvrez comment utiliser le profilage des données.
Découvrez-en plus sur la qualité automatique des données.
Découvrez comment utiliser la qualité automatique des données.
Apprenez à explorer vos données et générer des insights.