Documentation de référence sur les métriques

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cette page liste et décrit toutes les métriques collectées dans les profils de données.

Il existe trois types de profils de données : les profils de données de projet, les profils de données de table et les profils de données de colonne.

Profils de données de projet

Chaque profil de données de projet comporte les champs suivants. Les valeurs de ces champs sont agrégées en fonction des ressources profilées dans le projet.

Insights

Les profils de données de projet fournissent les insights suivants:

Risque lié aux données
Niveau de risque associé aux données à leur état actuel. Pour en savoir plus, consultez la section Niveaux de sensibilité et risques liés aux données.
Confidentialité
Score indiquant le niveau de sensibilité de ce projet. Pour en savoir plus, consultez la section Niveaux de sensibilité et risques liés aux données.

Métadonnées

Les profils de données de projet fournissent les métadonnées suivantes:

Dernier profil généré
Date et heure de la dernière génération du profil.
ID du projet
ID du projet profilé.
Nom de la ressource
Nom complet du profil de données.
État
Icône indiquant l'état de l'opération de profilage.

Profils de données de table

Chaque profil de données de table comporte les champs suivants :

Insights

Les profils de données de table fournissent les insights suivants:

Risque lié aux données
Niveau de risque associé aux données à leur état actuel. Pour en savoir plus, consultez la section Niveaux de sensibilité et risques liés aux données.
Confidentialité
Score indiquant le niveau de sensibilité de cette table. Pour en savoir plus, consultez Niveaux de sensibilité et risques pour les données.

Métadonnées

Les profils de données de table fournissent les métadonnées suivantes:

ID de l'ensemble de données
ID de l'ensemble de données contenant la table.
Chiffrement
Indique si le chiffrement de la table est géré par Google ou par votre organisation.
Date/Heure d'expiration
Facultatif. Date et heure d'expiration de cette table.
Nombre de colonnes en échec
Nombre de colonnes ignorées dans la table en raison d'une erreur.
Instantané de la configuration d'inspection
Instantané du modèle d'inspection utilisé lors de la génération du profil. Pour en savoir plus, consultez la page Instantanés de profils de données.
Dernier profil généré
Date et heure de la dernière génération du profil.
Dernière mise à jour dans BigQuery
Date et heure de la dernière modification de ce tableau.
ID du projet
ID du projet contenant la table.
Public
Indique si la table est disponible pour tous les utilisateurs ou pour certains utilisateurs uniquement.
Libellés de ressource
Libellés associés à la table au moment de la génération du profil.
Nom de la ressource
Nom complet du profil de données.
Nombre de lignes
Nombre de lignes de la table lorsque le profil a été généré
.
Nombre de colonnes analysées
Nombre de colonnes profilées dans la table.
Compte de service
Nombre de comptes de service disposant d'autorisations IAM pour accéder à la table.
État
Indication permettant de savoir si la fiche a bien été générée.
ID de la table
ID de la table.
Heure de création de la table
Date et heure de création de la table.
Taille de la table
Taille de la table au moment de la génération du profil.

Profils de données de colonne

Chaque profil de données de colonne comporte les champs suivants :

Insights

Les profils de données de colonne fournissent les insights suivants:

Risque lié aux données
Niveau de risque associé aux données à leur état actuel. Pour en savoir plus, consultez la section Niveaux de sensibilité et risques liés aux données.
Confidentialité
Score indiquant le niveau de sensibilité de cette colonne. Pour en savoir plus, consultez la section Niveaux de sensibilité et risques liés aux données.
InfoType prédit

Si un seul infoType intégré ou personnalisé prévaut clairement sur les autres dans la colonne, Cloud DLP définit ce champ sur cet infoType. Sinon, ce champ n'a pas de valeur.

Pour afficher la liste de tous les infoTypes détectés dans la colonne, consultez le champ Autres infoTypes.

Cloud DLP analyse uniquement les infoTypes que vous avez spécifiés dans le modèle d'inspection. Ainsi, seuls ces infoTypes peuvent apparaître dans le champ InfoType prédit. Par exemple, si la colonne contient des adresses e-mail, mais que vous n'avez pas inclus le détecteur d'infoType EMAIL_ADDRESS dans votre modèle d'inspection, ce champ ne contient pas EMAIL_ADDRESS.

Dans ce document, consultez la page Autres infoTypes.

Autres infoTypes

InfoTypes détectés dans la colonne qui n'ont pas un signal suffisamment fort pour être considérés comme l'infoType prédit de cette colonne. Dans ce document, consultez la section InfoType prédit.

Pour les profils de données générés après le 13 octobre 2022, chaque infoType répertorié dans ce champ a une prévalence estimée. La prévalence estimée correspond à un pourcentage approximatif de lignes non nulles dans lesquelles l'infoType a été détecté.

Par exemple, supposons que vous disposiez d'une colonne contenant les métriques suivantes:

  • InfoType prédit: FDA_CODE
  • Autres infoTypes:PERSON_NAME (2%), STREET_ADDRESS (1%)

Dans cet exemple, il existe une indication forte que la colonne contient des codes FDA. Cloud DLP a également déterminé qu'environ 2% des lignes non nulles de la colonne pouvaient contenir des noms de personnes et 1% des adresses postales.

Cloud DLP analyse uniquement les infoTypes que vous avez spécifiés dans le modèle d'inspection. Ainsi, seuls ces infoTypes peuvent apparaître dans le champ Autres infoTypes. Par exemple, si la colonne contient des adresses e-mail, mais que vous n'avez pas inclus le détecteur d'infoType EMAIL_ADDRESS dans votre modèle d'inspection, ce champ ne contient pas EMAIL_ADDRESS.

Proportion estimée de valeurs nulles

Proportion approximative de valeurs nulles dans cette colonne, classées dans les catégories "Élevée", "Moyenne", "Faible" ou "Très faible". Cette valeur est élevée si la proportion d'entrées dans cette colonne est nulle.

Unicité estimée

Estimation du volume de données uniques dans cette colonne, classées dans les catégories "Élevée", "Moyenne" ou "Faible". Un niveau d'unicité élevé suggère que la colonne contient des valeurs distinctes. Une présence élevée de valeurs uniques peut indiquer que la colonne contient des identifiants.

Un faible niveau d'unicité suggère que la colonne contient de nombreuses valeurs courantes, telles que des énumérations ou des valeurs booléennes.

Si Cloud DLP détermine que le tableau ne contient pas suffisamment de lignes pour calculer cette métrique, cette valeur est vide.

Score du texte libre

Probabilité que la colonne contienne du texte libre. Une valeur proche de 1 indique que la colonne est susceptible de contenir du texte libre ou en langage naturel. Les valeurs possibles sont comprises entre 0 et 1.

Un score de texte libre élevé peut augmenter les niveaux de risque et de sensibilité liés aux données d'une colonne.

Métadonnées

Les profils de données de colonne fournissent les métadonnées suivantes:

Type de données
Type de données du contenu de la colonne.
ID de l'ensemble de données
ID de l'ensemble de données contenant la colonne de table.
ID du champ
Nom de la colonne.
Dernier profil généré
Date et heure de la dernière génération du profil.
Tags avec stratégie
Indique si un tag avec stratégie est appliqué à la colonne. Pour en savoir plus sur les bonnes pratiques d'utilisation des tags avec stratégie, consultez la page Utiliser des tags avec stratégie dans BigQuery.
ID du projet
ID du projet contenant cette colonne du tableau.
Nom de la ressource
Nom complet du profil de données.
État
Icône indiquant l'état de l'opération de profilage.
ID de la table
ID de la table contenant cette colonne.