Probabilité de correspondance

Les résultats de l'analyse sont catégorisés en fonction de la probabilité qu'ils représentent une correspondance. La protection des données sensibles utilise une représentation divisée en buckets selon la probabilité, laquelle indique la probabilité qu'une donnée corresponde à un infoType donné.

Fonctionnement de la probabilité

Lorsque vous configurez une analyse de protection des données sensibles, vous définissez les infoTypes que la protection des données sensibles doit analyser. Pour affiner les résultats de l'analyse, vous pouvez définir un niveau de probabilité minimal dans votre requête.

Pour chaque correspondance potentielle (résultat) détectée lors de l'analyse, la protection des données sensibles attribue un niveau de probabilité. Le niveau de probabilité d'un résultat indique la probabilité qu'il corresponde à un infoType que vous analysez. Par exemple, la protection des données sensibles peut attribuer une probabilité de LIKELY à un résultat ressemblant à une adresse e-mail.

Lorsque la protection des données sensibles renvoie les résultats, elle filtre les résultats ayant une probabilité inférieure au niveau de probabilité minimal que vous avez défini dans votre requête. Par exemple, si vous définissez la probabilité minimale sur POSSIBLE, vous n'obtenez que les résultats évalués en tant que POSSIBLE, LIKELY et VERY_LIKELY. Si vous définissez la probabilité minimale sur VERY_LIKELY, vous obtenez le plus petit nombre de résultats.

Niveaux de probabilité

Le tableau suivant répertorie les valeurs de probabilité que la protection des données sensibles peut attribuer à un résultat.

ENUM Description
VERY_UNLIKELY Caractérisé par les éléments suivants:
  • Signal faible.
  • Absence d'indices contextuels
  • Signaux négatifs pour un infoType donné.
UNLIKELY Caractérisé par les éléments suivants:
  • Un ou plusieurs signaux faibles.
  • Un signal plus fort pour un autre infoType.
POSSIBLE Caractérisé par les éléments suivants:
  • Un ou plusieurs signaux par rapport à un infoType donné. Ces signaux peuvent inclure des sommes de contrôle réussies.
  • Absence d'indice contextuel clair et mise en forme spécifique et spécifique
LIKELY Caractérisé par un ou plusieurs signaux forts pour un infoType donné. Ces signaux peuvent inclure la transmission de sommes de contrôle, des indices contextuels fiables et une mise en forme unique et spécifique.
VERY_LIKELY Caractérisé par l'existence de nombreux signaux forts pour un infoType donné. Ces signaux peuvent inclure la transmission de sommes de contrôle, des indices contextuels fiables et une mise en forme unique et spécifique.

Choisir un niveau de probabilité minimal pour les résultats d'analyse

En général, lorsque vous définissez un niveau de probabilité minimal plus élevé dans votre requête de protection des données sensibles, les résultats présentent un nombre inférieur de faux positifs (parfois appelé bruit). Toutefois, les résultats peuvent également exclure d'autres vrais positifs. Pour choisir un niveau de probabilité minimal, vous devez trouver le bon équilibre entre rappel et précision.

Par exemple, supposons qu'un document contienne 10 adresses postales et que la protection des données sensibles en identifie 5. Toutefois, parmi les résultats identifiés par la protection des données sensibles, il n'existe en réalité que quatre adresses postales.

  • Le rappel correspond au nombre d'instances vrais positifs par rapport au nombre total d'instances pertinentes. Dans cet exemple, le rappel est de 4/10.
  • La précision correspond au nombre d'instances vrais positifs sur le nombre total d'instances identifiées par la protection des données sensibles. Dans cet exemple, la précision est de 4/5.

Dans cet exemple, la précision est élevée, mais le rappel est relativement faible.

Le niveau de probabilité minimal que vous définissez affecte le niveau de rappel et de précision que vous obtenez dans vos résultats d'analyse. Le tableau suivant décrit dans quel cas chaque niveau de probabilité minimal est utile, et comment le rappel et la précision varient à chaque niveau.

Niveau de probabilité minimal Description
LIKELIHOOD_UNSPECIFIED Valeur par défaut ; identique à POSSIBLE.
VERY_UNLIKELY Utile si vous avez besoin d'un rappel maximal. Ce niveau de probabilité minimal génère le plus de bruit.
UNLIKELY Utile si vous avez besoin d'un rappel plus élevé. Ce niveau de probabilité minimal génère du bruit.
POSSIBLE Utile si vous souhaitez équilibrer précision et rappel.
LIKELY Cette approche est utile si vous avez besoin d'une précision plus élevée au détriment du rappel.
VERY_LIKELY Utile si vous souhaitez obtenir la précision la plus élevée au détriment du rappel.

Probabilité minimale par défaut

Si vous ne définissez pas de probabilité minimale dans votre requête, ou si vous la définissez sur LIKELIHOOD_UNSPECIFIED, la protection des données sensibles ne renvoie que les résultats ayant une probabilité supérieure ou égale à POSSIBLE.