Cloud Data Loss Prevention (Cloud DLP) fait désormais partie de la protection des données sensibles. Le nom de l'API reste le même: API Cloud Data Loss Prevention (DLP). Pour en savoir plus sur les services qui constituent Sensitive Data Protection, consultez la section Présentation de Sensitive Data Protection.

Cette page a été traduite par l'API Cloud Translation.

Probabilité de correspondance

Les résultats de l'analyse sont catégorisés en fonction de la probabilité qu'ils représentent une correspondance. La protection des données sensibles utilise une représentation divisée en buckets selon le degré de vraisemblance, ce qui permet d'indiquer la probabilité qu'une donnée corresponde à un InfoType spécifique.

Fonctionnement de la probabilité

Lorsque vous configurez une analyse de protection des données sensibles, vous définissez les infoTypes que vous souhaitez analyser. Pour affiner les résultats de l'analyse, vous pouvez définir un niveau de probabilité minimal dans votre requête.

Pour chaque correspondance potentielle (résultat) détectée lors de l'analyse, la protection des données sensibles attribue un niveau de probabilité. Le niveau de probabilité d'un résultat indique la probabilité qu'il corresponde à un infoType que vous recherchez. Par exemple, la protection des données sensibles peut attribuer une probabilité de LIKELY à une découverte qui ressemble à une adresse e-mail.

Lorsque Sensitive Data Protection renvoie les résultats, il filtre tous les résultats dont la probabilité est inférieure au niveau de probabilité minimal que vous avez défini dans votre requête. Par exemple, si vous définissez la probabilité minimale sur POSSIBLE, vous n'obtenez que les résultats évalués comme POSSIBLE, LIKELY et VERY_LIKELY. Si vous définissez la probabilité minimale sur VERY_LIKELY, vous obtenez le plus petit nombre de résultats.

Niveaux de probabilité

Le tableau suivant présente les valeurs de probabilité possibles que la protection des données sensibles peut attribuer à une découverte.

ENUM	Description
`VERY_UNLIKELY`	Caractérisé par les éléments suivants: Signal faible. Absence d'indices contextuels Signaux négatifs pour un infoType donné.
`UNLIKELY`	Caractérisé par les éléments suivants: Un ou plusieurs signaux faibles Signal plus fort pour un autre infoType.
`POSSIBLE`	Caractérisé par les éléments suivants: Un ou plusieurs signaux vers un infoType donné. Les signaux peuvent inclure le transfert de sommes de contrôle. Absence d'indice contextuel fort et de mise en forme unique et spécifique.
`LIKELY`	Caractérisé par un ou plusieurs signaux forts pour un infoType donné. Les signaux peuvent inclure des sommes de contrôle, des indices contextuels forts et un formatage unique et spécifique.
`VERY_LIKELY`	Caractérisé par de nombreux signaux forts pour un infoType donné. Les signaux peuvent inclure des sommes de contrôle transmises, des indices contextuels forts et un formatage unique et spécifique.

Choisir un niveau minimal de probabilité pour les résultats de l'analyse

En règle générale, lorsque vous définissez un niveau de probabilité minimal plus élevé dans votre requête de protection des données sensibles, le nombre de faux positifs (parfois appelés bruit) est inférieur. Toutefois, les résultats peuvent également exclure plus de faux positifs. Choisir un niveau de probabilité minimal implique de trouver le bon équilibre entre rappel et précision.

Par exemple, supposons qu'un document comporte 10 adresses et que la protection des données sensibles en a identifié cinq. Toutefois, parmi les résultats identifiés par la protection des données sensibles, il n'y a en réalité que quatre adresses.

Le rappel correspond au nombre d'instances de vrais positifs par rapport au nombre total d'instances pertinentes. Dans cet exemple, le rappel est de 4/10.
La précision correspond au nombre d'instances positives vraies par rapport au nombre total d'instances identifiées par la protection des données sensibles. Dans cet exemple, la précision est de 4/5.

Dans cet exemple, la précision est élevée, mais le rappel est relativement faible.

Le niveau de probabilité minimal que vous définissez affecte le niveau de rappel et de précision que vous obtenez dans les résultats de l'analyse. Le tableau suivant décrit dans quels cas chaque niveau de probabilité minimale est utile et comment le rappel et la précision varient à chaque niveau.

Niveau de probabilité minimal	Description
`LIKELIHOOD_UNSPECIFIED`	Valeur par défaut, identique à `POSSIBLE`.
`VERY_UNLIKELY`	Utile si vous avez besoin du rappel le plus élevé. Ce niveau de probabilité minimal génère le plus de bruit.
`UNLIKELY`	Utile si vous avez besoin d'un rappel plus élevé. Ce niveau de probabilité minimal génère du bruit.
`POSSIBLE`	Utile si vous souhaitez équilibrer précision et rappel.
`LIKELY`	Utile si vous avez besoin d'une précision plus élevée au détriment d'un rappel.
`VERY_LIKELY`	Utile si vous souhaitez obtenir la précision la plus élevée au détriment du rappel.

Probabilité minimale par défaut

Si vous ne définissez pas de probabilité minimale dans votre requête ou si vous la définissez sur LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection ne renvoie que les résultats avec une probabilité de POSSIBLE ou plus.