Inspection d'images et masquage du contenu sensible

La protection des données sensibles peut détecter et masquer le texte sensible d'une image en fonction des critères que vous spécifiez.

À l'aide des détecteurs d'infoTypes et de la reconnaissance optique des caractères (OCR), la protection des données sensibles inspecte une image encodée en base64 pour identifier du texte et les données sensibles qu'il contient. Il peut ensuite renvoyer des informations sur l'emplacement des données sensibles dans l'image ou masquer ces dernières par un rectangle opaque.

L'inspection et le masquage sont deux actions distinctes :

  • Inspection: la protection des données sensibles inspecte l'image encodée en base64 que vous lui fournissez afin de détecter les infoTypes spécifiés. Elle retourne ensuite une réponse incluant les infoTypes détectés, ainsi qu'un ou plusieurs groupes de valeurs (chaque groupe est composé d'un ensemble de coordonnées de pixels et de dimensions). Les ensembles de coordonnées de pixels et les valeurs de dimension indiquent respectivement la position du coin inférieur gauche et la taille des cadres de délimitation. Chaque cadre de délimitation comprend tout ou partie des données sensibles détectées par la protection des données sensibles.
  • Masquage: la protection des données sensibles inspecte l'image encodée en base64 que vous lui fournissez afin de détecter les infoTypes spécifiés. La protection des données sensibles masque ensuite toutes les données sensibles détectées en appliquant des rectangles opaques. Enfin, il renvoie une image masquée, encodée en base64 dans le même format que celui de l'image d'origine. Vous pouvez également configurer la couleur des cadres de masquage dans la requête.

À propos de l'inspection

L'inspection d'image avec la Protection des données sensibles consiste à analyser une image encodée en base64, à identifier le texte présent dans l'image, puis à rechercher dans le texte les données correspondant aux critères d'inspection définis. À l'issue de ce processus, Sensitive Data Protection renvoie les emplacements des données sensibles détectées.

Prenons l'exemple suivant : Cette image est un exemple de fichier image type généré à partir de la numérisation d'un document papier.

Image d'origine non masquée.
Image d'origine non masquée (cliquez pour agrandir).

Si vous indiquez à la protection des données sensibles d'inspecter cette image à la recherche de numéros de sécurité sociale américains, elle suit le processus illustré dans le schéma suivant.

Processus d'inspection d'image.
Processus d'inspection d'image (cliquez pour agrandir)
  1. L'image encodée en base64 est diffusée vers Sensitive Data Protection à l'aide de la méthode content.inspect.
  2. Grâce à la reconnaissance optique des caractères (OCR), la protection des données sensibles identifie le texte contenu dans le document.
  3. La protection des données sensibles analyse le texte reconnu en fonction de la façon dont vous avez configuré la détection des données sensibles, puis identifie les correspondances.
  4. Sensitive Data Protection renvoie ensuite les coordonnées et les dimensions des emplacements dans l'image où il a détecté des données sensibles correspondant à vos critères de détection.

Les coordonnées renvoyées indiquent où se trouvent les données sensibles. Sachez que la protection des données sensibles utilise souvent plusieurs cadres pour indiquer l'emplacement dans l'image d'une seule instance de données sensibles. Cela s'applique particulièrement lorsque le texte est écrit à la main, comme dans cet exemple.

Si la protection des données sensibles ne détecte aucune donnée correspondant à vos critères de détection dans l'image, elle renvoie alors une réponse HTTP 200 vide réussie.

À propos du masquage

Le processus de masquage d'une image est identique à celui de l'inspection d'image, mais comporte une étape supplémentaire. Une fois que la protection des données sensibles a identifié le ou les emplacements où se trouvent des données sensibles dans l'image, au lieu de renvoyer leurs coordonnées, il renvoie une image encodée en base64 où ces zones sont masquées par remplissage.

Reprenons l'image d'origine de la section précédente. Si vous indiquez à la protection des données sensibles de masquer tous les numéros de sécurité sociale américains dans l'image, elle applique le processus illustré dans le schéma ci-dessous.

Processus de masquage d'image.
Processus de masquage de l'image (cliquez pour agrandir).
  1. L'image encodée en base64 est diffusée vers Sensitive Data Protection à l'aide de la méthode image.redact.
  2. Grâce à la reconnaissance optique des caractères (OCR), la protection des données sensibles identifie le texte contenu dans le document.
  3. La protection des données sensibles analyse le texte identifié en fonction de la façon dont vous avez configuré la détection des données sensibles, puis identifie les correspondances.
  4. La protection des données sensibles masque toutes les données sensibles détectées en les recouvrant d'un rectangle opaque. Il encode ensuite l'image en base64 et la renvoie dans la réponse à la requête.

Si la protection des données sensibles ne détecte aucune donnée correspondant à vos critères de détection dans l'image, elle renvoie l'image encodée en base64 telle quelle.

Étape suivante