Cloud Data Loss Prevention (Cloud DLP) fait désormais partie de la protection des données sensibles. Le nom de l'API reste le même: API Cloud Data Loss Prevention (API DLP). Pour en savoir plus sur les services qui composent la protection des données sensibles, consultez Présentation de la protection des données sensibles.

Types de fichiers et modes d'analyse compatibles

Types de fichiers

Le tableau suivant présente les types de fichiers compatibles avec la protection des données sensibles, les limites d'analyse correspondantes, les modes d'analyse et la prise en charge des transformations.

La protection des données sensibles s'appuie sur les types d'extensions de fichiers et de médias (MIME) pour identifier les types des fichiers à analyser et les modes d'analyse à appliquer. Par exemple, la protection des données sensibles analyse un fichier .txt en mode texte brut, même s'il est structuré en tant que fichier CSV, qui est normalement analysé en mode d'analyse structurée.

File type	Extensions de fichier	Limites	Mode d'analyse	Compatibilité avec la transformation
`Apache Avro`	avro	Limites Avro	Analyse structurée
`Comma- or tab-separated values`	CSV/TSV Remarque:Pour analyser un fichier CSV ou TSV en mode d'analyse structurée, assurez-vous que le délimiteur du fichier correspond à son extension. Autrement dit, un fichier `.csv` doit être délimité par des virgules, et un fichier `.tsv` doit être délimité par des tabulations.		Analyse structurée	Anonymiser du contenu
`PDF`	pdf	Limites PDF	Analyse intelligente des documents
`Text`	.txt, .txt, .txt, .txt, .txt, .txt, .txt, .txt, .txt,		Texte brut	Anonymiser du contenu
`Microsoft Word`	docx, dotx, docm, dotm	Limites Word	Analyse intelligente des documents
`Microsoft Excel`	xlsx, xlsm, xltx, xltm	Limites d'Excel	Analyse intelligente des documents
`Microsoft Powerpoint`	pptx, pptm, potx, potm	Limites de PowerPoint	Analyse intelligente des documents
`Image`	bmp, gif, jpg, jpeg, jpe, png		OCR	Masquage
`Binary`	Types de fichiers non compatibles et images ne pouvant pas être analysées à l'aide de la reconnaissance optique des caractères (OCR).		Binaire

Types de fichiers non pris en charge dans Cloud Storage

Si un fichier n'est pas reconnu lors d'une analyse de stockage, par défaut, le système l'analyse sous la forme d'un fichier binaire. Il tente de convertir le contenu en UTF_8, puis l'analyse en texte brut.

Si vous souhaitez ignorer une collection de fichiers parce que la protection des données sensibles n'est pas compatible, vous pouvez spécifier une liste d'exclusion à l'aide de CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limites du nombre d'octets analysés par fichier

En général, vous pouvez limiter le nombre d'octets analysés par fichier. Pour ce faire, vous devez activer l'échantillonnage dans la console Google Cloud. Dans l'API Cloud Data Loss Prevention, définissez le champ bytes_limit_per_file ou bytesLimitPerFilePercent.

L'échantillonnage n'est pas compatible avec les modes OCR et les modes d'analyse intelligents. Autrement dit, lorsque les types de fichiers suivants sont analysés en mode OCR ou en mode d'analyse intelligente des documents, Sensitive Data Protection ignore tous les paramètres que vous appliquez pour limiter le nombre d'octets analysés par fichier.

Image
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Si vous analysez ces fichiers en mode binaire, les limites s'appliquent.

Modes d'analyse

Chaque mode d'analyse fournit des informations de localisation supplémentaires dans les résultats d'inspection.

Mode d'analyse	Notes	Informations de localisation supplémentaires à fournir
Binary	Si un fichier ne peut pas être analysé comme n'importe quel autre type, il sera converti au format UTF_8 et analysé au format texte. L'analyse binaire affecte la qualité de détection.
Analyse intelligente des documents	Les documents sont analysés avec du texte extrait de la mise en forme. Les images intégrées sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images sont analysées sous la forme de fichiers binaires.	`DocumentLocation`
Extraction des métadonnées	Dans tous les fichiers analysés à partir de Cloud Storage `metadata` sera analysé en plus du contenu du fichier.	`MetadataLocation`
Reconnaissance optique des caractères (OCR)	Les images intégrées sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images sont analysées sous la forme de fichiers binaires.	`ImageLocation`
Texte brut		Pas de détails supplémentaires
Analyse structurée	Les informations structurelles sont utilisées pour influencer les résultats. Dans ce mode d'analyse, la protection des données sensibles utilise les informations d'en-tête pour fournir du contexte. Il effectue une analyse multiligne et intercolonne pour rechercher les données corrélées. Par exemple, ce mode de recherche peut identifier une adresse postale dont les composants sont répartis sur plusieurs colonnes de ligne. Les résultats de l'analyse contiennent des informations structurelles, telles que la ligne contenant le résultat et le nom de la colonne. Les résultats ne dépassent pas les limites de cellules d'un tableau.	`RecordLocation`

Analyser des fichiers structurés en mode d'analyse structurée

Lorsque vous analysez un fichier structuré (tel qu'un fichier Avro, CSV ou TSV), Sensitive Data Protection tente d'analyser le fichier en mode d'analyse d'analyse structurée. Ce mode de détection offre une qualité de détection supérieure à celle de l'analyse binaire, car il recherche des corrélations entre les lignes et les colonnes des données structurées. Les résultats sont renvoyés avec des métadonnées supplémentaires indiquant leur emplacement, y compris fieldId.

Toutefois, dans les cas suivants, la protection des données sensibles peut revenir au mode d'analyse binaire, qui n'inclut pas les améliorations du mode d'analyse structurée:

Le fichier ou l'en-tête est corrompu.
La configuration du job d'inspection comporte des limites de taille (telles que bytesLimitPerFile et bytesLimitPerFilePercent) qui sont trop faibles. Par exemple, si la limite de bytesLimitPerFile n'est pas suffisante pour inclure un en-tête de bloc complet et au moins une ligne de données valides, la protection des données sensibles peut analyser ce fichier en mode d'analyse binaire.

La sélection des données analysées varie selon que l'échantillonnage est configuré pour commencer à partir du haut du fichier ou à partir d'une position aléatoire.

Par exemple, supposons que vous ayez un fichier Avro comportant des en-têtes de bloc de 50 Ko et des blocs de données de 2 Mo. En règle générale, partir du haut de l'exemple vous permet de vous assurer que l'en-tête de bloc est toujours inclus dans l'exemple utilisé par la protection des données sensibles. Si vous commencez un échantillonnage à partir d'une position aléatoire dans le fichier et que la taille d'échantillon est inférieure à celle d'un bloc de données, il est possible que l'en-tête de bloc ne soit pas inclus dans l'échantillon. Dans cet exemple, l'augmentation de la taille d'échantillon (spécifiée par bytesLimitPerFile ou bytesLimitPerFilePercent) à 2,05 Mo permet d'empêcher l'inspection de revenir au mode d'analyse binaire.

Exemple: lorsqu'un échantillon est trop petit, l'inspection peut ne pas inclure l'en-tête de bloc. — Exemple: Lorsqu'un échantillon est trop petit, l'inspection peut ne pas inclure l'en-tête de bloc (cliquez pour agrandir).