Tipos de archivo y modos de análisis compatibles

Tipos de archivo

En la siguiente tabla, se muestran los tipos de archivos que admite la protección de datos sensibles, sus límites de análisis correspondientes, los modos de análisis y la compatibilidad con la transformación.

La protección de datos sensibles se basa en extensiones de archivo y tipos de contenido multimedia (MIME) para identificar los tipos de archivos que se analizarán y los modos de análisis que se aplicarán. Por ejemplo, la protección de datos sensibles analiza un archivo .txt en modo de texto sin formato, incluso si el archivo está estructurado como un archivo CSV, que por lo general se analiza en modo de análisis estructurado.

File type Extensiones de archivo Límites Modo de escaneo Asistencia de transformación
Apache Avro

avro

Límites de Avro Análisis estructurado
Comma- or tab-separated values

csv, tsv

Análisis estructurado Desidentificar contenido
PDF

pdf

Límites de PDF Análisis inteligente de documentos
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, yaml

Texto sin formato Desidentificar contenido
Microsoft Word

docx, dotx, docm, dotm

Límites de palabras Análisis inteligente de documentos
Microsoft Excel

xlsx, xlsm, xltx, xltm

Límites de Excel Análisis inteligente de documentos
Microsoft Powerpoint

pptx, pptm, potx, potx

Límites de PowerPoint Análisis inteligente de documentos
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Ocultamiento
Binary

Imágenes y tipos de archivos no compatibles que no se pueden analizar mediante el reconocimiento óptico de caracteres (OCR).

Clases binarias

Tipos de archivo no compatibles en Cloud Storage

Si no se reconoce un archivo durante un análisis de almacenamiento, el sistema lo analizará como un archivo binario de forma predeterminada. Intenta convertir el contenido en UTF_8 y, luego, lo analiza como texto sin formato.

Si tienes una colección de archivos que deseas omitir porque la Protección de datos sensibles no los admite, puedes especificar una lista de exclusión con CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Límites en los bytes analizados por archivo

En general, puedes limitar la cantidad de bytes que se analizan por archivo. En la consola de Google Cloud, puedes hacerlo si activas el muestreo. En la API de Cloud Data Loss Prevention, configura el campo bytes_limit_per_file o bytesLimitPerFilePercent.

El muestreo no es compatible con el OCR ni con los modos de análisis inteligente. Es decir, cuando los siguientes tipos de archivos se analizan con OCR o en modo de análisis inteligente de documentos, la protección de datos sensibles ignora cualquier configuración que apliques para limitar los bytes analizados por archivo.

  • Imagen
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Si analizas estos archivos en modo binario, se aplican los límites.

Modos de escaneo

Cada modo de análisis proporciona detalles de ubicación adicionales en los resultados de inspección.

Modo de escaneo Notas Se deben proporcionar detalles de ubicación adicionales
Binaria

Si no se analiza un archivo como cualquier otro tipo, se convertirá a UTF_8 y se analizará como texto. El análisis de objetos binarios afecta la calidad de detección.

Análisis inteligente de documentos

Los documentos se analizan con el texto extraído del formato. Las imágenes incorporadas se analizan mediante OCR en regiones que lo admiten. Fuera de estas regiones, las imágenes se analizan como archivos binarios.

DocumentLocation
Extracción de metadatos

Se analizarán metadata en todos los archivos analizados de Cloud Storage, además del contenido del archivo.

MetadataLocation
Reconocimiento óptico de caracteres (OCR)

Las imágenes se analizan mediante OCR en regiones que lo admiten. Fuera de estas regiones, las imágenes se analizan como archivos binarios.

ImageLocation
Texto sin formato

No hay detalles adicionales
Análisis estructurado

La información estructural se usa para influir en los resultados. En este modo de análisis, la protección de datos sensibles usa la información del encabezado para brindar contexto. Realiza un análisis entre filas y columnas para encontrar datos correlacionados. Por ejemplo, este modo de búsqueda puede identificar una dirección cuyos componentes se distribuyen en varias columnas en una fila.

Los resultados del análisis contienen información estructural, como la fila que contiene el resultado y el nombre de la columna.

Los resultados no cruzan los límites de celdas de una tabla.

RecordLocation

Analiza archivos estructurados en modo de análisis estructurado

Cuando analizas un archivo estructurado, como un archivo Avro, CSV o TSV, la protección de datos sensibles intenta analizar el archivo en el modo de análisis de análisis estructurado. Este modo de análisis tiene una calidad de detección superior en comparación con el análisis binario, ya que el modo de análisis estructurado busca correlaciones entre filas y columnas en los datos estructurados. Los resultados se muestran con metadatos adicionales que indican su ubicación, incluido fieldId.

Sin embargo, en los siguientes casos, la protección de datos sensibles puede volver al modo de análisis binario, que no incluye las mejoras del modo de análisis estructurado:

  • El archivo o el encabezado están dañados.
  • La configuración del trabajo de inspección tiene límites de tamaño demasiado pequeños, como bytesLimitPerFile y bytesLimitPerFilePercent. Por ejemplo, si el límite de bytesLimitPerFile no es lo suficientemente grande como para incluir un encabezado de bloque completo y al menos una fila de datos válidos, la protección de datos sensibles podría analizar ese archivo en modo de análisis binario.

La selección de los datos que se analizan depende de si el muestreo está configurado para comenzar desde la parte superior del archivo o desde una posición aleatoria.

Por ejemplo, supongamos que tienes un archivo Avro que tiene encabezados de bloque de 50 KB y bloques de datos de 2 MB. En general, comenzar la muestra desde la parte superior te ayuda a asegurarte de que el encabezado del bloque siempre se incluya en la muestra que toma la protección de datos sensibles. Si comienzas a muestrear desde una posición aleatoria en el archivo y el tamaño de la muestra es menor que un bloque de datos, es posible que el encabezado del bloque no se incluya en la muestra. En este ejemplo, aumentar el tamaño de la muestra (especificado por bytesLimitPerFile o bytesLimitPerFilePercent) a 2.05 MB ayuda a evitar que la inspección se revierta al modo de análisis binario.

Ejemplo: Si el tamaño de una muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque.
Ejemplo: Si el tamaño de una muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque (haz clic para ampliar).