Tipos de archivos y modos de análisis admitidos

En esta página, se enumeran los tipos de archivos que puede analizar la Protección de datos sensibles y se describen los modos de análisis que utiliza para analizar archivos.

Tipos de archivos admitidos en las operaciones de inspección y desidentificación

En la siguiente tabla, se muestran los tipos de archivos que Sensitive Data Protection puede inspeccionar y transformar (desidentificar).

Sensitive Data Protection se basa en las extensiones de archivos y los tipos de medios (MIME) para identificar los tipos de archivos que se analizarán y los modos de análisis que se aplicarán. Por ejemplo, la Protección de datos sensibles analiza un archivo .txt en modo de texto sin formato, incluso si el archivo está estructurado como un archivo CSV, que normalmente se analiza en modo de análisis estructurado.

Tipo de archivo Extensiones de archivo Límites Modo de escaneo Asistencia de transformación
Apache Avro

avro

Límites de Avro Análisis estructurado
Comma- or tab-separated values

csv, tsv

Análisis estructurado Desidentifica contenido
PDF

pdf

Límites de PDF Análisis inteligente de documentos
Text

asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml

Texto sin formato Desidentifica contenido
Microsoft Word

docm, docx, dotm, dotx

Límites de palabras Análisis inteligente de documentos
Microsoft Excel

xlsm, xlsx, xltm, xltx

Límites de Excel Análisis inteligente de documentos
Microsoft Powerpoint

potm, potx, pptm, pptx

Límites de PowerPoint Análisis inteligente de documentos
Image

bmp, gif, jpe, jpeg, jpg, png

OCR Ocultamiento
Binary

Imágenes y tipos de archivos no reconocidos que no se pueden analizar con el reconocimiento óptico de caracteres (OCR).

Objeto binario

Clústeres de archivos admitidos en operaciones de descubrimiento

Durante el descubrimiento, Sensitive Data Protection organiza los archivos detectados en clústeres de archivos. Estos clústeres son grupos de tipos de archivos similares. En la siguiente tabla, se muestran los clústeres de archivos y las extensiones de archivos compatibles. No todos los archivos detectados se pueden analizar.

Es posible que los archivos se muevan entre clústeres a medida que la Protección de datos sensibles agregue compatibilidad con más clústeres de archivos. A medida que se expanda la compatibilidad con el análisis, es posible que el servicio de descubrimiento comience a analizar archivos que antes no se analizaban. Se te facturará según se describe en Precios de Discovery.

Clúster de archivos Extensiones de archivo Límites Modo de escaneo
Text

asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl

Texto sin formato
Source Code

bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml

Texto sin formato
Structured Data

avro, csv, tsv, proto

Análisis estructurado para archivos avro, csv y tsv Análisis de texto sin formato para archivos .proto
Rich Documents

doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx

Se analizan los archivos PDF, Microsoft Word, Excel y PowerPoint admitidos que pesan menos de 30 MiB. Análisis inteligente de documentos
Images

bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff, webp

Las imágenes admitidas (bmp, gif, jpe, jpeg, jpg y png) de menos de 4 MiB se analizan con OCR en las regiones que lo admiten. Fuera de estas regiones, no se analizan las imágenes. OCR
Executables

ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm

No se escaneó en este momento
Archives

7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#*, lzh, lzx, mou, pak, paq#*, paq6, paq7, paq8 y variantes, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz

La Protección de datos sensibles analiza los archivos dentro de los archivos que tienen estas extensiones de archivo: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z, zip

El modo de análisis que se usa para cada archivo depende del tipo de archivo.

Multimedia

3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (con DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv

No se escaneó en este momento
AI Models

caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords

No se escaneó en este momento
Unknown Cualquier otro archivo que no esté dentro de otro clúster Son archivos que no tienen extensiones o que usan extensiones comunes, pero no estándar, como .dat, .1 o .2. No se escaneó en este momento

Tipos de archivo no reconocidos en Cloud Storage

Si no se reconoce un archivo durante un análisis de almacenamiento, el sistema lo analizará como un archivo binario de forma predeterminada. Intenta convertir el contenido en UTF_8 y, luego, lo analiza como texto sin formato.

Si no se reconoce un archivo durante un análisis de detección, el sistema no lo analizará.

Si tienes una colección de archivos que deseas omitir porque Sensitive Data Protection no los reconoce, puedes especificar una lista de exclusiones con CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Límites de bytes analizados por archivo

En general, puedes limitar la cantidad de bytes analizados por archivo. En la consola deGoogle Cloud , puedes hacerlo activando el muestreo. En la API de Cloud Data Loss Prevention, debes configurar el campo bytes_limit_per_file o bytesLimitPerFilePercent.

El muestreo no se admite en los modos de OCR y de análisis inteligente. Es decir, cuando se analizan los siguientes tipos de archivos en el modo de OCR o de análisis inteligente de documentos, la Protección de datos sensibles ignora cualquier configuración que apliques para limitar los bytes analizados por archivo.

  • Imagen
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Si analizas estos archivos en modo binario, se aplicarán los límites.

Modos de escaneo

Cada modo de análisis proporciona detalles de ubicación adicionales en los resultados de inspección.

Modo de escaneo Notas Se deben proporcionar detalles de ubicación adicionales
Binaria

Si no se analiza un archivo como cualquier otro tipo, se convertirá a UTF_8 y se analizará como texto. El análisis de objetos binarios afecta la calidad de detección.

Análisis inteligente de documentos

Los documentos se analizan con el texto extraído del formato. Las imágenes incorporadas se analizan mediante OCR en regiones que lo admiten. Fuera de estas regiones, las imágenes se analizan como archivos binarios.

DocumentLocation
Extracción de metadatos

Se analizarán metadata en todos los archivos analizados de Cloud Storage, además del contenido del archivo.

MetadataLocation
Reconocimiento óptico de caracteres (OCR)

Las imágenes se analizan mediante OCR en regiones que lo admiten. Fuera de estas regiones, las imágenes se analizan como archivos binarios.

ImageLocation
Texto sin formato

No hay detalles adicionales
Análisis estructurado

La información estructural se usa para influir en los resultados. En este modo de análisis, Sensitive Data Protection utiliza la información del encabezado como contexto. Realiza un análisis entre filas y columnas para encontrar datos correlacionados. Por ejemplo, este modo de análisis puede identificar una dirección cuyos componentes están distribuidos en varias columnas de una fila.

Los resultados del análisis contienen información estructural, como la fila que contiene el hallazgo y el nombre de la columna.

Los resultados no cruzan los límites de las celdas de una tabla.

RecordLocation

Cómo analizar archivos estructurados en el modo de análisis estructurado

Cuando analizas un archivo estructurado, como un archivo Avro, CSV o TSV, la Protección de datos sensibles intenta analizarlo en el modo de análisis de procesamiento estructurado. Este modo de análisis tiene una calidad de detección superior en comparación con el análisis binario, ya que el modo de análisis estructurado busca correlaciones entre filas y columnas en los datos estructurados. Los hallazgos se muestran con metadatos adicionales que indican su ubicación, incluido el fieldId.

Sin embargo, en los siguientes casos, es posible que Sensitive Data Protection vuelva al modo de análisis binario, que no incluye las mejoras del modo de análisis estructurado:

  • El archivo o el encabezado están dañados.
  • La configuración del trabajo de inspección tiene límites de tamaño, como bytesLimitPerFile y bytesLimitPerFilePercent, que son demasiado pequeños. Por ejemplo, si el límite de bytesLimitPerFile no es lo suficientemente grande como para incluir un encabezado de bloque completo y, al menos, una fila de datos válidos, es posible que la Protección de datos sensibles analice ese archivo en el modo de análisis binario.

La selección de los datos que se analizan depende de si el muestreo se configura para que comience desde la parte superior del archivo o desde una posición aleatoria.

Por ejemplo, supongamos que tienes un archivo Avro que tiene encabezados de bloque de 50 KB y bloques de datos de 2 MB. En general, comenzar la muestra desde la parte superior te ayuda a asegurarte de que el encabezado del bloque siempre se incluya en la muestra que toma Sensitive Data Protection. Si comienzas el muestreo desde una posición aleatoria en el archivo y el tamaño de la muestra es más pequeño que un bloque de datos, existe la posibilidad de que el encabezado del bloque no se incluya en la muestra. En este ejemplo, aumentar el tamaño de la muestra (especificado por bytesLimitPerFile o bytesLimitPerFilePercent) a 2.05 MB ayuda a evitar que la inspección vuelva al modo de análisis binario.

Ejemplo: Cuando el tamaño de la muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque.
Ejemplo: Cuando el tamaño de la muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque (haz clic para ampliar).