Cloud Data Loss Prevention (Cloud DLP) ahora es parte de Sensitive Data Protection. El nombre de la API sigue siendo el mismo: API de Cloud Data Loss Prevention (API de DLP). Para obtener información sobre los servicios que conforman la protección de datos sensibles, consulta la descripción general de la protección de datos sensibles.

Se usó la API de Cloud Translation para traducir esta página.

Tipos de archivos y modos de análisis admitidos

Tipos de archivo

En la siguiente tabla, se muestran los tipos de archivos que admite Sensitive Data Protection, sus límites de análisis, modos de análisis y compatibilidad con la transformación correspondientes.

Sensitive Data Protection se basa en extensiones de archivo y tipos de MIME multimedia para identificar los tipos de archivos que se analizarán y los modos de análisis que se aplicarán. Por ejemplo, la Protección de datos sensibles analiza un archivo .txt en el modo de texto sin formato, incluso si el archivo está estructurado como un archivo CSV, que normalmente se analiza en el modo de análisis estructurado.

Tipo de archivo	Extensiones de archivo	Límites	Modo de escaneo	Asistencia de transformación
`Apache Avro`	avro	Límites de Avro	Análisis estructurado
`Comma- or tab-separated values`	csv, tsv Nota: Para analizar un archivo CSV o TSV en el modo de análisis estructurado, asegúrate de que el delimitador del archivo coincida con su extensión. Es decir, un archivo `.csv` debe estar delimitado por comas y un archivo `.tsv` debe estar delimitado por tabulaciones.		Análisis estructurado	Desidentifica contenido
`PDF`	pdf	Límites de PDF	Análisis inteligente de documentos
`Text`	asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.		Texto sin formato	Desidentifica contenido
`Microsoft Word`	docx, dotx, docm, dotm	Límites de palabras	Análisis inteligente de documentos
`Microsoft Excel`	xlsx, xlsm, xltx y xltm	Límites de Excel	Análisis inteligente de documentos
`Microsoft Powerpoint`	pptx, pptm, potx, potm	Límites de PowerPoint	Análisis inteligente de documentos
`Image`	bmp, gif, jpg, jpeg, jpe, png		OCR	Ocultamiento
`Binary`	Imágenes y tipos de archivos no compatibles que no se pueden analizar mediante el reconocimiento óptico de caracteres (OCR).		Binaria

Clústeres de archivos

En la siguiente tabla, se muestran los grupos de archivos que admite la Protección de datos sensibles mientras se crean perfiles de datos sensibles. Un perfil de datos de almacén de archivos proporciona puntuaciones de sensibilidad y riesgo de datos para cada colección de archivos similares.

Los archivos pueden moverse entre clústeres de archivos a medida que Sensitive Data Protection agrega compatibilidad con más tipos de archivos. A medida que se expande la compatibilidad con el análisis, es posible que el servicio de descubrimiento comience a analizar archivos que no se habían analizado anteriormente. Se te factura como se describe en Precios de descubrimiento.

Tipo de archivo	Extensiones de archivo	Límites	Modo de escaneo
`Text`	asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd		Texto sin formato
`Source Code`	bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs		Texto sin formato
`Structured Data`	avro, csv, tsv, proto		Análisis estructurado para archivos avro, csv y tsv. Análisis de texto sin formato para archivos proto
`Rich Documents`	doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf	Se analizan los archivos PDF, Microsoft Word, Excel y PowerPoint admitidos de menos de 30 MiB.	Análisis inteligente de documentos
`Images`	bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp	Las imágenes admitidas bmp, gif, jpg, jpeg, jpe, png de menos de 4 MiB se analizan con OCR en regiones que lo admiten. Fuera de estas regiones, no se analizan las imágenes.	OCR
`Executables`	ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm		No se escaneó en este momento
`Archives`	zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 y variantes, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#, lpaq#, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq		No se escaneó en este momento
`Multimedia`	aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (con DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b		No se escaneó en este momento
`AI Models`	keras, pt, pth, tflite		No se escaneó en este momento
`Unknown`	Cualquier otro archivo que no esté dentro de otro clúster	Son archivos que no tienen extensiones o que usan extensiones comunes, pero no estándar, como .dat, .1 o .2.	No se escaneó en este momento

Tipos de archivo no compatibles en Cloud Storage

Si no se reconoce un archivo durante un análisis de almacenamiento, el sistema lo analizará como un archivo binario de forma predeterminada. Intenta convertir el contenido en UTF_8 y, luego, lo analiza como texto sin formato.

Si no se reconoce un archivo durante un análisis de descubrimiento, el sistema no lo analiza.

Si tienes una colección de archivos que deseas omitir porque la Protección de datos sensibles no los admite, puedes especificar una lista de exclusiones mediante CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Límites de bytes analizados por archivo

En general, puedes limitar la cantidad de bytes analizados por archivo. En la consola de Google Cloud, puedes activar el muestreo. En la API de Cloud Data Loss Prevention, configuras el campo bytes_limit_per_file o bytesLimitPerFilePercent.

El muestreo no es compatible con los modos de OCR y análisis inteligente. Es decir, cuando se analizan los siguientes tipos de archivos en el modo de OCR o de análisis inteligente de documentos, la Protección de datos sensibles ignora cualquier configuración que apliques para limitar los bytes analizados por archivo.

Imagen
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Si analizas estos archivos en modo binario, se aplican los límites.

Modos de escaneo

Cada modo de análisis proporciona detalles de ubicación adicionales en los resultados de inspección.

Modo de escaneo	Notas	Se deben proporcionar detalles de ubicación adicionales
Binaria	Si no se analiza un archivo como cualquier otro tipo, se convertirá a UTF_8 y se analizará como texto. El análisis de objetos binarios afecta la calidad de detección.
Análisis inteligente de documentos	Los documentos se analizan con el texto extraído del formato. Las imágenes incorporadas se analizan mediante OCR en regiones que lo admiten. Fuera de estas regiones, las imágenes se analizan como archivos binarios.	`DocumentLocation`
Extracción de metadatos	Se analizarán `metadata` en todos los archivos analizados de Cloud Storage, además del contenido del archivo.	`MetadataLocation`
Reconocimiento óptico de caracteres (OCR)	Las imágenes se analizan mediante OCR en regiones que lo admiten. Fuera de estas regiones, las imágenes se analizan como archivos binarios.	`ImageLocation`
Texto sin formato		No hay detalles adicionales
Análisis estructurado	La información estructural se usa para influir en los resultados. En este modo de análisis, Sensitive Data Protection utiliza la información del encabezado como contexto. Realiza un análisis entre filas y columnas para encontrar datos correlacionados. Por ejemplo, este modo de análisis puede identificar una dirección cuyos componentes están distribuidos en varias columnas de una fila. Los resultados del análisis contienen información estructural, como la fila que contiene el hallazgo y el nombre de la columna. Los resultados no cruzan los límites de las celdas de una tabla.	`RecordLocation`

Cómo analizar archivos estructurados en el modo de análisis estructurado

Cuando analizas un archivo estructurado, como un archivo Avro, CSV o TSV, la Protección de datos sensibles intenta analizarlo en el modo de análisis de análisis estructurado. Este modo de análisis tiene una calidad de detección superior en comparación con el análisis binario, ya que el modo de análisis estructurado busca correlaciones entre filas y columnas en los datos estructurados. Los resultados se muestran con metadatos adicionales que indican la ubicación del resultado, incluido el fieldId.

Sin embargo, en los siguientes casos, Sensitive Data Protection podría revertir al modo de análisis binario, que no incluye las mejoras del modo de análisis estructurado:

El archivo o el encabezado están dañados.
La configuración del trabajo de inspección tiene límites de tamaño, como bytesLimitPerFile y bytesLimitPerFilePercent, que son demasiado pequeños. Por ejemplo, si el límite de bytesLimitPerFile no es lo suficientemente grande para incluir un encabezado de bloque completo y, al menos, una fila de datos válidos, Sensitive Data Protection podría analizar ese archivo en modo de análisis binario.

La selección de datos que se analizan depende de si el muestreo está configurado para comenzar desde la parte superior del archivo o desde una posición aleatoria.

Por ejemplo, supongamos que tienes un archivo Avro que tiene encabezados de bloque de 50 KB y bloques de datos de 2 MB. En general, comenzar la muestra desde la parte superior te ayuda a asegurarte de que el encabezado de bloque siempre se incluya en la muestra que toma Sensitive Data Protection. Si comienzas a tomar muestras desde una posición aleatoria del archivo y el tamaño de la muestra es menor que un bloque de datos, es posible que el encabezado del bloque no se incluya en la muestra. En este ejemplo, aumentar el tamaño de la muestra (especificado por bytesLimitPerFile o bytesLimitPerFilePercent) a 2.05 MB ayuda a evitar que la inspección vuelva al modo de análisis binario.

Ejemplo: Cuando el tamaño de la muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque. — Ejemplo: Cuando el tamaño de la muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque (haz clic para ampliar).