Cloud Data Loss Prevention (Cloud DLP) ahora forma parte de Protección de Datos Sensibles. El nombre de la API sigue siendo el mismo: API Cloud Data Loss Prevention (API DLP). Para obtener información sobre los servicios que componen Protección de Datos Sensibles, consulta el artículo Información general sobre Protección de Datos Sensibles.

Esta página se ha traducido con Cloud Translation API.

Tipos de archivo y modos de análisis admitidos

En esta página se enumeran los tipos de archivos que puede analizar Protección de Datos Sensibles y se describen los modos de análisis que utiliza Protección de Datos Sensibles para analizar archivos.

Tipos de archivo admitidos en las operaciones de inspección y anonimización

En la siguiente tabla se muestran los tipos de archivos que Protección de Datos Sensibles puede inspeccionar y transformar (desidentificar).

Protección de Datos Sensibles se basa en las extensiones de archivo y los tipos de contenido multimedia (MIME) para identificar los tipos de archivos que se van a analizar y los modos de análisis que se van a aplicar. Por ejemplo, Protección de Datos Sensibles analiza un archivo .txt en modo de texto sin formato, aunque el archivo esté estructurado como un archivo CSV, que normalmente se analiza en modo de análisis estructurado.

Tipo de archivo	Extensiones de archivo	Límites	Modo de búsqueda	Asistencia para la transformación
`Apache Avro`	avro	Límites de Avro	Análisis estructurado
`Comma- or tab-separated values`	csv, tsv Nota: Para analizar un archivo CSV o TSV en modo de análisis estructurado, asegúrate de que el delimitador del archivo coincida con su extensión. Es decir, un archivo `.csv` debe estar delimitado por comas y un archivo `.tsv`, por tabulaciones.		Análisis estructurado	Desidentificar contenido
`PDF`	pdf	Límites de PDF	Análisis inteligente de documentos
`Text`	asc, brf, c, c++, cc, cpp, cs, css, cxx, dart, eml, go, h, h++, hh, hpp, hs, htm, html, hxx, ini, java, js, json, jsonl, lhs, m, markdown, md, mkd, ml, mli, ocaml, php, pht, phtml, pl, pm, py, pyw, rb, rbw, rc, rs, scala, sh, shtm, shtml, sql, tex, text, txt, vcard, vcs, wml, xhtml, xml, xsd, xsl, yaml, yml		Texto sin formato	Desidentificar contenido
`Microsoft Word`	docm, docx, dotm, dotx	Límites de palabras	Análisis inteligente de documentos
`Microsoft Excel`	xlsm, xlsx, xltm y xltx	Límites de Excel	Análisis inteligente de documentos
`Microsoft Powerpoint`	potm, potx, pptm, pptx	Límites de PowerPoint	Análisis inteligente de documentos
`Image`	bmp, gif, jpe, jpeg, jpg y png		OCR	Redacción
`Binary`	Tipos de archivo no reconocidos e imágenes que no se pueden escanear mediante reconocimiento óptico de caracteres (OCR).		Binario

Clústeres de archivos admitidos en operaciones de descubrimiento

Durante la fase de descubrimiento, Protección de Datos Sensibles organiza los archivos detectados en clústeres de archivos. Estos clústeres son grupos de tipos de archivos similares. En la siguiente tabla se muestran los clústeres de archivos y las extensiones de archivo admitidos. No todos los archivos detectados se pueden analizar.

Los archivos pueden moverse entre clústeres de archivos a medida que Protección de Datos Sensibles añade compatibilidad con más clústeres. A medida que se amplíe la compatibilidad con el análisis, el servicio de descubrimiento podría empezar a analizar archivos que antes no se analizaban. Se te facturará según lo descrito en la página de precios de Discovery.

Conjunto de archivos	Extensiones de archivo	Límites	Modo de búsqueda
`Text`	asc, eml, htm, html, ini, json, jsonL, log, markdown, md, mkd, plist, shtm, shtml, sql, tex, text, txt, vcard, vcs, xsd, xsl		Texto sin formato
`Source Code`	bat, brf, c, c++, cc, cmd, cpp, cs, css, cxx, dart, go, h, hh, hpp, hs, hxx, java, js, lhs, m, ml, ocaml, php, phtm, phtml, pl, ps1, py, pyw, rb, rbw, rc, rs, scala, scpt, scr, script, sh, sql, vb, vbs, wml, xml, yaml, yml		Texto sin formato
`Structured Data`	avro, csv, tsv y proto		Análisis estructurado de archivos Avro, CSV y TSV. Análisis de texto sin formato para archivos proto
`Rich Documents`	doc, docm, docx, dotm, dotx, pdf, potm, potx, ppt, pptm, pptx, xls, xlsm, xlsx, xltm, xltx	Se analizan los archivos PDF, Microsoft Word, Excel y PowerPoint admitidos que tengan un tamaño inferior a 30 MiB.	Análisis inteligente de documentos
`Images`	bmp, gif, heic, ico, jpe, jpeg, jpg, pm, png, svg, tiff y webp	Las imágenes admitidas (bmp, gif, jpe, jpeg, jpg y png) de menos de 4 MiB se analizan mediante OCR en las regiones que lo admiten. Fuera de estas regiones, las imágenes no se analizan.	OCR
`Executables`	ac, air, apk, app, appimage, bas, bin, bms, class, cls, com, command, ctl, ctx, dca, ddf, dep, dll, dob, dox, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, widget, workflow, wsf, x86, x86_64, xap, xbe, xlm		No se ha analizado en este momento
`Archives`	7z, a, ace, afa, alz, apk, ar, arc, arj, ark, b1, b6z, ba, bh, cab, car, cdx, cfs, cpio, cpt, dar, dd, dgc, dmg, ear, esd, gca, genozip, gz, ha, hki, ice, ima, img, iso, jar, kgb, lha, lpaq#, lzh, lzx, mou, pak, paq#, paq6, paq7, paq8 y variantes, partimg, pea, phar, pim, pit, qda, rar, rk, run, s7z, sda, sea, sen, sfx, shar, shk, sit, sitx, sqx, swm, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, tgz, uc, uc0, uc2, uca, ucn, ue2, uha, ur2, war, wim, xar, xp3, yz1, zip, zipx, zoo, zpaq, zz		Protección de Datos Sensibles analiza los archivos de los archivos comprimidos que tienen estas extensiones: bz2, cpio, gz, jar, lz4, lzma, tar, tar.bz2, tar.gz, tar.lz4, tar.lzma, tar.xz, tar.z, xz, z y zip. El modo de análisis que se usa para cada archivo depende del tipo de archivo.
`Multimedia`	3g2, 3gp, 8svx, aa, aac, aax, act, aiff, alac, amr, amv, ape, asf, au, avi, awb, cda, drc, dss, dvf, f4a, f4b, f4p, f4v, flac, flv, gif, gifv, gsm, iklax, ivs, M2TS, m2v, m4a, m4b, m4p, m4p (con DRM), m4v, mkv, mmf, mng, mogg, mov, movpkg, mp2, mp3, mp4, mpc, mpe, mpeg, mpg, mpv, msv, MTS, mxf, nmf, nsv, oga, ogg, ogv, opus, qt, ra, raw, rf64, rm, rmvb, roq, sln, svi, TS, tta, viv, vob, voc, vox, wav, webm, wma, wmv, wv, yuv		No se ha analizado en este momento
`AI Models`	caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords		No se ha analizado en este momento
`Unknown`	Cualquier otro archivo que no esté en otro clúster.	Se trata de archivos que no tienen extensiones o que usan extensiones comunes, pero no estándar, como .dat, .1 o .2.	No se ha analizado en este momento

Tipos de archivo no reconocidos en Cloud Storage

Si no se reconoce un archivo durante un análisis de almacenamiento, el sistema lo analizará de forma predeterminada como un archivo binario. Intenta convertir el contenido a UTF_8 y, a continuación, lo analiza como texto sin formato.

Si no se reconoce un archivo durante un análisis de detección, el sistema no lo analizará.

Si tienes una colección de archivos que quieres omitir porque Protección de Datos Sensibles no los reconoce, puedes especificar una lista de exclusión con CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Límites de bytes analizados por archivo

Por lo general, puedes limitar el número de bytes analizados por archivo. En la consolaGoogle Cloud , puedes hacerlo activando el muestreo. En la API Cloud Data Loss Prevention, se define el campo bytes_limit_per_file o bytesLimitPerFilePercent.

El muestreo no se admite en los modos de OCR y de análisis inteligente. Es decir, cuando se analizan los siguientes tipos de archivo en el modo de reconocimiento óptico de caracteres o de análisis inteligente de documentos, Protección de Datos Sensibles ignora cualquier ajuste que apliques para limitar los bytes analizados por archivo.

Imagen
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Si escaneas estos archivos en modo binario, se aplicarán los límites.

Modos de escaneo

Cada modo de análisis proporciona detalles adicionales sobre la ubicación en los resultados de la inspección.

Modo de búsqueda	Notas	Se proporcionarán detalles adicionales sobre la ubicación
Binario	Si no se puede analizar un archivo como ningún otro tipo, se convertirá a UTF_8 y se analizará como texto. El análisis binario afecta a la calidad de la detección.
Análisis inteligente de documentos	Los documentos se analizan con el texto extraído del formato. Las imágenes insertadas se escanean mediante OCR en regiones que admiten esta función . Fuera de estas regiones, las imágenes se analizan como archivos binarios.	`DocumentLocation`
Extracción de metadatos	Todos los archivos analizados de Cloud Storage tendrán el estado `metadata`, además del contenido del archivo.	`MetadataLocation`
Reconocimiento óptico de caracteres (OCR)	Las imágenes se escanean mediante OCR en las regiones que lo admiten . Fuera de estas regiones, las imágenes se analizan como archivos binarios.	`ImageLocation`
Texto sin formato		No hay más detalles
Análisis estructurado	La información estructural se usa para influir en los resultados. En este modo de análisis, Protección de Datos Sensibles usa la información del encabezado para obtener contexto. Realiza un análisis entre filas y columnas para encontrar datos correlacionados. Por ejemplo, este modo de digitalización puede identificar una dirección postal cuyos componentes estén distribuidos en varias columnas de una fila. Los resultados del análisis contienen información estructural, como la fila que contiene el resultado y el nombre de la columna. Los resultados no cruzan los límites de las celdas de una tabla.	`RecordLocation`

Analizar archivos estructurados en el modo de análisis estructurado

Cuando analiza un archivo estructurado, como un archivo Avro, CSV o TSV, Protección de Datos Sensibles intenta analizarlo en el modo de análisis de análisis estructurado. Este modo de análisis tiene una calidad de detección superior a la del análisis binario, ya que el modo de análisis estructurado busca correlaciones entre filas y columnas en los datos estructurados. Los resultados se devuelven con metadatos adicionales que indican la ubicación del resultado, incluido el fieldId.

Sin embargo, en los siguientes casos, Protección de Datos Sensibles puede volver al modo de análisis binario, que no incluye las mejoras del modo de análisis estructurado:

El archivo o el encabezado están dañados.
La configuración del trabajo de inspección tiene límites de tamaño, como bytesLimitPerFile y bytesLimitPerFilePercent, que son demasiado pequeños. Por ejemplo, si el límite de bytesLimitPerFile no es lo suficientemente grande como para incluir un encabezado de bloque completo y al menos una fila de datos válidos, Protección de Datos Sensibles puede analizar ese archivo en modo de análisis binario.

La selección de los datos que se analizan depende de si el muestreo se ha configurado para que empiece desde la parte superior del archivo o desde una posición aleatoria.

Por ejemplo, supongamos que tiene un archivo Avro con encabezados de bloque de 50 KB y bloques de datos de 2 MB. Por lo general, iniciar el muestreo desde el principio te ayuda a asegurarte de que el encabezado del bloque siempre se incluya en la muestra que toma Protección de Datos Sensibles. Si empiezas a muestrear desde una posición aleatoria del archivo y el tamaño de la muestra es inferior a un bloque de datos, es posible que el encabezado del bloque no se incluya en la muestra. En este ejemplo, al aumentar el tamaño de la muestra (especificado por bytesLimitPerFile o bytesLimitPerFilePercent) a 2,05 MB, se evita que la inspección vuelva al modo de análisis binario.

Ejemplo: Si el tamaño de la muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque. — Ejemplo: Si el tamaño de la muestra es demasiado pequeño, es posible que la inspección no incluya el encabezado del bloque (haz clic para ampliar).