Tipos de archivos admitidos

Tipos de archivo

Tipo de archivo Extensiones de archivo Límites Modo de escaneo Asistencia de transformación
Apache Avro

avro

Límites de Avro Análisis estructurado
Comma- or tab-separated values

csv, tsv

Análisis estructurado Desidentifica contenido
PDF

pdf

Límites de PDF Análisis inteligente de documentos
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.

Texto sin formato Desidentifica contenido
Microsoft Word

docx, dotx, docm, dotm

Límites de palabras Análisis inteligente de documentos
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Ocultamiento
Binary

Todo lo demás

Binario

Tipos de archivo no compatibles en Cloud Storage

Si no se reconoce un archivo durante un análisis de almacenamiento, el sistema lo analizará de forma predeterminada como un archivo binario. Intenta convertir el contenido a UTF_8 y, luego, lo analiza como texto sin formato. Para evitar este resguardo, configura CloudStorageOptions.file_types a fin de especificar los tipos de archivos que deseas analizar.

Si tienes una colección de archivos que deseas omitir porque Cloud DLP no los admite, puedes especificar una lista de exclusiones mediante CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Modos de escaneo

Cada modo de análisis proporciona detalles de ubicación adicionales en los resultados de la inspección.

Modo de escaneo Notas Detalles adicionales de la ubicación que se proporcionarán
Binario

Si no se analiza un archivo como cualquier otro tipo, se convertirá a UTF_8 y se analizará como texto.

Análisis inteligente de documentos

Los documentos se analizan con el texto extraído del formato y las imágenes incorporadas se analizan con OCR cuando es posible.

DocumentLocation
Extracción de metadatos

Se analizarán metadata en todos los archivos analizados de Cloud Storage, además del contenido del archivo.

MetadataLocation
Reconocimiento óptico de caracteres (OCR)

ImageLocation
Texto sin formato

Análisis estructurado

RecordLocation