Tipos de archivos admitidos

Tipos de archivo

Tipo de archivo Extensiones de archivo Límites Modo de escaneo Asistencia de transformación
Apache Avro

avro

Límites de Avro Análisis estructurado
Comma- or tab-separated values

csv, tsv

Análisis estructurado Desidentifica contenido
PDF

pdf

Límites de PDF Análisis inteligente de documentos
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.

Texto sin formato Desidentifica contenido
Microsoft Word

docx, dotx, docm, dotm

Límites de palabras Análisis inteligente de documentos
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Ocultamiento
Binary

Imágenes de archivos no compatibles y también imágenes que no se pueden analizar con el reconocimiento óptico de caracteres (OCR)

Binaria

Tipos de archivo no compatibles en Cloud Storage

Si no se reconoce un archivo durante un análisis de almacenamiento, el sistema lo analizará de forma predeterminada como un archivo binario. Intenta convertir el contenido a UTF_8 y, luego, lo analiza como texto sin formato.

Si tienes una colección de archivos que deseas omitir porque Cloud DLP no los admite, puedes especificar una lista de exclusiones mediante CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Modos de escaneo

Cada modo de análisis proporciona detalles de ubicación adicionales en los resultados de inspección.

Modo de escaneo Notas Se proporcionan más detalles de la ubicación
Binario

Si no se analiza un archivo como cualquier otro tipo, se convertirá a UTF_8 y se analizará como texto. El análisis binario afecta la calidad de detección.

Análisis inteligente de documentos

Los documentos se analizan con texto extraído del formato. Las imágenes incorporadas se analizan mediante OCR en regiones que admiten . Fuera de estas regiones, las imágenes se analizan como archivos binarios.

DocumentLocation
Extracción de metadatos

Se analizarán metadata en todos los archivos analizados de Cloud Storage, además del contenido del archivo.

MetadataLocation
Reconocimiento óptico de caracteres (OCR)

Las imágenes se analizan mediante OCR en regiones que admiten . Fuera de estas regiones, las imágenes se analizan como archivos binarios.

ImageLocation
Texto sin formato

No hay detalles adicionales
Análisis estructurado

Se usa la información estructural para influir en los resultados. Algunos ejemplos de información estructural son la fila en la que se encontraron los datos y el nombre de la columna asociada con un campo. Los resultados, en este momento, no cruzan los límites de celda de una tabla.

RecordLocation