Tipos de arquivos compatíveis

Tipos de arquivos

Tipo de arquivo Extensões de arquivo Limites Modo de verificação Compatibilidade com transformações
Apache Avro

avro

Limites do Avro Análise estruturada
Comma- or tab-separated values

csv, tsv

Análise estruturada Desidentificar conteúdo
PDF

pdf

Limites do PDF Análise inteligente de documentos
Text

asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.

texto simples Desidentificar conteúdo
Microsoft Word

docx, dotx, docm, dotm

Limites do Word Análise inteligente de documentos
Image

bmp, gif, jpg, jpeg, jpe, png

OCR Edição
Binary

Todas as demais

Binário

Tipos de arquivos incompatíveis no Cloud Storage

Se um arquivo não for reconhecido durante uma verificação de armazenamento, o sistema o verificará, por padrão, como um arquivo binário. Ele tenta converter o conteúdo em UTF_8 e depois o verifica como texto simples. Para evitar esse retorno, especifique os tipos de arquivos que você quer verificar definindo CloudStorageOptions.file_types.

Se você tiver uma coleção de arquivos que quer ignorar porque o Cloud DLP não é compatível com eles, especifique uma lista de exclusão usando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Modos de verificação

Cada modo de verificação fornece detalhes de local adicionais nas descobertas de inspeção.

Modo de verificação Notas Mais detalhes do local a serem fornecidos
Binário

Se um arquivo não for analisado como qualquer outro tipo, ele será convertido em UTF_8 e verificado como texto.

Análise inteligente de documentos

Os documentos são analisados com texto extraído da formatação e as imagens incorporadas são verificadas usando OCR quando possível.

DocumentLocation
Extração de metadados

Todos os arquivos verificados do Cloud Storage terão o metadata verificado, além do conteúdo do arquivo.

MetadataLocation
Reconhecimento ótico de caracteres (OCR)

ImageLocation
Texto simples

Análise estruturada

RecordLocation