O Cloud Data Loss Prevention (Cloud DLP) agora faz parte da Proteção de dados confidenciais. O nome da API continua o mesmo: API Cloud Data Loss Prevention (API DLP). Saiba mais sobre os serviços que fazem parte da Proteção de dados confidenciais.

Tipos de arquivos e modos de verificação compatíveis

Tipos de arquivos

A tabela a seguir mostra os tipos de arquivo com suporte da proteção de dados sensíveis, os limites de verificação correspondentes, os modos de verificação e a compatibilidade com transformações.

A proteção de dados sensíveis depende de extensões de arquivo e tipos de mídia (MIME) para identificar os tipos de arquivos a serem verificados e os modos de verificação a serem aplicados. Por exemplo, a proteção de dados sensíveis verifica um arquivo .txt no modo de texto simples, mesmo que ele esteja estruturado como um arquivo CSV, que normalmente é verificado nesse modo.

Tipo de arquivo	Extensões de arquivo	Limites	Modo de verificação	Compatibilidade com transformações
`Apache Avro`	avro	Limites do Avro	Análise estruturada
`Comma- or tab-separated values`	csv, tsv Observação:para verificar um arquivo CSV ou TSV no modo de análise estruturada, confira se o delimitador do arquivo corresponde à extensão do arquivo. Ou seja, um arquivo `.csv` precisa ser delimitado por vírgulas e um arquivo `.tsv` precisa ser delimitado por tabulações.		Análise estruturada	Desidentificar conteúdo
`PDF`	pdf	Limites do PDF	Análise inteligente de documentos
`Text`	asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.		Texto simples	Desidentificar conteúdo
`Microsoft Word`	docx, dotx, docm, dotm	Limites do Word	Análise inteligente de documentos
`Microsoft Excel`	xlsx, xlsm, xltx, xltm	Limites do Excel	Análise inteligente de documentos
`Microsoft Powerpoint`	pptx, pptm, potx, potm	Limites do PowerPoint	Análise inteligente de documentos
`Image`	bmp, gif, jpg, jpeg, jpe, png		OCR	Edição
`Binary`	Tipos de arquivos incompatíveis e imagens que não podem ser verificadas usando o reconhecimento óptico de caracteres (OCR, na sigla em inglês).		Binário

Tipos de arquivos incompatíveis no Cloud Storage

Se um arquivo não for reconhecido durante uma verificação de armazenamento, o sistema o verificará, por padrão, como um arquivo binário. Ele tenta converter o conteúdo em UTF_8 e depois o verifica como texto simples.

Se você tiver uma coleção de arquivos que queira pular porque a Proteção de Dados Sensíveis não tem suporte para eles, especifique uma lista de exclusão usando CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limites de bytes verificados por arquivo

Em geral, é possível limitar o número de bytes verificados por arquivo. No Console do Google Cloud, ative a amostragem para fazer isso. Na API Cloud Data Loss Prevention, defina o campo bytes_limit_per_file ou bytesLimitPerFilePercent.

A amostragem não é compatível com os modos de OCR e análise inteligente. Ou seja, quando os tipos de arquivos a seguir são digitalizados em OCR ou no modo de análise inteligente de documentos, a proteção de dados sensíveis ignora todas as configurações aplicadas para limitar os bytes verificados por arquivo.

Imagem
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Se você verificar esses arquivos no modo binário, os limites serão aplicados.

Modos de verificação

Cada modo de verificação fornece outros detalhes de local nas descobertas da inspeção.

Modo de verificação	Observações	Mais detalhes do local a serem fornecidos
Binário	Se um arquivo não for analisado como qualquer outro tipo, ele será convertido em UTF_8 e verificado como texto. A verificação binária afeta a qualidade da detecção.
Análise inteligente de documentos	Os documentos são analisados com texto extraído da formatação. As imagens incorporadas são verificadas usando o OCR em regiões com suporte para OCR . Fora dessas regiões, as imagens são verificadas como arquivos binários.	`DocumentLocation`
Extração de metadados	Todos os arquivos verificados do Cloud Storage terão o `metadata` verificado, além do conteúdo do arquivo.	`MetadataLocation`
Reconhecimento óptico de caracteres (OCR)	As imagens são digitalizadas com OCR em regiões com suporte a OCR . Fora dessas regiões, as imagens são verificadas como arquivos binários.	`ImageLocation`
Texto simples		Nenhum outro detalhe
Análise estruturada	As informações estruturais são usadas para influenciar descobertas. Nesse modo de verificação, a proteção de dados sensíveis usa as informações do cabeçalho para contexto. Ele realiza uma análise em várias linhas e colunas para encontrar dados correlacionados. Por exemplo, esse modo de verificação pode identificar um endereço com componentes distribuídos em várias colunas de uma linha. Os resultados da verificação contêm informações estruturais, como a linha que contém a descoberta e o nome da coluna. As descobertas não atravessam os limites de célula de uma tabela.	`RecordLocation`

Como verificar arquivos estruturados no modo de análise estruturada

Quando você verifica um arquivo estruturado, como um Avro, CSV ou TSV, a Proteção de Dados Sensíveis tenta verificar o arquivo no modo de verificação de análise estruturada. Esse modo de verificação tem uma qualidade de detecção superior em comparação com a verificação binária, porque o modo de análise estruturada procura correlações entre linhas e colunas nos dados estruturados. As descobertas são retornadas com outros metadados indicando o local da descoberta, incluindo fieldId.

No entanto, nos casos a seguir, a proteção de dados sensíveis pode reverter para o modo de verificação binária, que não inclui as melhorias do modo de análise estruturada:

O arquivo ou cabeçalho está corrompido.
A configuração do job de inspeção tem limites de tamanho, como bytesLimitPerFile e bytesLimitPerFilePercent, que são muito pequenos. Por exemplo, se o limite de bytesLimitPerFile não for grande o suficiente para incluir um cabeçalho de bloco completo e pelo menos uma linha de dados válidos, a proteção de dados sensíveis poderá verificar esse arquivo no modo de verificação binária.

A seleção dos dados verificados depende da configuração da amostragem para começar do topo do arquivo ou de uma posição aleatória.

Por exemplo, suponha que você tenha um arquivo Avro com cabeçalhos de bloco de 50 KB e blocos de dados de 2 MB. Em geral, iniciar a amostra de cima ajuda a garantir que o cabeçalho de bloco esteja sempre incluído na amostra coletada pela Proteção de Dados Sensíveis. Se você iniciar a amostragem em uma posição aleatória no arquivo e o tamanho da amostra for menor que um bloco de dados, há uma chance de que o cabeçalho do bloco não esteja incluído na amostra. Neste exemplo, aumentar o tamanho da amostra (especificado por bytesLimitPerFile ou bytesLimitPerFilePercent) para 2,05 MB ajuda a evitar que a inspeção reverta para o modo de análise binário.

Exemplo: quando um tamanho de amostra é muito pequeno, a inspeção pode não incluir o cabeçalho do bloco. — Exemplo: quando o tamanho da amostra é muito pequeno, a inspeção pode não incluir o cabeçalho do bloco (clique para ampliar).