Tipos de arquivos
A tabela a seguir mostra os tipos de arquivo compatíveis com a Proteção de Dados Sensíveis, os limites de verificação, os modos de verificação e o suporte à transformação.
A Proteção de dados sensíveis depende de extensões de arquivo e tipos de mídia (MIME) para identificar os tipos
de arquivos a serem verificados e os modos de verificação a serem
aplicados. Por exemplo, a Proteção de dados sensíveis verifica um arquivo .txt
no
modo de texto simples, mesmo que o arquivo seja estruturado como um arquivo CSV, que normalmente é
verificado no modo de análise estruturada.
Tipo de arquivo | Extensões de arquivo | Limites | Modo de verificação | Compatibilidade com transformações |
---|---|---|---|---|
Apache Avro |
avro |
Limites do Avro | Análise estruturada | |
Comma- or tab-separated values | csv, tsv | Análise estruturada | Desidentificar conteúdo | |
PDF |
Limites do PDF | Análise inteligente de documentos | ||
Text |
asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml. |
Texto simples | Desidentificar conteúdo | |
Microsoft Word |
docx, dotx, docm, dotm |
Limites do Word | Análise inteligente de documentos | |
Microsoft Excel |
xlsx, xlsm, xltx, xltm |
Limites do Excel | Análise inteligente de documentos | |
Microsoft Powerpoint |
pptx, pptm, potx, potm |
Limites do PowerPoint | Análise inteligente de documentos | |
Image |
bmp, gif, jpg, jpeg, jpe, png |
OCR | Edição | |
Binary |
Tipos de arquivos incompatíveis e imagens que não podem ser verificadas usando o reconhecimento óptico de caracteres (OCR, na sigla em inglês). |
Binário |
Clusters de arquivos
A tabela a seguir mostra os grupos de arquivos com suporte da proteção de dados sensíveis ao criar perfis de dados sensíveis. Um perfil de dados do repositório de arquivos fornece pontuações de confidencialidade e risco de dados para cada coleção de arquivos semelhantes.
Os arquivos podem ser movidos entre clusters à medida que a proteção de dados sensíveis adiciona suporte a mais tipos de arquivos. À medida que o suporte à verificação é expandido, o serviço de descoberta pode começar a verificar arquivos que não foram verificados anteriormente. A cobrança é feita conforme descrito em Preços de descoberta.
Tipo de arquivo | Extensões de arquivo | Limites | Modo de verificação | |
---|---|---|---|---|
Text |
asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd |
Texto simples | ||
Source Code |
bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs |
Texto simples | ||
Structured Data |
avro, csv, tsv, proto |
Análise estruturada para arquivos avro, csv e tsv. Análise de texto simples para arquivos proto | ||
Rich Documents |
doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf |
Os arquivos PDF, Microsoft Word, Excel e PowerPoint com menos de 30 MiB são verificados. | Análise inteligente de documentos | |
Images |
bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp |
As imagens bmp, gif, jpg, jpeg, jpe e png com menos de 4 MiB são verificadas com o OCR nas regiões com suporte a esse recurso. Fora dessas regiões, as imagens não são verificadas. | OCR | |
Executables |
ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm |
Não foi verificado no momento | ||
Archives |
zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 e variantes, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#*, lpaq#*, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq |
Não foi verificado no momento | ||
Multimedia |
aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (com DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b |
Não foi verificado no momento | ||
AI Models |
keras, pt, pth, tflite |
Não foi verificado no momento | ||
Unknown |
Qualquer outro arquivo que não esteja em outro cluster. | São arquivos que não têm extensões ou usam extensões comuns, mas não padrão, como .dat, .1 ou .2. | Não foi verificado no momento |
Tipos de arquivos incompatíveis no Cloud Storage
Se um arquivo não for reconhecido durante uma verificação de armazenamento, o sistema o verificará, por padrão, como um arquivo binário. Ele tenta converter o conteúdo em UTF_8 e depois o verifica como texto simples.
Se um arquivo não for reconhecido durante uma verificação de descoberta, o sistema não o verificará.
Se você tiver uma coleção de arquivos que quer ignorar porque a Proteção de dados sensíveis
não é compatível com eles, especifique uma lista de exclusão usando
CloudStorageOptions.file_set.regex_file_set.exclude_regex
.
Limites de bytes verificados por arquivo
Em geral, é possível limitar o número de bytes verificados por arquivo. No
console do Google Cloud, ative a
amostragem. Na
API Cloud Data Loss Prevention, você define o campo
bytes_limit_per_file
ou bytesLimitPerFilePercent
.
A amostragem não é aceita nos modos de OCR e de análise inteligente. Ou seja, quando os tipos de arquivo a seguir são digitalizados no modo de OCR ou de análise inteligente de documentos, a Proteção de dados sensíveis ignora todas as configurações aplicadas para limitar os bytes digitalizados por arquivo.
- Imagem
- Microsoft Excel
- Microsoft PowerPoint
- Microsoft Word
Se você verificar esses arquivos no modo binário, os limites serão aplicados.
Modos de verificação
Cada modo de verificação fornece detalhes de local adicionais nas descobertas de inspeção.
Modo de verificação | Notas | Mais detalhes do local a serem fornecidos |
---|---|---|
Binário | Se um arquivo não for analisado como qualquer outro tipo, ele será convertido em UTF_8 e verificado como texto. A verificação binária afeta a qualidade da detecção. |
|
Análise inteligente de documentos | Os documentos são analisados com texto extraído da formatação. As imagens incorporadas são verificadas usando o OCR em regiões com suporte para OCR . Fora dessas regiões, as imagens são verificadas como arquivos binários. |
DocumentLocation |
Extração de metadados | Todos os arquivos verificados do Cloud Storage terão o |
MetadataLocation |
Reconhecimento óptico de caracteres (OCR) | As imagens são digitalizadas com OCR em regiões com suporte a OCR . Fora dessas regiões, as imagens são verificadas como arquivos binários. |
ImageLocation |
Texto simples | Nenhum outro detalhe | |
Análise estruturada | As informações estruturais são usadas para influenciar descobertas. Nesse modo de verificação, a Proteção de Dados Sensíveis usa as informações de cabeçalho para contextualização. Ela realiza uma análise entre linhas e entre colunas para encontrar dados correlacionados. Por exemplo, esse modo de verificação pode identificar um endereço com componentes que estejam distribuídos entre várias colunas de uma linha. Os resultados da verificação contêm informações estruturais, como a linha que contém a descoberta e o nome da coluna. As descobertas não ultrapassam os limites das células de uma tabela. |
RecordLocation |
Como verificar arquivos estruturados no modo de análise estruturada
Ao verificar um arquivo estruturado, como um arquivo Avro, CSV ou TSV, a Proteção de dados sensíveis tenta verificar o arquivo no modo de verificação de análise estruturada. Esse modo de verificação tem
uma qualidade de detecção superior em comparação com a verificação
binária, porque o modo de análise estruturada
procura correlações entre linhas e colunas nos dados estruturados.
As descobertas são retornadas com metadados adicionais que indicam o local da
descoberta, incluindo o
fieldId
.
No entanto, nos casos a seguir, a Proteção de dados sensíveis pode reverter para o modo de verificação binária, que não inclui as melhorias do modo de análise estruturada:
- O arquivo ou cabeçalho está corrompido.
- A configuração do job de inspeção tem limites de tamanho, como
bytesLimitPerFile
ebytesLimitPerFilePercent
, que são muito pequenos. Por exemplo, se o limite debytesLimitPerFile
não for grande o suficiente para incluir um cabeçalho de bloco completo e pelo menos uma linha de dados válidos, a Proteção de Dados Sensíveis poderá verificar esse arquivo no modo de verificação binário.
A seleção de dados que são verificados depende se a amostragem está definida para começar na parte de cima do arquivo ou em uma posição aleatória.
Por exemplo, suponha que você tenha um arquivo Avro com cabeçalhos de bloco de 50 KB e
blocos de dados de 2 MB. Em geral, iniciar a amostra do topo ajuda a garantir
que o cabeçalho do bloco seja sempre incluído na amostra que
a Proteção de Dados Sensíveis coleta. Se você começar a amostragem em uma posição
aleatória no arquivo e o tamanho da amostra for menor que um bloco de dados, é possível
que o cabeçalho do bloco não esteja incluído na amostra. Neste exemplo,
aumentar o tamanho da amostra (especificado por bytesLimitPerFile
ou
bytesLimitPerFilePercent
) para 2,05 MB ajuda a impedir que a inspeção
volte ao modo de análise binária.