Nesta página, listamos problemas conhecidos com a proteção de dados sensíveis, além de maneiras de evitar ou se recuperar dos problemas a seguir.
Problemas gerais
Como armazenar resultados no BigQuery
Quando um job ou uma verificação de descoberta está armazenando resultados no BigQuery, um erro Already exists
aparece nos registros. O erro não indica que há um problema. Os resultados serão armazenados conforme esperado.
Verificação do BigQuery
Esta seção descreve problemas que podem ser encontrados ao inspecting ou criar o perfil dos dados do BigQuery.
Problemas comuns em operações de inspeção e criação de perfil
Os problemas a seguir são aplicáveis às operações de inspeção e de criação de perfil do BigQuery.
Os problemas a seguir também se aplicam às operações de desidentificação no BigQuery (em pré-lançamento).Não é possível verificar as linhas com segurança no nível da linha
As políticas de segurança no nível da linha podem impedir que a proteção de dados sensíveis inspecione e crie perfis das tabelas protegidas do BigQuery. Se você tiver políticas de segurança no nível da linha aplicadas às tabelas do BigQuery, recomendamos definir um filtro VERDADEIRO e incluir o agente de serviço na lista de beneficiários:
- Se você estiver criando dados de perfil no nível da organização ou da pasta, inclua o agente de serviço do projeto de contêiner na lista de beneficiários.
- Se você estiver criando perfis de dados no nível do projeto ou executando um job de inspeção em uma tabela, inclua o agente de serviço do projeto na lista de beneficiários.
Linhas duplicadas
Ao gravar dados em uma tabela do BigQuery, a proteção de dados confidenciais pode gravar linhas duplicadas.
Dados transmitidos recentemente
A proteção de dados sensíveis não verifica dados transmitidos recentemente (anteriormente conhecidos como buffer de streaming). Para mais informações, consulte Disponibilidade de dados de streaming na documentação do BigQuery.
Problemas de inspeção do BigQuery
Os problemas a seguir são aplicáveis apenas a operações de inspeção nos dados do BigQuery. Elas não afetam os perfis de dados.
As descobertas exportadas não têm valores para o campo row_number
Quando você configura a proteção de dados sensíveis para salvar descobertas no BigQuery, o campo location.content_locations.record_location.record_key.big_query_key.row_number
na tabela gerada do BigQuery é inferido no momento em que a tabela de entrada é verificada. O valor é não determinístico, não pode ser consultado e pode ser nulo para jobs de inspeção.
Se você precisar identificar linhas específicas em que as descobertas estão presentes, especifique inspectJob.storageConfig.bigQueryOptions.identifyingFields
no momento da criação do job.
Os campos de identificação podem ser encontrados na tabela do BigQuery gerada, no campo location.content_locations.record_location.record_key.id_values
.
Como limitar as verificações ao conteúdo novo do BigQuery
Esse problema também se aplica a operações de desidentificação no BigQuery (em pré-lançamento).Se você estiver limitando as verificações apenas a conteúdo novo e usar a API BigQuery Storage Write para preencher a tabela de entrada, a proteção de dados sensíveis poderá pular a verificação de algumas linhas.
Para atenuar esse problema, no job de inspeção, verifique se o timestampField
do objeto
TimespanConfig
é um carimbo de data/hora de confirmação gerado automaticamente pelo BigQuery.
No entanto, ainda não há garantia de que nenhuma linha será ignorada, porque
a proteção de dados sensíveis não lê
dados transmitidos recentemente.
Se você quiser gerar automaticamente carimbos de data/hora de confirmação para uma coluna e usar a API de streaming legada para preencher sua tabela de entrada, faça o seguinte:
No esquema da tabela de entrada, verifique se a coluna de carimbo de data/hora é do tipo
TIMESTAMP
.Exemplo de esquema
O exemplo a seguir define o campo
commit_time_stamp
e o tipo dele comoTIMESTAMP
:... { "name": "commit_time_stamp", "type": "TIMESTAMP" } ...
No campo
rows[].json
do métodotabledata.insertAll
, verifique se os valores na coluna de carimbo de data/hora estão definidos comoAUTO
.Exemplo de JSON
O exemplo a seguir define o valor do campo
commit_time_stamp
comoAUTO
:{ ... "commit_time_stamp": "AUTO", ... }
Como limitar verificações definindo uma porcentagem ou linhas máximas
Quando você define um limite de amostragem com base em uma porcentagem do número total de linhas da
tabela
(rowsLimitPercent
),
a proteção de dados sensíveis pode inspecionar mais linhas do que o esperado. Se você precisar
colocar um limite rígido para o número de linhas a serem verificadas, recomendamos definir um número
máximo de linhas
(rowsLimit
).
Problemas de criação de perfil do BigQuery
Os problemas a seguir se aplicam apenas a operações de criação de perfil em dados do BigQuery. Para mais informações, consulte Perfis de dados para dados do BigQuery.
Organizações ou projetos com mais de 500 milhões de tabelas
A proteção de dados sensíveis retornará um erro se você tentar criar o perfil de uma organização ou projeto com mais de 500 milhões de tabelas. Se você encontrar esse erro, envie seu feedback por e-mail para cloud-dlp-feedback@google.com.
Se a contagem de tabelas da sua organização tiver mais de 500 milhões de tabelas e você tiver um projeto com uma contagem de tabelas menor, tente fazer uma verificação no nível do projeto.
Para saber mais sobre os limites da tabela e da coluna, consulte Limites da criação de perfil de dados.
Modelos de inspeção
O modelo de inspeção precisa estar na mesma
região que os dados para criação de perfil. Se você tiver dados em várias regiões, use vários modelos de inspeção, um para cada região em que você tiver dados.
Também é possível usar um modelo de inspeção armazenado na região global
.
Se você incluir um modelo na região global
, a proteção de dados sensíveis vai usá-lo
para todos os dados que não tenham um modelo específico da região. Para mais informações,
consulte Considerações sobre residência de dados.
InfoTypes armazenados
Um InfoType armazenado, também conhecido como um detector de dicionário personalizado armazenado, que é referenciado no seu modelo de inspeção, precisa ser armazenado em uma das seguintes opções:
- A região
global
. - Mesma região do modelo de inspeção.
Caso contrário, a operação de criação do perfil falhará com o erro Resource not found
.
VPC Service Controls
O uso desse recurso com zonas do VPC Service Controls não é oficialmente compatível. Se você tentar verificar dados dentro de uma zona do VPC Service Controls, informe quais problemas você enfrentou enviando um e-mail para cloud-dlp-feedback@google.com.
Verificação do Cloud Storage
Esta seção descreve os problemas que você pode encontrar ao inspecting ou desidentificar dados.
Inspeção de arquivos XLSX com detectores de dicionários personalizados grandes
Quando você usa um detector de dicionário personalizado grande (também conhecido como detector de dicionário personalizado armazenado) para inspecionar um arquivo .xlsx
do Microsoft Excel, o job de inspeção pode ser executado lentamente, parecer travado e gerar uma grande quantidade de operações de classe B do Cloud Storage.
Isso ocorre porque a proteção de dados sensíveis pode ler a lista de termos de origem do
dicionário personalizado grande uma vez para cada célula no arquivo .xlsx
. O volume de
operações de leitura pode fazer com que o job de inspeção de proteção de dados sensíveis mostre pouco
progresso e pareça estar travado.
Para mais informações sobre as cobranças de faturamento relevantes do Cloud Storage, consulte as cobranças para operações de Classe B em Cobranças de operação.
Arquivos estruturados que estão sendo verificados no modo binário
Em alguns casos, os arquivos que normalmente são verificados no modo de análise estruturada podem ser verificados no modo binário, o que não inclui as melhorias do modo de análise estruturada. Para mais informações, consulte Como verificar arquivos estruturados no modo de análise estruturada.
Análise inteligente de documentos
Esta seção contém problemas conhecidos relacionados à análise de documentos.
O objeto DocumentLocation
não foi preenchido
O campo location.content_locations.document_location.file_offset
não é preenchido para o modo de verificação de Análise inteligente de documentos.
Detecção
As palavras do dicionário que contêm caracteres do plano multilíngue complementar do padrão Unicode podem gerar descobertas inesperadas. Alguns exemplos desses caracteres são chinês, japonês, coreano e emojis.