O Cloud Data Loss Prevention (Cloud DLP) agora faz parte da Proteção de dados confidenciais. O nome da API continua o mesmo: API Cloud Data Loss Prevention (API DLP). Saiba mais sobre os serviços que fazem parte da Proteção de dados confidenciais.

Inspecionar o armazenamento e os bancos de dados do Google Cloud em busca de dados sensíveis

O gerenciamento adequado dos dados confidenciais armazenados em um repositório de armazenamento começa com a classificação de armazenamento. Isso significa identificar a localização dos dados confidenciais no repositório, o tipo dos dados confidenciais e como eles estão sendo usados. Esse conhecimento pode ajudar você a definir adequadamente o controle de acesso e as permissões de compartilhamento, além de fazer parte de um plano de monitoramento contínuo.

A proteção de dados confidenciais pode detectar e classificar dados confidenciais armazenados em um local do Cloud Storage, um tipo do Datastore ou uma tabela do BigQuery. Ao verificar arquivos em locais do Cloud Storage, a proteção de dados sensíveis aceita a verificação de arquivos binários, de texto, de imagem, do Microsoft Word, do Microsoft Excel, do Microsoft Powerpoint, do PDF e do Apache Avro. Os arquivos de tipos que não são reconhecidos são verificados como arquivos binários. Para mais informações sobre os tipos de arquivos compatíveis, consulte Tipos de arquivos compatíveis.

Para inspecionar dados sensíveis de armazenamento e bancos de dados, especifique o local e o tipo de dados sensíveis que a proteção de dados sensíveis precisa procurar. A proteção de dados sensíveis inicia um job que inspeciona os dados no local especificado e, em seguida, disponibiliza detalhes sobre os infoTypes encontrados no conteúdo, os valores de probabilidade e muito mais.

É possível configurar a inspeção de armazenamento e bancos de dados usando a proteção de dados sensíveis no console do Google Cloud, pela API RESTful DLP ou de maneira programática usando uma biblioteca de cliente de proteção de dados sensíveis em uma das várias linguagens.

Este tópico inclui:

Práticas recomendadas para configurar verificações de repositórios de armazenamento e bancos de dados do Google Cloud.
Instruções para configurar uma verificação de inspeção usando a proteção de dados sensíveis no console do Google Cloud e, opcionalmente, programar verificações periódicas de inspeção.
Amostras de código e JSON para cada tipo de repositório do Google Cloud Storage: Cloud Storage, Firestore no modo Datastore (Datastore) e BigQuery.
Uma visão geral detalhada das opções de configuração dos jobs de verificação.
Instruções sobre como recuperar os resultados da verificação e como gerenciar os jobs de verificação criados com base em cada solicitação bem-sucedida.

Práticas recomendadas

Como identificar e priorizar a verificação

É importante avaliar primeiro os recursos e especificar quais deles têm a maior prioridade de verificação. Ao começar, é possível ter um grande acúmulo de dados que precisam de classificação e será impossível verificá-los imediatamente. Escolha inicialmente os dados que representam o maior risco potencial, por exemplo, dados que são acessados com frequência, amplamente acessíveis ou desconhecidos.

Garanta que a proteção de dados sensíveis possa acessar seus dados

A proteção de dados sensíveis precisa acessar os dados a serem verificados. Verifique se a conta de serviço da proteção de dados sensíveis tem permissão para ler seus recursos.

Limite o escopo nas primeiras verificações

Para ter melhores resultados, limite o escopo dos seus primeiros jobs em vez de verificar todos os dados. Comece com uma tabela, um bucket ou alguns arquivos e use uma amostragem. Ao limitar o escopo das primeiras verificações, é possível determinar melhor quais detectores serão ativados e quais regras de exclusão podem ser necessárias para reduzir falsos positivos e tornar suas descobertas mais significativas. Evite ativar todos os infoTypes se você não precisar de todos eles, pois os falsos positivos ou as descobertas inúteis podem dificultar a avaliação do seu risco. Embora sejam úteis em determinados cenários, alguns infoTypes, como DATE, TIME, DOMAIN_NAME e URL, correspondem a uma ampla variedade de descobertas e podem não ser úteis para grandes verificações de dados.

Ao fazer a amostragem de um arquivo estruturado, como um arquivo CSV, TSV ou Avro, verifique se o tamanho da amostra é grande o suficiente para cobrir o cabeçalho completo do arquivo e uma linha de dados. Para mais informações, consulte Como verificar arquivos estruturados no modo de análise estruturada.

Programar as verificações

Use os acionadores de jobs da proteção de dados sensíveis para executar verificações automaticamente e gerar descobertas diárias, semanais ou trimestrais. Essas verificações também podem ser configuradas para inspecionar apenas os dados que foram alterados desde a última verificação, o que pode economizar tempo e reduzir custos. Executar verificações regularmente pode ajudar você a identificar tendências ou anomalias nos resultados da verificação.

Latência do job

Não há objetivos de nível de serviço (SLO) garantidos para jobs e acionadores de jobs. A latência é afetada por vários fatores, incluindo a quantidade de dados a serem verificados, o repositório de armazenamento que está sendo verificado, o tipo e o número de infoTypes que você está verificando, a região onde o job é processado e os recursos de computação disponíveis nessa região. Portanto, a latência dos jobs de inspeção não pode ser determinada com antecedência.

Para ajudar a reduzir a latência do job, tente o seguinte:

Ative a amostragem se estiver disponível para o job ou o acionador de jobs.
Evite ativar os infoTypes que não são necessários. Embora as opções a seguir sejam úteis em certos cenários, esses infoTypes podem fazer solicitações a serem executadas muito mais lentamente do que as solicitações que não os incluem:
- PERSON_NAME
- FEMALE_NAME
- MALE_NAME
- FIRST_NAME
- LAST_NAME
- DATE_OF_BIRTH
- LOCATION
- STREET_ADDRESS
- ORGANIZATION_NAME
Sempre especifique explicitamente os infoTypes. Não use uma lista de infoTypes vazias.
Se possível, use uma região de processamento diferente.

Se você ainda tiver problemas de latência com jobs depois de tentar essas técnicas, considere usar solicitações content.inspect ou content.deidentify em vez de jobs. Esses métodos são cobertos pelo contrato de nível de serviço. Para mais informações, consulte o Contrato de nível de serviço de proteção de dados sensíveis.

Antes de começar

As instruções fornecidas neste tópico pressupõem o seguinte:

Você ativou o faturamento.

Saiba como ativar o faturamento
Você ativou a proteção de dados sensíveis.

Ativar a proteção de dados sensíveis

A classificação de armazenamento requer o seguinte escopo OAuth: https://www.googleapis.com/auth/cloud-platform. Para mais informações, consulte Como autenticar na API DLP.

Inspecionar um local do Cloud Storage

É possível configurar uma inspeção de proteção de dados sensíveis de um local do Cloud Storage usando o console do Google Cloud, a API DLP com solicitações REST ou RPC ou de maneira programática em várias linguagens usando uma biblioteca de cliente. Para mais informações sobre os parâmetros incluídos nos exemplos JSON e de código a seguir, consulte "Configurar inspeção de armazenamento", mais adiante neste tópico.

A proteção de dados sensíveis depende de extensões de arquivo e tipos de mídia (MIME) para identificar os tipos de arquivos que vão ser verificados e os modos de verificação que serão aplicados. Por exemplo, a proteção de dados sensíveis verifica um arquivo .txt no modo de texto simples, mesmo que ele esteja estruturado como um arquivo CSV, que normalmente é verificado no modo de análise estruturada.

Para configurar um job de verificação de um bucket do Cloud Storage usando a proteção de dados confidenciais, faça o seguinte:

Console

Nesta seção, descrevemos como inspecionar um bucket ou uma pasta do Cloud Storage. Se você também quiser que a proteção de dados sensíveis crie uma cópia desidentificada dos dados, consulte Desidentificar dados confidenciais armazenados no Cloud Storage usando o console do Google Cloud.

Na seção "Proteção de dados sensíveis" do Console do Google Cloud, acesse a página Criar job ou gatilho de jobs.

Acessar "Criar job ou gatilho de jobs"

Observação :também é possível iniciar uma verificação de proteção de dados sensíveis diretamente do navegador do Cloud Storage. Na coluna mais à direita do bucket que você quer verificar, clique no menu mais ações (exibido como três pontos organizados verticalmente) e, em seguida, clique em Verificar com proteção de dados sensíveis. A página de criação de jobs de proteção de dados sensíveis é aberta em uma guia separada.
Insira as informações do job de proteção de dados sensíveis e clique em Continuar para concluir cada etapa:
- Na Etapa 1: escolher dados de entrada, nomeie o job digitando um valor no campo Nome. Em Local, escolha o Cloud Storage no menu Tipo de armazenamento e insira o local dos dados a serem verificados. A seção Amostragem é pré-configurada para executar uma verificação de amostra com base nos seus dados. Você pode ajustar o campo Porcentagem de objetos verificados dentro do bucket para salvar recursos se você tiver uma grande quantidade de dados. Para mais detalhes, consulte Escolher dados de entrada.
- (Opcional) Na Etapa 2: configurar a detecção, é possível configurar os tipos de dados a serem procurados, chamados "infoTypes". Selecione na lista de infoTypes predefinidos ou selecione um modelo, se houver. Para mais detalhes, consulte Configurar a detecção.
- (Opcional) Na Etapa 3: adicionar ações, certifique-se de que a opção Notificar por e-mail esteja ativada.
  
  Ative Salvar no BigQuery para publicar suas descobertas de proteção de dados sensíveis em uma tabela do BigQuery. Preencha o seguinte:
  - Em ID do projeto, digite o ID do projeto em que seus resultados são armazenados.
  - Em ID do conjunto de dados, digite o nome do conjunto de dados que armazena os resultados.
  - (Opcional) Em ID da tabela, digite o nome da tabela que armazena seus resultados. Se nenhum ID de tabela for especificado, um nome padrão será atribuído a uma nova tabela semelhante ao seguinte: dlp_googleapis_[DATE]_1234567890, em que [DATE] representa a data em que a verificação é executada. Se você especificar uma tabela existente, as descobertas serão anexadas a ela.
  - (Opcional) Ative Incluir citação para incluir as strings que correspondem a um detector de infoType. As citações podem ser confidenciais. Portanto, por padrão, a proteção de dados sensíveis não as inclui nas descobertas.
  Quando os dados são gravados em uma tabela do BigQuery, o faturamento e o uso de cota são aplicados ao projeto que contém a tabela de destino.
  
  Se quiser criar uma cópia desidentificada dos seus dados, ative a opção Fazer uma cópia desidentificada. Para mais informações, consulte Desidentificar dados confidenciais armazenados no Cloud Storage usando o console do Google Cloud.
  
  Também é possível salvar os resultados no Pub/Sub, no Security Command Center, no Data Catalog e no Cloud Monitoring. Para mais detalhes, consulte Adicionar ações.
- (Opcional) Na Etapa 4: programar, para executar a verificação apenas uma vez, deixe o menu definido como Nenhum. Para programar a execução periódica das verificações, clique em Criar um gatilho para executar o job periodicamente. Para mais detalhes, consulte Programar.
Clique em Criar.
Depois que o job de proteção de dados sensíveis for concluído, você será redirecionado para a página de detalhes do job e notificado por e-mail. É possível ver os resultados da inspeção na página de detalhes do job.
(Opcional) Se você optou por publicar descobertas de proteção de dados confidenciais no BigQuery, na página Detalhes do job, clique em Visualizar descobertas no BigQuery para abrir a tabela na UI da Web do BigQuery. Em seguida, é possível consultar a tabela e analisar suas descobertas. Para mais informações sobre como consultar seus resultados no BigQuery, confira Como consultar descobertas de proteção de dados confidenciais no BigQuery.

Protocolo

Veja a seguir o JSON de exemplo que pode ser enviado em uma solicitação POST para o endpoint REST de proteção de dados sensíveis especificado. Este exemplo demonstra como usar a API DLP para inspecionar os buckets do Cloud Storage. Para mais informações sobre os parâmetros incluídos na solicitação, consulte "Configurar inspeção de armazenamento", mais adiante neste tópico.

É possível testar isso rapidamente na APIs Explorer na página de referência para content.inspect:

Acessar as APIs Explorer

Lembre-se de que uma solicitação bem-sucedida, mesmo nas APIs Explorer, criará um novo job de verificação. Para informações sobre como controlar jobs de verificação, consulte "Recuperar os resultados da inspeção", mais adiante neste tópico. Para informações gerais sobre como usar o JSON para enviar solicitações à API DLP, consulte o guia de início rápido do JSON.

Entrada JSON:

POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/dlpJobs?key={YOUR_API_KEY}

{
  "inspectJob":{
    "storageConfig":{
      "cloudStorageOptions":{
        "fileSet":{
          "url":"gs://[BUCKET-NAME]/*"
        },
        "bytesLimitPerFile":"1073741824"
      },
      "timespanConfig":{
        "startTime":"2017-11-13T12:34:29.965633345Z",
        "endTime":"2018-01-05T04:45:04.240912125Z"
      }
    },
    "inspectConfig":{
      "infoTypes":[
        {
          "name":"PHONE_NUMBER"
        }
      ],
      "excludeInfoTypes":false,
      "includeQuote":true,
      "minLikelihood":"LIKELY"
    },
    "actions":[
      {
        "saveFindings":{
          "outputConfig":{
            "table":{
              "projectId":"[PROJECT-ID]",
              "datasetId":"[DATASET-ID]"
            }
          }
        }
      }
    ]
  }
}

Saída JSON:

{
  "name":"projects/[PROJECT-ID]/dlpJobs/[JOB-ID]",
  "type":"INSPECT_JOB",
  "state":"PENDING",
  "inspectDetails":{
    "requestedOptions":{
      "snapshotInspectTemplate":{

      },
      "jobConfig":{
        "storageConfig":{
          "cloudStorageOptions":{
            "fileSet":{
              "url":"gs://[BUCKET-NAME]/*"
            },
            "bytesLimitPerFile":"1073741824"
          },
          "timespanConfig":{
            "startTime":"2017-11-13T12:34:29.965633345Z",
            "endTime":"2018-01-05T04:45:04.240912125Z"
          }
        },
        "inspectConfig":{
          "infoTypes":[
            {
              "name":"PHONE_NUMBER"
            }
          ],
          "minLikelihood":"LIKELY",
          "limits":{

          },
          "includeQuote":true
        },
        "actions":[
          {
            "saveFindings":{
              "outputConfig":{
                "table":{
                  "projectId":"[PROJECT-ID]",
                  "datasetId":"[DATASET-ID]",
                  "tableId":"[NEW-TABLE-ID]"
                }
              }
            }
          }
        ]
      }
    }
  },
  "createTime":"2018-11-07T18:01:14.225Z"
}

Java

Para saber como instalar e usar a biblioteca de cliente para proteção de dados sensíveis, consulte Bibliotecas de cliente de proteção de dados sensíveis.

Para usar a proteção de dados sensíveis, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

Inspecionar o armazenamento e os bancos de dados do Google Cloud em busca de dados sensíveis

Práticas recomendadas

Como identificar e priorizar a verificação

Garanta que a proteção de dados sensíveis possa acessar seus dados

Limite o escopo nas primeiras verificações

Programar as verificações

Latência do job

Antes de começar

Inspecionar um local do Cloud Storage

Console

Protocolo

Java

Node.js

Python

Go

PHP

C#

Inspecionar um tipo do Datastore

Console

Protocolo

Java

Node.js

Python

Go

PHP

C#

Inspecionar uma tabela do BigQuery

Console

Protocolo

Java

Node.js

Python

Go

PHP

C#

Configurar a inspeção de armazenamento

Limitar a quantidade de conteúdo inspecionado

Limitar verificações do Cloud Storage

C#

Go

Java

Node.js

PHP

Python

REST

Limitar as verificações do BigQuery

Go

Java

Node.js

PHP

Python

C#

REST

Recuperar os resultados da inspeção

Próximas etapas