Este guia mostra como usar a Proteção de dados sensíveis para inspecionar uma tabela do BigQuery e enviar os resultados da inspeção ao Data Catalog.
Além disso, é possível realizar a criação de perfil de dados, que é diferente de uma operação de inspeção. Também é possível enviar perfis de dados para o Dataplex. Para mais informações, consulte Marcar tabelas no Dataplex com base em insights de perfis de dados.
O Data Catalog é um serviço de gerenciamento de metadados escalonável que permite descobrir, gerenciar e entender rapidamente todos os seus dados no Google Cloud.
A Proteção de Dados Sensíveis tem integração integrada com o Data Catalog. Quando você usa uma ação da Proteção de dados confidenciais para inspecionar as tabelas do BigQuery em busca de dados sensíveis, ela pode enviar resultados diretamente ao Data Catalog na forma de um modelo de tag.
Ao concluir as etapas deste guia, você será capaz de:
- Ative o Data Catalog e a proteção de dados sensíveis.
- Configure a Proteção de dados sensíveis para inspecionar uma tabela do BigQuery.
- Configure uma inspeção de proteção de dados sensíveis para enviar os resultados da inspeção ao Data Catalog.
Para mais informações sobre o Data Catalog, consulte a documentação do Data Catalog.
Se você quiser enviar os resultados das operações de criação de perfil de dados, e não os trabalhos de inspeção, para o Dataplex, consulte a documentação sobre criação de perfil de uma organização, pasta ou projeto.
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
- Sensitive Data Protection
- BigQuery
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Antes de começar
Antes de enviar os resultados da inspeção da Proteção de dados sensíveis para o Data Catalog, faça o seguinte:
- Etapa 1: configurar o faturamento.
- Etapa 2: criar um novo projeto e preencher uma nova tabela do BigQuery. Opcional.
- Etapa 3: ativar o Data Catalog.
- Etapa 4: ativar a proteção de dados sensíveis.
As subseções a seguir abrangem cada etapa em detalhes.
Etapa 1: configurar o faturamento
Primeiro, você precisa configurar uma conta de faturamento se ainda não tiver uma.
Saiba como ativar o faturamento
Etapa 2: criar um novo projeto e preencher uma nova tabela do BigQuery (opcional)
Se você estiver configurando esse recurso para o trabalho de produção ou já tiver uma tabela do BigQuery que queira inspecionar, abra o projeto do Google Cloud que contém a tabela e pule para a Etapa 3.
Se você estiver testando esse recurso e quiser inspecionar dados de teste, crie um novo projeto. Para concluir essa etapa, você precisa ter o papel de Criador de projetos do IAM. Saiba mais sobre papéis do IAM.
- Acesse a página Novo projeto no console do Google Cloud.
- Na lista suspensa Conta de faturamento, selecione a conta de faturamento em que o projeto será cobrado.
- Na lista suspensa Organização, selecione a organização em que você quer criar o projeto.
- Na lista suspensa Local, selecione a organização ou a pasta em que você quer criar o projeto.
- Clique em Criar para criar o projeto.
Em seguida, faça o download dos dados de amostra e armazene-os:
- Acesse o repositório de tutoriais do Cloud Run functions no GitHub.
- Selecione um dos arquivos CSV com dados de exemplo e faça o download do arquivo.
- Em seguida, acesse o BigQuery no console do Google Cloud.
- Selecione o projeto.
- Clique em Criar conjunto de dados.
- Clique em Criar tabela.
- Clique em Fazer upload e selecione o arquivo que quer enviar.
- Dê um nome à tabela e clique em Criar tabela.
Etapa 3: ativar o Data Catalog
Em seguida, ative o Data Catalog para o projeto que contém a tabela do BigQuery que você quer inspecionar usando a Proteção de dados sensíveis.
Para ativar o Data Catalog usando o console do Google Cloud:
- Registre seu aplicativo no Data Catalog.
- Na página de registro, na lista suspensa Criar um projeto, selecione o projeto que você quer usar com o Data Catalog.
- Depois de selecionar o projeto, clique em Continuar.
Agora, o Data Catalog está ativado para seu projeto.
Etapa 4: ativar a proteção de dados sensíveis
Ative a proteção de dados sensíveis para o mesmo projeto em que você ativou o Data Catalog.
Para ativar a proteção de dados sensíveis usando o console do Google Cloud:
- Registre seu aplicativo para a Proteção de Dados Sensíveis.
- Na página de registro, na lista suspensa Criar um projeto, selecione o mesmo projeto escolhido na etapa anterior.
- Depois de selecionar o projeto, clique em Continuar.
A Proteção de Dados Sensíveis está ativada para seu projeto.
Configurar e executar um job de inspeção de proteção de dados sensíveis
É possível configurar e executar um job de inspeção de proteção de dados sensíveis usando o console do Google Cloud ou a API DLP.
Os modelos de tag do Data Catalog são armazenados no mesmo projeto e na mesma região que a tabela do BigQuery. Se você estiver inspecionando uma tabela de
outro projeto, conceda o papel de proprietário do modelo de tag do Data Catalog
(roles/datacatalog.tagTemplateOwner
) ao agente de serviço da proteção de dados confidenciais no projeto em que a
tabela do BigQuery existe.
Console do Google Cloud
Para configurar um job de inspeção de uma tabela do BigQuery usando a Proteção de dados confidenciais:
Na seção "Proteção de dados sensíveis" do console do Google Cloud, acesse a página Criar job ou gatilho de job.
Insira as informações de job da Proteção de dados sensíveis e clique em Continuar para concluir cada etapa:
Na Etapa 1: escolher dados de entrada, nomeie o job digitando um valor no campo Nome. Em Local, escolha BigQuery no menu Tipo de armazenamento e insira as informações da tabela a ser inspecionada. A seção Amostragem é pré-configurada para executar uma inspeção de amostra com base nos seus dados. É possível ajustar os campos Limitar linhas por e Número máximo de linhas para economizar recursos se tiver uma grande quantidade de dados. Para mais detalhes, consulte Escolher dados de entrada.
(Opcional) Na Etapa 2: configurar a detecção, você configura os tipos de dados a serem procurados, chamados "infoTypes". Para este tutorial, mantenha os infoTypes padrão selecionados. Para mais detalhes, consulte Configurar a detecção.
Para a Etapa 3: adicionar ações, ative Salvar no Data Catalog.
(Opcional) Na Etapa 4: programar, para os fins deste tutorial, deixe o menu definido como Nenhum para que a inspeção seja executada apenas uma vez. Para saber mais sobre como programar trabalhos de inspeção repetidos, consulte Programar.
Clique em Criar. O job é executado imediatamente.
API DLP
Nesta seção, você configura e executa um job de inspeção de proteção de dados sensíveis.
O job de inspeção configurado aqui instrui a Proteção de dados sensíveis a verificar os dados de amostra do BigQuery descritos na Etapa 2 acima ou seus próprios dados do BigQuery. Na configuração do job especificada, você também instrui a Proteção de dados sensíveis a salvar os resultados da inspeção no Data Catalog.
Etapa 1: anotar o identificador de projeto
Acesse o Console do Google Cloud.
Clique em Selecionar.
Na lista suspensa Selecionar de, selecione a organização para a qual você ativou o Data Catalog.
Em ID, copie o ID do projeto que contém os dados que você quer inspecionar. Este é o projeto descrito na etapa Definir repositórios de armazenamento anteriormente nesta página.
Em Nome, clique no projeto para selecioná-lo.
Etapa 2: abrir as APIs Explorer e configurar o job
Acesse as APIs Explorer na página de referência do método
dlpJobs.create
. Para manter essas instruções disponíveis, clique com o botão direito do mouse no link a seguir e abra-o em uma nova guia ou janela:Na caixa pai, digite o código a seguir, em que project-id é o ID do projeto que você anotou na etapa anterior:
projects/project-id
Em seguida, copie o JSON a seguir. Selecione o conteúdo do campo Corpo da solicitação nas APIs Explorer e cole o JSON para substituir o conteúdo. Substitua os marcadores
project-id
,bigquery-dataset-name
ebigquery-table-name
pelo ID do projeto real e pelos nomes do conjunto de dados e da tabela do BigQuery, respectivamente.{ "inspectJob": { "storageConfig": { "bigQueryOptions": { "tableReference": { "projectId": "project-id", "datasetId": "bigquery-dataset-name", "tableId": "bigquery-table-name" } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" }, { "name": "PERSON_NAME" }, { "name": "US_SOCIAL_SECURITY_NUMBER" }, { "name": "PHONE_NUMBER" } ], "includeQuote": true, "minLikelihood": "UNLIKELY", "limits": { "maxFindingsPerRequest": 100 } }, "actions": [ { "publishFindingsToCloudDataCatalog": {} } ] } }
Para saber mais sobre as opções de inspeção disponíveis, consulte Como inspecionar dados confidenciais em armazenamento e bancos de dados. Para conferir uma lista completa de tipos de informações que a Proteção de dados confidenciais pode inspecionar, consulte a referência de InfoTypes.
Etapa 3: executar a solicitação para iniciar o job de inspeção
Depois de configurar o job seguindo as etapas anteriores, clique em Executar para enviar a solicitação. Se a solicitação for bem-sucedida, uma resposta vai aparecer com um código de sucesso e um objeto JSON que indica o status do job de proteção de dados sensíveis que você acabou de criar.
A resposta à solicitação de inspeção inclui o ID do job de inspeção
como a chave "name"
e o estado atual do job de inspeção como
a chave "state"
. Como você acabou de enviar a solicitação, o estado do job nesse momento é "PENDING"
.
Verificar o status do job de inspeção de proteção de dados sensíveis
Depois que você envia a solicitação de inspeção, o job de inspeção começa imediatamente.
Console do Google Cloud
Para verificar o status do job de inspeção:
No console do Google Cloud, abra a Proteção de dados sensíveis.
Clique na guia Jobs e gatilhos de jobs e, em seguida, clique em Todos os jobs.
O job que você acabou de executar provavelmente estará no topo da lista. Verifique a coluna Estado para garantir que o status seja Concluído.
Clique no ID do job para ver os resultados. Cada detector de infoType listado na página "Detalhes do job" é seguido pelo número de correspondências encontradas no conteúdo.
API DLP
Para verificar o status do job de inspeção:
Acesse as APIs Explorer na página de referência do método
dlpJobs.get
clicando no botão a seguir:Na caixa nome, digite o nome do job no JSON de resposta para a solicitação de inspeção no seguinte formato:
O ID do job está na forma deprojects/project-id/dlpJobs/job-id
i-1234567890123456789
.Para enviar a solicitação, clique em Executar.
Se a chave "state"
do objeto JSON de resposta indicar que o job é "DONE"
,
o job de inspeção foi concluído.
Para ver o restante do JSON de resposta, role a página para baixo. Em "result"
> "infoTypeStats"
, cada tipo de informação listado precisa ter um "count"
correspondente. Caso contrário, verifique se você digitou o JSON com precisão e se o caminho ou o local dos dados está correto.
Após a conclusão do job de inspeção, é possível passar para a próxima seção deste guia para conferir os resultados da inspeção no Security Command Center.
Conferir os resultados da inspeção de proteção de dados sensíveis no Data Catalog
Como você instruiu a Proteção de dados sensíveis a enviar os resultados do job de inspeção ao Data Catalog, agora é possível conferir as tags e o modelo de tag criados automaticamente na interface do Data Catalog:
- Acesse a página Data Catalog no console do Google Cloud.
- Pesquise a tabela que você inspecionou.
- Clique nos resultados que correspondem à tabela para ver os metadados da tabela.
A captura de tela a seguir mostra a visualização de metadados do Data Catalog de uma tabela de exemplo:
Resumo da inspeção
As descobertas da proteção de dados sensíveis são incluídas no formulário de resumo da tabela que você inspecionou. Nesse resumo, incluímos contagens totais de infoType, bem como dados de resumo sobre o job de inspeção que inclui datas e o ID de recurso do job.
Qualquer infoTypes
que foi inspecionado está listado. Aquele com descobertas mostra uma contagem maior que zero.
Como limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tópico, siga um destes procedimentos, dependendo se você usou dados de amostra ou seus próprios dados:
- Dados de amostra: exclua o projeto que você criou.
- Seus próprios dados: exclua o job de proteção de dados sensíveis que você criou.
Excluir o projeto
A maneira mais fácil de eliminar o faturamento é excluir o projeto que você criou seguindo as instruções fornecidas neste tópico.
Para excluir o projeto:
- No console do Google Cloud, acesse a página "Projetos".
- Na lista de projetos, selecione aquele que você quer excluir e clique em Excluir projeto.
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Quando você exclui seu projeto usando esse método, o job de proteção de dados sensíveis e o bucket do Cloud Storage que você criou também são excluídos. Não é necessário seguir as instruções exibidas nas próximas seções.
Como excluir o job ou o gatilho de job da Proteção de dados sensíveis
Se você verificou seus próprios dados, exclua o job de inspeção ou o gatilho de job que acabou de criar.
Console do Google Cloud
No console do Google Cloud, abra a Proteção de dados sensíveis.
Clique na guia Jobs e gatilhos de jobs e, em seguida, na guia Gatilhos de jobs.
Na coluna Ações do gatilho de job que você quer excluir, clique no menu Mais ações (exibido como três pontos organizados verticalmente)
e clique em Excluir.
Como alternativa, também é possível excluir os detalhes do job que você executou. Clique na guia Todas as tarefas e, na coluna Ações do job que você quer excluir, clique no menu Mais ações (exibido como três pontos organizados verticalmente)
e, em seguida, Excluir.API DLP
Acesse as APIs Explorer na página de referência do método
dlpJobs.delete
clicando no botão a seguir:Na caixa nome, digite o nome do job no JSON de resposta para a solicitação de inspeção, que tem o seguinte formato:
O ID do job está na forma deprojects/project-id/dlpJobs/job-id
i-1234567890123456789
.
Se você criou outros jobs de inspeção ou quiser ter certeza de que excluiu o job, liste todos os jobs atuais:
Acesse as APIs Explorer na página de referência do método
dlpJobs.list
clicando no botão a seguir:Na caixa pai, digite o identificador do projeto no seguinte formato, em que project-id é o identificador do projeto:
projects/project-id
Clique em Execute.
Se não houver jobs listados na resposta, significa que você excluiu todos eles. Se os jobs estiverem listados na resposta, repita o procedimento de exclusão acima para esses jobs.
A seguir
- Saiba mais sobre a ação
publishFindingsToCloudDataCatalog
na Proteção de Dados Sensíveis. - Saiba mais sobre como criar tags personalizadas ou no nível da coluna no Data Catalog com base nos resultados da proteção de dados sensíveis.
- Saiba mais sobre como inspecionar repositórios de armazenamento para dados confidenciais usando a Proteção de dados sensíveis.
- Saiba como usar o Data Catalog.