Neste guia, mostramos como usar a proteção de dados sensíveis para inspecionar uma tabela do BigQuery e enviar os resultados da inspeção ao Data Catalog.
Também é possível executar a criação de perfil de dados, que é diferente de uma operação de inspeção. Você também pode enviar perfis de dados para o Dataplex. Para mais informações, consulte Tabelas de tags no Dataplex com base em insights de perfis de dados.
O Data Catalog é um serviço de gerenciamento de metadados escalonável que permite descobrir, gerenciar e entender rapidamente todos os seus dados no Google Cloud.
A proteção de dados sensíveis tem integração integrada com o Data Catalog. Quando você usa uma ação de proteção de dados confidenciais para inspecionar dados confidenciais nas tabelas do BigQuery, ela pode enviar resultados diretamente para o Data Catalog na forma de um modelo de tag.
Ao concluir as etapas deste guia, você será capaz de:
- Ative o Data Catalog e a proteção de dados sensíveis.
- Configure a proteção de dados sensíveis para inspecionar uma tabela do BigQuery.
- Configure uma inspeção de proteção de dados sensíveis para enviar os resultados da inspeção ao Data Catalog.
Para mais informações sobre o Data Catalog, consulte a documentação do Data Catalog.
Se você quiser enviar os resultados das operações de criação de perfil de dados, e não jobs de inspeção, para o Dataplex, consulte a documentação sobre como criar um perfil de organização, pasta ou projeto.
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
- Proteção de dados sensíveis
- BigQuery
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Antes de começar
Antes de enviar os resultados da inspeção de proteção de dados sensíveis ao Data Catalog, faça o seguinte:
- Etapa 1: configurar o faturamento.
- Etapa 2: criar um novo projeto e preencher uma nova tabela do BigQuery. Opcional.
- Etapa 3: ativar o Data Catalog.
- Etapa 4: ative a proteção de dados sensíveis
As subseções a seguir abrangem cada etapa em detalhes.
Etapa 1: configurar o faturamento
Primeiro, você precisa configurar uma conta de faturamento, caso ainda não tenha uma.
Saiba como ativar o faturamento
Etapa 2: criar um novo projeto e preencher uma nova tabela do BigQuery (opcional)
Se você estiver configurando esse recurso para trabalho de produção ou já tiver uma tabela do BigQuery que quer inspecionar, abra o projeto do Google Cloud que contém a tabela e pule para a Etapa 3.
Se você estiver testando esse recurso e quiser inspecionar os dados do teste, crie um novo projeto. Para concluir essa etapa, você precisa ter o papel de Criador de projetos do IAM. Saiba mais sobre papéis do IAM.
- Acesse a página Novo projeto no console do Google Cloud.
- Na lista suspensa Conta de faturamento, selecione a conta de faturamento em que o projeto será cobrado.
- Na lista suspensa Organização, selecione a organização em que você quer criar o projeto.
- Na lista suspensa Local, selecione a organização ou a pasta em que você quer criar o projeto.
- Clique em Criar para criar o projeto.
Em seguida, faça o download dos dados de amostra e armazene-os:
- Acesse o repositório de tutoriais do Cloud Functions no GitHub.
- Selecione um dos arquivos CSV com dados de exemplo e faça o download do arquivo.
- Em seguida, acesse o BigQuery no console do Google Cloud.
- Selecione o projeto.
- Clique em Criar conjunto de dados.
- Clique em Criar tabela.
- Clique em Fazer upload e selecione o arquivo que quer enviar.
- Dê um nome à tabela e clique em Criar tabela.
Etapa 3: ativar o Data Catalog
Em seguida, ative o Data Catalog para o projeto que contém a tabela do BigQuery que você quer inspecionar usando a proteção de dados sensíveis.
Para ativar o Data Catalog usando o console do Google Cloud:
- Registre seu aplicativo no Data Catalog.
- Na página de registro, na lista suspensa Criar um projeto, selecione o projeto que você quer usar com o Data Catalog.
- Depois de selecionar o projeto, clique em Continuar.
Agora, o Data Catalog está ativado para seu projeto.
Etapa 4: ativar a proteção de dados sensíveis
Ative a proteção de dados sensíveis para o mesmo projeto em que você ativou o Data Catalog.
Para ativar a proteção de dados sensíveis usando o console do Google Cloud:
- Registre seu aplicativo na proteção de dados sensíveis.
- Na página de registro, na lista suspensa Criar um projeto, selecione o mesmo projeto escolhido na etapa anterior.
- Depois de selecionar o projeto, clique em Continuar.
A proteção de dados sensíveis agora está ativada no seu projeto.
Configure e execute um job de inspeção de proteção de dados sensíveis
É possível configurar e executar um job de inspeção de proteção de dados sensíveis usando o console do Google Cloud ou a API DLP.
Os modelos de tag do Data Catalog são armazenados no mesmo projeto e região que a tabela do BigQuery. Se você estiver inspecionando uma tabela de outro projeto, conceda o papel de proprietário de TagTemplate do Data Catalog (roles/datacatalog.tagTemplateOwner
) ao agente de serviço de proteção de dados confidenciais no projeto em que a tabela do BigQuery existe.
Console do Google Cloud
Para configurar um job de inspeção de uma tabela do BigQuery usando a proteção de dados confidenciais, faça o seguinte:
Na seção "Proteção de dados sensíveis" do console do Google Cloud, acesse a página Criar job ou gatilho de jobs.
Insira as informações do job de proteção de dados sensíveis e clique em Continuar para concluir cada etapa:
Na Etapa 1: escolher dados de entrada, nomeie o job digitando um valor no campo Nome. Em Local, escolha BigQuery no menu Tipo de armazenamento e insira as informações da tabela a ser inspecionada. A seção Amostragem é pré-configurada para executar uma inspeção de amostra nos seus dados. É possível ajustar os campos Limitar linhas por e Número máximo de linhas para economizar recursos se tiver uma grande quantidade de dados. Para mais detalhes, consulte Escolher dados de entrada.
(Opcional) Na Etapa 2: configurar a detecção, você configura os tipos de dados a serem procurados, chamados "infoTypes". Para este tutorial, mantenha os infoTypes padrão selecionados. Para mais detalhes, consulte Configurar a detecção.
Para a Etapa 3: adicionar ações, ative Salvar no Data Catalog.
(Opcional) Na Etapa 4: programar, para este tutorial, deixe o menu definido como None para que a inspeção seja executada apenas uma vez. Para saber mais sobre como agendar jobs de inspeção repetidos, consulte Programar.
Clique em Criar. O job é executado imediatamente.
API DLP
Nesta seção, você vai configurar e executar um job de inspeção de proteção de dados sensíveis.
O job de inspeção configurado aqui instrui a proteção de dados sensíveis a inspecionar os dados de amostra do BigQuery descritos na Etapa 2 acima ou seus próprios dados do BigQuery. A configuração do job especificada também é onde você instrui a proteção de dados sensíveis a salvar os resultados de inspeção no Data Catalog.
Etapa 1: anotar o identificador de projeto
Acesse o Console do Google Cloud.
Clique em Selecionar.
Na lista suspensa Selecionar de, selecione a organização para a qual você ativou o Data Catalog.
Em ID, copie o ID do projeto que contém os dados que você quer inspecionar. Este é o projeto descrito na etapa Definir repositórios de armazenamento anteriormente nesta página.
Em Nome, clique no projeto para selecioná-lo.
Etapa 2: abrir as APIs Explorer e configurar o job
Acesse as APIs Explorer na página de referência do método
dlpJobs.create
. Para manter essas instruções disponíveis, clique com o botão direito do mouse no link a seguir e abra-o em uma nova guia ou janela:Na caixa parent, digite o seguinte, em que project-id é o ID do projeto que você anotou na etapa anterior:
projects/project-id
Em seguida, copie o JSON a seguir. Selecione o conteúdo do campo Corpo da solicitação nas APIs Explorer e cole o JSON para substituir o conteúdo. Substitua os marcadores
project-id
,bigquery-dataset-name
ebigquery-table-name
pelo ID do projeto real e pelos nomes do conjunto de dados e da tabela do BigQuery, respectivamente.{ "inspectJob": { "storageConfig": { "bigQueryOptions": { "tableReference": { "projectId": "project-id", "datasetId": "bigquery-dataset-name", "tableId": "bigquery-table-name" } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" }, { "name": "PERSON_NAME" }, { "name": "US_SOCIAL_SECURITY_NUMBER" }, { "name": "PHONE_NUMBER" } ], "includeQuote": true, "minLikelihood": "UNLIKELY", "limits": { "maxFindingsPerRequest": 100 } }, "actions": [ { "publishFindingsToCloudDataCatalog": {} } ] } }
Para saber mais sobre as opções de inspeção disponíveis, consulte Como inspecionar dados confidenciais em armazenamento e bancos de dados. Para ver uma lista completa de tipos de informações que a proteção de dados sensíveis pode inspecionar, consulte a Referência dos InfoTypes.
Etapa 3: executar a solicitação para iniciar o job de inspeção
Depois de configurar o job seguindo as etapas anteriores, clique em Executar para enviar a solicitação. Se a solicitação for bem-sucedida, uma resposta será exibida com um código de sucesso e um objeto JSON que indica o status do job de proteção de dados sensíveis que você acabou de criar.
A resposta à solicitação de inspeção inclui o ID do job de inspeção
como a chave "name"
e o estado atual dele como
a chave "state"
. Como você acabou de enviar a solicitação, o estado do job nesse momento é "PENDING"
.
Verificar o status do job de inspeção de proteção de dados sensíveis
Depois que você envia a solicitação de inspeção, o job de inspeção começa imediatamente.
Console do Google Cloud
Para verificar o status do job de inspeção:
No console do Google Cloud, abra a proteção de dados sensíveis.
Clique na guia Jobs e gatilhos de jobs e, em seguida, clique em Todos os jobs.
O job que você acabou de executar provavelmente estará no topo da lista. Verifique a coluna Estado para garantir que o status seja Concluído.
Clique no ID do job para ver os resultados. Cada detector de infoType listado na página "Detalhes do job" é seguido pelo número de correspondências encontradas no conteúdo.
API DLP
Para verificar o status do job de inspeção:
Acesse as APIs Explorer na página de referência do método
dlpJobs.get
clicando no botão a seguir:Na caixa name, digite o nome do job na resposta JSON à solicitação de inspeção no seguinte formato:
O ID do job está na forma deprojects/project-id/dlpJobs/job-id
i-1234567890123456789
.Para enviar a solicitação, clique em Executar.
Se a chave "state"
do objeto JSON de resposta indicar que o job é "DONE"
,
o job de inspeção foi concluído.
Para ver o restante do JSON de resposta, role a página para baixo. Em "result"
> "infoTypeStats"
, cada tipo de informação listado precisa ter um "count"
correspondente. Caso contrário, verifique se você digitou o JSON com precisão e se o caminho ou o local dos dados está correto.
Depois que o job de inspeção for concluído, prossiga para a próxima seção deste guia para ver os resultados da inspeção no Security Command Center.
Confira os resultados da inspeção de proteção de dados sensíveis no Data Catalog
Como você instruiu a proteção de dados sensíveis a enviar os resultados do job de inspeção para o Data Catalog, agora é possível ver as tags e o modelo de tag criados automaticamente na interface do Data Catalog:
- Acesse a página "Data Catalog" no console do Google Cloud.
- Pesquise a tabela que você inspecionou.
- Clique nos resultados que correspondem à tabela para ver os metadados da tabela.
A captura de tela a seguir mostra a visualização de metadados do Data Catalog de uma tabela de exemplo:
Resumo da inspeção
As descobertas da proteção de dados sensíveis são incluídas no formulário de resumo da tabela que você inspecionou. Nesse resumo, incluímos contagens totais de infoType, bem como dados de resumo sobre o job de inspeção que inclui datas e o ID de recurso do job.
Qualquer infoTypes
que foi inspecionado está listado. Aquele com descobertas mostra uma contagem maior que zero.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tópico, siga um destes procedimentos, dependendo se você usou dados de amostra ou seus próprios dados:
- Dados de amostra: exclua o projeto que você criou.
- Seus próprios dados: exclua o job de proteção de dados sensíveis que você criou.
Excluir o projeto
A maneira mais fácil de eliminar o faturamento é excluir o projeto que você criou seguindo as instruções fornecidas neste tópico.
Para excluir o projeto:
- No console do Google Cloud, acesse a página "Projetos".
- Na lista de projetos, selecione aquele que você quer excluir e clique em Excluir projeto.
- Na caixa de diálogo, digite o código do projeto e clique em Encerrar para excluí-lo.
Quando você exclui seu projeto usando esse método, o job de proteção de dados sensíveis e o bucket do Cloud Storage que você criou também são excluídos e pronto. Não é necessário seguir as instruções exibidas nas próximas seções.
Excluir o job de proteção de dados sensíveis ou o acionador de jobs
Se você inspecionou seus próprios dados, exclua o job de inspeção ou o acionador de job que acabou de criar.
Console do Google Cloud
No console do Google Cloud, abra a proteção de dados sensíveis.
Clique na guia Jobs e gatilhos de jobs e, em seguida, na guia Gatilhos de jobs.
Na coluna Ações do gatilho de job que você quer excluir, clique no menu Mais ações (exibido como três pontos organizados verticalmente)
e clique em Excluir.
Como alternativa, também é possível excluir os detalhes do job que você executou. Clique na guia Todas as tarefas e, na coluna Ações do job que você quer excluir, clique no menu Mais ações (exibido como três pontos organizados verticalmente)
e, em seguida, Excluir.API DLP
Acesse as APIs Explorer na página de referência do método
dlpJobs.delete
clicando no botão a seguir:Na caixa name, digite o nome do job no JSON de resposta para a solicitação de inspeção, que tem o seguinte formato:
O ID do job está na forma deprojects/project-id/dlpJobs/job-id
i-1234567890123456789
.
Se você criou outros jobs de inspeção ou quer ter certeza de que ele foi excluído com êxito, liste todos os jobs atuais:
Acesse as APIs Explorer na página de referência do método
dlpJobs.list
clicando no botão a seguir:Na caixa parent, digite o identificador do projeto no formato abaixo, em que project-id é o identificador do projeto:
projects/project-id
Clique em Execute.
Se não houver jobs listados na resposta, significa que você excluiu todos eles. Se os jobs estiverem listados na resposta, repita o procedimento de exclusão acima para esses jobs.
A seguir
- Saiba mais sobre a ação
publishFindingsToCloudDataCatalog
em proteção de dados sensíveis. - Saiba mais sobre como criar tags personalizadas ou tags no nível da coluna no Data Catalog com base nos resultados da proteção de dados confidenciais.
- Saiba mais sobre como inspecionar repositórios de armazenamento para dados sensíveis usando a proteção de dados sensíveis.
- Saiba como usar o Data Catalog.