Esta página descreve como aplicar automaticamente etiquetas do Data Catalog a tabelas do BigQuery depois de o serviço de proteção de dados confidenciais criar perfis dessas tabelas. Esta página também fornece exemplos de consultas que pode usar para encontrar dados etiquetados na sua organização e projetos.
Esta funcionalidade é útil se quiser enriquecer os metadados organizados manualmente no catálogo universal do Dataplex com estatísticas recolhidas a partir de perfis de dados da proteção de dados confidenciais. As etiquetas geradas incluem as seguintes estatísticas:
- Tipos de informações (infoTypes) detetados nas colunas da tabela
- Nível de sensibilidade calculado da tabela
- Nível de risco dos dados calculado da tabela
As estatísticas dos perfis de dados da Proteção de dados confidenciais podem ajudar a usar o catálogo universal do Dataplex para descobrir dados confidenciais e de alto risco na sua organização. Use estas estatísticas para ajudar a tomar decisões informadas sobre como gerir e governar os seus dados.
Se quiser enviar os resultados de tarefas de inspeção, e não operações de criação de perfis de dados, para o catálogo universal do Dataplex, consulte o artigo Enviar resultados da inspeção da proteção de dados confidenciais para o Data Catalog.
Acerca dos perfis de dados
Pode configurar a proteção de dados confidenciais para gerar automaticamente perfis sobre dados numa organização, pasta ou projeto. Os perfis de dados contêm métricas e metadados sobre os seus dados e ajudam a determinar onde residem os dados confidenciais e de alto risco. A proteção de dados confidenciais comunica estas métricas a vários níveis de detalhe. Para obter informações sobre os tipos de dados que pode criar perfis, consulte o artigo Recursos suportados.
Acerca do Dataplex Universal Catalog e do Data Catalog
O catálogo universal do Dataplex é um Google Cloud serviço que unifica os dados distribuídos e automatiza a gestão e a administração dos dados. O Data Catalog (descontinuado) é um serviço de gestão de metadados totalmente gerido e escalável.
O catálogo de dados permite-lhe usar etiquetas e modelos de etiquetas para anexar metadados empresariais aos seus dados. Em seguida, pode pesquisar e gerir todos os metadados da sua organização ou projeto num serviço unificado. Para mais informações, consulte o artigo Etiquetas e modelos de etiquetas.
Como funciona
Se a configuração da análise de deteção tiver a ação Enviar para o Dataplex como etiquetas ativada, a Proteção de dados confidenciais faz o seguinte sempre que cria perfis dos seus dados. Esta ação só é aplicada a perfis novos e atualizados. Os perfis existentes que não são atualizados não são enviados para o catálogo universal do Dataplex.
Cria um modelo de etiqueta privada que contém o esquema das etiquetas que vão ser anexadas às suas tabelas do BigQuery. Para obter informações sobre o nome, o ID e a localização do modelo de etiqueta, consulte Detalhes do modelo de etiqueta.
Apenas os diretores com as funções e as autorizações adequadas podem ver o modelo de etiqueta.
Cria uma etiqueta para cada tabela do BigQuery que analisa. A etiqueta baseia-se no modelo de etiqueta criado recentemente.
Por exemplo, uma etiqueta resultante anexada a uma tabela pode ter os seguintes metadados:
Nome a apresentar Valor Column Insights
ccn: CREDIT_CARD_NUMBER
first_name: PERSON_NAME
last_name: PERSON_NAME
ssn: US_SOCIAL_SECURITY_NUMBER
email: EMAIL_ADDRESS
Column Sensitivity
ccn: HIGH
first_name: MODERATE
last_name: MODERATE
favorite_animal: LOW
ssn: HIGH
email: MODERATE
id: LOW
Data Risk Level
HIGH
Other InfoTypes
PHONE_NUMBER
Predicted InfoTypes
CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
Profile Last Generated
DATE at TIME
Sensitive Data Profile
organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
Sensitivity Score
HIGH
Uma tabela tem duas etiquetas se tiver sido criada através de ambos os seguintes métodos:
- Uma configuração de análise ao nível da organização ou da pasta
- Uma configuração de análise ao nível do projeto
Depois de as tabelas serem etiquetadas, pode pesquisar no catálogo universal do Dataplex todos os dados na sua organização ou projeto com valores de etiquetas específicos.
Detalhes do modelo de etiqueta
O nome do modelo, o ID do modelo e o projeto onde o novo modelo de etiqueta está armazenado dependem do recurso ao qual a configuração da análise se refere.
- Se a configuração da análise for uma configuração ao nível da organização ou da pasta, o modelo de etiqueta é armazenado no contentor do agente de serviço. O nome do modelo de etiqueta é
Sensitive Data Profile
. O ID do modelo ésensitive_data_profile
. - Se a configuração da análise for uma configuração ao nível do projeto, o modelo de etiqueta é armazenado no projeto a ser analisado. O nome do modelo de etiqueta é
Sensitive Data Profile (Project)
. O ID do modelo ésensitive_data_profile_project
.
Preços
Para obter informações sobre como outros Google Cloud serviços podem cobrar-lhe pela exportação de perfis de dados, consulte o artigo Preços para exportar perfis de dados.
Etiquete automaticamente tabelas do BigQuery com base em perfis de dados
Crie uma configuração de análise. Em alternativa, edite uma configuração de análise existente.
- Para criar uma configuração de análise ao nível da organização ou da pasta, consulte o artigo Crie perfis de dados numa organização ou numa pasta.
- Para criar uma configuração de análise ao nível do projeto, consulte o artigo Crie perfis de dados num único projeto.
No passo Adicionar ações, certifique-se de que a opção Enviar para o Dataplex como etiquetas está ativada.
- Se estiver a criar uma configuração de análise, esta ação está ativada por predefinição.
- Se estiver a editar uma configuração de análise, tem de ativar esta ação.
Depois de os dados serem perfilados e etiquetados, pode começar a pesquisar dados etiquetados no catálogo universal do Dataplex.
Funções e autorizações para ver etiquetas
Os resultados da pesquisa do catálogo universal do Dataplex mostram apenas os dados aos quais tem acesso. Precisa das seguintes funções ou autorizações da gestão de identidade e de acesso (IAM) para pesquisar as etiquetas anexadas às suas tabelas do BigQuery.
Finalidade | Função predefinida | Autorizações relevantes |
---|---|---|
Veja o modelo de etiqueta privada | Leitor de TagTemplate do Data Catalog (roles/datacatalog.tagTemplateViewer ) |
datacatalog.tagTemplates.getTag |
Veja as etiquetas aplicadas às tabelas do BigQuery | Leitor de metadados do BigQuery (roles/bigquery.metadataViewer ) |
bigquery.datasets.get bigquery.tables.get |
Para mais informações sobre as funções do catálogo universal do Dataplex, consulte o artigo Funções para ver etiquetas públicas e privadas.
Para obter informações sobre como conceder uma função predefinida, consulte o artigo Conceda uma única função. Se quiser usar uma função personalizada em vez de uma função predefinida, certifique-se de que a função personalizada tem as autorizações relevantes. Para mais informações, consulte o artigo Crie uma função personalizada.
Encontre o modelo de etiqueta gerado
Na Google Cloud consola, aceda à página Modelos de etiquetas do catálogo universal do Dataplex.
Na lista, encontre o modelo de etiqueta. Para ver informações sobre o nome, o ID e a localização do modelo de etiqueta, consulte os detalhes do modelo de etiqueta.
Opcional: para encontrar o modelo de etiqueta gerado por uma determinada configuração de análise de deteção, introduza o seguinte no campo Filtro:
name:PROJECT_ID.TAG_TEMPLATE_ID
Substitua o seguinte:
- PROJECT_ID: o ID do projeto associado à configuração da análise. Se tiver criado perfis dos seus dados ao nível da organização ou da pasta, introduza o ID do projeto do contentor do agente de serviço.
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto.
Encontre a etiqueta gerada para um determinado perfil de dados de tabela
Na Google Cloud consola, aceda à página Pesquisa do catálogo universal do Dataplex.
No campo Pesquisar, introduza o seguinte:
name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
Substitua o seguinte:
- TABLE_ID: o ID da tabela que foi analisada.
- PROJECT_ID: o ID do projeto que contém o modelo de etiqueta. Se tiver criado perfis dos seus dados ao nível da organização ou da pasta, introduza o ID do projeto do contentor do agente de serviço.
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto.
Na lista apresentada, clique no ID da tabela. Os detalhes da tabela do BigQuery são apresentados juntamente com quaisquer etiquetas
Sensitive Data Profile
ouSensitive Data Profile (Project)
anexadas à mesma.Uma tabela tem duas etiquetas se tiver sido criada através de ambos os seguintes métodos:
- Uma configuração de análise ao nível da organização ou da pasta
- Uma configuração de análise ao nível do projeto
Para obter informações sobre como realizar uma pesquisa através da API Data Catalog, consulte o artigo Como pesquisar recursos de dados.
Consultas de pesquisa de exemplo
Esta secção fornece exemplos de consultas de pesquisa que pode usar no catálogo universal do Dataplex para encontrar dados na sua organização ou projeto com valores de etiquetas específicos.
Só pode encontrar os dados aos quais tem acesso. O acesso aos dados é controlado através das autorizações da IAM. Para mais informações, consulte Funções e autorizações para ver etiquetas nesta página.
Pode introduzir estas consultas na página Pesquisa do catálogo universal do Dataplex na consola Google Cloud .
Para ver informações sobre como formar as consultas, consulte a sintaxe de pesquisa do catálogo de dados. Para obter informações sobre como fazer uma pesquisa através da API Data Catalog, consulte Como pesquisar recursos de dados.
Encontre todas as tabelas etiquetadas com o novo modelo de etiqueta
tag:PROJECT_ID.TAG_TEMPLATE_ID
Substitua o seguinte:
- PROJECT_ID: o ID do projeto que contém o modelo de etiqueta. Se tiver criado perfis dos seus dados ao nível da organização ou da pasta, introduza o ID do projeto do contentor do agente de serviço.
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto.
Os exemplos seguintes nesta página não incluem o ID do projeto, pelo que pode receber resultados associados a várias configurações de análise de deteção. Para limitar os resultados a uma configuração de análise específica, adicione o ID do projeto à consulta, conforme mostrado neste exemplo.
Encontre todas as tabelas que foram perfiladas pela última vez antes de uma determinada data
tag:TAG_TEMPLATE_ID.profile_last_generated<DATE
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - DATE: uma data no formato
YYYY-MM-DD
, por exemplo,2023-01-15
.
Encontre todas as tabelas com uma determinada pontuação de confidencialidade ao nível da tabela
tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - SENSITIVITY_SCORE: um dos valores
HIGH
,MODERATE
ouLOW
.
Para mais informações, consulte os níveis de risco e sensibilidade dos dados.
Encontre todas as tabelas com um determinado nível de risco de dados
tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - DATA_RISK_LEVEL: um dos valores
HIGH
,MODERATE
ouLOW
.
Para mais informações, consulte os níveis de risco e sensibilidade dos dados.
Encontrar todas as tabelas que contêm um determinado infoType previsto
tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - INFOTYPE: o infoType, por exemplo,
PERSON_NAME
.
Para uma lista de todos os infoTypes incorporados, consulte a referência do detetor de infoTypes.
Para mais informações, consulte Predicted infoType na referência de métricas.
Encontrar todas as tabelas que contêm parcialmente um determinado infoType
tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - INFOTYPE: o infoType, por exemplo,
PERSON_NAME
.
Para uma lista de todos os infoTypes incorporados, consulte a referência do detetor de infoTypes.
Para mais informações, consulte Outros tipos de informações na referência de métricas.
Encontre todas as tabelas que contêm uma determinada coluna com um determinado infoType previsto
tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - COLUMN_NAME: o nome da coluna na tabela do BigQuery.
- INFOTYPE: o infoType, por exemplo,
PERSON_NAME
.
Para uma lista de todos os infoTypes incorporados, consulte a referência do detetor de infoTypes.
Para mais informações, consulte Predicted infoType na referência de métricas.
Encontre todas as tabelas que contêm uma determinada coluna com uma determinada classificação de confidencialidade ao nível da coluna
tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE
Substitua o seguinte:
- TAG_TEMPLATE_ID:
sensitive_data_profile
se a configuração da análise for para uma organização ou uma pasta;sensitive_data_profile_project
se a configuração da análise for para um projeto. - COLUMN_NAME: o nome da coluna na tabela do BigQuery.
- SENSITIVITY_SCORE: um dos valores
HIGH
,MODERATE
ouLOW
.
Para mais informações, consulte os níveis de risco e sensibilidade dos dados.
Valores de etiquetas truncados
Se os dados do cabeçalho da coluna de uma tabela do BigQuery excederem 10 MB, a etiqueta resultante pode apresentar [TRUNCATED]
no campo Column Insights
ou Column
Sensitivity
. Neste caso, recomendamos que aceda à
proteção de dados confidenciais para rever o perfil
dos dados da tabela e os
perfis de dados das colunas associadas.