Proteger o lake

Este documento descreve como proteger e gerenciar o acesso aos lagos do Dataplex.

O modelo de segurança do Dataplex permite gerenciar as permissões do usuário para as seguintes tarefas:

  • Administrar um lake (criar e anexar recursos, zonas e outros lakes)
  • Acessar dados conectados a um data lake pelo recurso de mapeamento (por exemplo, Google Cloud recursos, como buckets do Cloud Storage e conjuntos de dados do BigQuery)
  • Como acessar metadados sobre os dados conectados a um data lake

Um administrador de um lake controla o acesso aos recursos do Dataplex, como lake, zona e recursos, concedendo as funções básicas e predefinidas.

Papéis básicos

Papel Descrição
Leitor do Dataplex
(roles/dataplex.viewer)
Pode visualizar (mas não editar) o lake e as zonas e os recursos configurados.
Editor do Dataplex
(roles/dataplex.editor)
Capacidade de editar o lake. Pode criar e configurar lakes, zonas, recursos e tarefas.
Administrador do Dataplex
(roles/dataplex.administrator)
Capacidade de administrar totalmente um lake.
Desenvolvedor do Dataplex
(roles/dataplex.developer)
Capacidade de executar cargas de trabalho de análise de dados em um lake. *
* Para consultar uma tabela do BigQuery, você precisa ter permissão para executar um job do BigQuery. Defina essa permissão no projeto que você quer atribuir ou cobrar pelo gasto de computação do job. Para mais informações, consulte Papéis e permissões predefinidos do BigQuery.
Para executar um job do Spark, crie clusters do Dataproc e envie jobs do Dataproc no projeto a que você quer atribuir o cálculo.

Papéis predefinidos

Google Cloud gerencia os papéis predefinidos que fornecem acesso granular ao Dataplex.

Papéis de metadados

Os papéis de metadados podem acessar metadados, como esquemas de tabela.

Papel Descrição
Gravador de metadados do Dataplex
(roles/dataplex.metadataWriter)
Capacidade de atualizar os metadados de um determinado recurso.
Leitor de metadados do Dataplex
(roles/dataplex.metadataReader)
Capacidade de ler os metadados (por exemplo, consultar uma tabela).

Papéis de dados

Conceder papéis de dados a um participante permite que ele leia ou grave dados nos recursos subjacentes apontados pelos recursos do lago.

O Dataplex mapeia as funções aos papéis de dados de cada recurso de armazenamento subjacente, como o Cloud Storage e o BigQuery.

O Dataplex traduz e propaga as funções de dados do Dataplex para o recurso de armazenamento subjacente, definindo as funções corretas para cada recurso de armazenamento. É possível conceder um único papel de dados do Dataplex na hierarquia do lake (por exemplo, um lake), e o Dataplex mantém o acesso especificado aos dados em todos os recursos conectados a esse lake. Por exemplo, os buckets do Cloud Storage e os conjuntos de dados do BigQuery são referenciados por recursos nas zonas.

Por exemplo, conceder a um participante o papel dataplex.dataWriter de um lake dá ao participante acesso de gravação a todos os dados do lake, às zonas e aos recursos subjacentes. As funções de acesso a dados concedidas em um nível inferior (zona) são herdadas na hierarquia do lake para os recursos subjacentes.

Papel Descrição
Leitor de dados do Dataplex
(roles/dataplex.dataReader)
Capacidade de ler dados do armazenamento anexado a recursos, incluindo buckets de armazenamento e conjuntos de dados do BigQuery (e o conteúdo deles). *
Gravador de dados do Dataplex
(roles/dataplex.dataWriter)
Capacidade de gravar nos recursos subjacentes apontados pelo recurso. *
Proprietário de dados do Dataplex
(roles/dataplex.dataOwner)
Concede a função de proprietário aos recursos subjacentes, incluindo a capacidade de gerenciar recursos filhos. Por exemplo, como proprietário de dados de um conjunto de dados do BigQuery, você pode gerenciar as tabelas subjacentes.

Proteger o lake

Você pode proteger e gerenciar o acesso ao data lake e aos dados associados a ele. No console do Google Cloud, use uma das seguintes visualizações:

  • Visualização Gerenciar do Dataplex na guia Permissões
  • Visualização Secure do Dataplex

Como usar a visualização Gerenciar

A guia Permissões permite gerenciar todas as permissões em um recurso de lago e apresenta uma visualização não filtrada de todas as permissões, incluindo as herdadas.

Para proteger seu lago, siga estas etapas:

  1. No console do Google Cloud, acesse o Dataplex.

    Acesse o Dataplex.

  2. Acesse a visualização Gerenciar.

  3. Clique no nome do lago que você criou.

  4. Clique na guia Permissões.

  5. Clique na guia Visualizar por funções.

  6. Clique em Adicionar para incluir um novo papel. Adicione os papéis de Leitor de dados do Dataplex, Gravador de dados e Proprietário de dados.

  7. Verifique se os papéis Leitor de dados do Dataplex, Gravador de dados e Proprietário de dados aparecem.

Como usar a visualização Segura

A visualização Secure do Dataplex no console do Google Cloud oferece o seguinte:

  • Uma visualização filtrável apenas dos papéis do Dataplex que são centralizados em um recurso específico
  • Separar funções de dados de funções de recursos do lago
Exemplo de permissões de dados que não são herdadas de recursos de lago mais altos
Figura 1: neste exemplo de um data lake, os dois principais têm permissões de dados no recurso chamado Dados do Cloud Storage (dados do GCS). Essas permissões não são herdadas de recursos de lake mais altos.


Exemplo de permissões que não são herdadas de recursos de lago mais altos
Figura 2: este exemplo mostra:
  1. Uma conta de serviço que herda o papel de administrador do Dataplex do projeto.
  2. Princípios (endereço de e-mail) que herdam os papéis de editor e visualizador do Dataplex do projeto. Estes são os papéis que se aplicam a todos os recursos.
  3. Um participante (endereço de e-mail) que herda o papel de administrador do Dataplex do projeto.

Gerenciamento de políticas

Depois que você especifica sua política de segurança, o Dataplex propaga as permissões para as políticas do IAM dos recursos gerenciados.

A política de segurança configurada no nível do lake é propagada para todos os recursos gerenciados nesse lake. O Dataplex fornece status de propagação e visibilidade sobre essas propagações em grande escala na guia Gerenciar > Permissões. Ele monitora continuamente os recursos gerenciados para detectar qualquer mudança na política do IAM fora do Dataplex.

Os usuários que já têm permissões em um recurso continuam tendo-as depois que um recurso é anexado a um lago do Dataplex. Da mesma forma, as vinculações de função que não são do Dataplex que são criadas ou atualizadas após a vinculação do recurso ao Dataplex permanecem as mesmas.

Definir políticas no nível da coluna, da linha e da tabela

Os recursos de bucket do Cloud Storage têm tabelas externas do BigQuery associadas a eles.

É possível fazer upgrade de um recurso de bucket do Cloud Storage, o que significa que o Dataplex remove as tabelas externas anexadas e anexa tabelas do BigLake.

É possível usar tabelas do BigLake em vez de tabelas externas para ter controle de acesso refinado, incluindo controles no nível da linha, controles no nível da coluna e mascaramento de dados de coluna.

Segurança de metadados

Os metadados se referem principalmente às informações do esquema associadas aos dados do usuário presentes nos recursos gerenciados por um data lake.

O Dataplex Discovery examina os dados em recursos gerenciados e extrai informações de esquema tabular. Essas tabelas são publicadas nos sistemas do BigQuery, do Dataproc Metastore e do Data Catalog.

BigQuery

Cada tabela descoberta tem uma tabela associada registrada no BigQuery. Para cada zona, há um conjunto de dados do BigQuery associado em que todas as tabelas externas associadas às tabelas descobertas nessa zona de dados são registradas.

As tabelas hospedadas no Cloud Storage descobertas são registradas no conjunto de dados criado para a zona.

Dataproc Metastore

Os bancos de dados e as tabelas são disponibilizados no metastore do Dataproc associado à instância do lago do Dataplex. Cada zona de dados tem um banco de dados associado, e cada recurso pode ter uma ou mais tabelas associadas.

Os dados em um serviço do metastore do Dataproc são protegidos configurando sua rede VPC-SC. A instância do Metastore do Dataproc é fornecida ao Dataplex durante a criação do lago, o que já o torna um recurso gerenciado pelo usuário.

Data Catalog

Cada tabela descoberta tem uma entrada associada no Data Catalog para permitir a pesquisa e a descoberta.

O Data Catalog exige nomes de políticas do IAM durante a criação de entradas. Portanto, o Dataplex fornece o nome da política de IAM do recurso de ativo do Dataplex com que a entrada precisa ser associada. Como resultado, as permissões na entrada do Dataplex são determinadas pelas permissões no recurso de ativo. Conceda o papel de leitor de metadados do Dataplex (roles/dataplex.metadataReader) e o papel de gravador de metadados do Dataplex (roles/dataplex.metadataWriter) no recurso de ativo.

A seguir