Proteja o seu lago

Este documento descreve como proteger e gerir o acesso aos lagos do Dataplex Universal Catalog.

O modelo de segurança do Dataplex Universal Catalog permite-lhe gerir as autorizações dos utilizadores para as seguintes tarefas:

  • Administrar um lago (criar e anexar recursos, zonas e outros lagos)
  • Aceder a dados associados a um lago através do recurso de mapeamento (por exemplo, Google Cloud recursos, como contentores do Cloud Storage e conjuntos de dados do BigQuery)
  • Aceder a metadados sobre os dados associados a um lago

Um administrador de um lake controla o acesso aos recursos do catálogo universal do Dataplex, como o lake, a zona e os recursos, concedendo as funções básicas e predefinidas.

Funções básicas

Função Descrição
Leitor do Dataplex
(roles/dataplex.viewer)
Capacidade de ver (mas não editar) o lago e as respetivas zonas e recursos configurados.
Editor do Dataplex
(roles/dataplex.editor)
Capacidade de editar o lago. Pode criar e configurar lagos, zonas, recursos e tarefas.
Administrador do Dataplex
(roles/dataplex.administrator)
Capacidade de administrar totalmente um lago.
Dataplex Developer
(roles/dataplex.developer)
Capacidade de executar cargas de trabalho de estatísticas de dados num lake. *
* Para consultar uma tabela do BigQuery, precisa da autorização para executar uma tarefa do BigQuery. Defina esta autorização no projeto que quer atribuído ou cobrado pelos gastos de computação da tarefa. Para mais informações, consulte o artigo Funções e autorizações predefinidas do BigQuery.
Para executar uma tarefa do Spark, crie clusters do Dataproc e envie tarefas do Dataproc no projeto ao qual quer que a computação seja atribuída.

Funções predefinidas

Google Cloud faz a gestão das funções predefinidas que fornecem acesso detalhado ao Dataplex Universal Catalog.

Funções de metadados

As funções de metadados podem ver metadados, como esquemas de tabelas.

Função Descrição
Dataplex Metadata Writer
(roles/dataplex.metadataWriter)
Capacidade de atualizar os metadados de um determinado recurso.
Leitor de metadados do Dataplex
(roles/dataplex.metadataReader)
Capacidade de ler os metadados (por exemplo, para consultar uma tabela).

Funções de dados

A concessão de funções de dados a um principal dá-lhe a capacidade de ler ou escrever dados nos recursos subjacentes apontados pelos recursos do lake.

O catálogo universal do Dataplex mapeia as respetivas funções para as funções de dados de cada recurso de armazenamento subjacente, como o Cloud Storage e o BigQuery.

O Dataplex Universal Catalog traduz e propaga as funções de dados do Dataplex Universal Catalog para o recurso de armazenamento subjacente, definindo as funções corretas para cada recurso de armazenamento. Pode conceder uma única função de dados do catálogo universal do Dataplex na hierarquia do lago (por exemplo, um lago) e o catálogo universal do Dataplex mantém o acesso especificado aos dados em todos os recursos ligados a esse lago (por exemplo, os contentores do Cloud Storage e os conjuntos de dados do BigQuery são referidos por recursos nas zonas subjacentes).

Por exemplo, conceder a um principal a função dataplex.dataWriter para um lake dá ao principal acesso de escrita a todos os dados no lake, nas respetivas zonas e recursos subjacentes. As funções de acesso aos dados concedidas a um nível inferior (zona) são herdadas na hierarquia do lake para os recursos subjacentes.

Função Descrição
Leitor de dados do Dataplex
(roles/dataplex.dataReader)
Capacidade de ler dados do armazenamento anexado a recursos, incluindo contentores de armazenamento e conjuntos de dados do BigQuery (e respetivos conteúdos). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Capacidade de escrever nos recursos subjacentes apontados pelo recurso. *
Proprietário dos dados do Dataplex
(roles/dataplex.dataOwner)
Concede a função de proprietário aos recursos subjacentes, incluindo a capacidade de gerir recursos subordinados. Por exemplo, como proprietário de dados de um conjunto de dados do BigQuery, pode gerir as tabelas subjacentes.

Proteja o seu lago

Pode proteger e gerir o acesso ao seu lake e aos dados anexados ao mesmo. Na Google Cloud consola, use uma das seguintes vistas:

  • A vista Gerir do Dataplex Universal Catalog no separador Autorizações
  • A vista segura do Dataplex Universal Catalog

Usar a vista Gerir

O separador Autorizações permite-lhe gerir todas as autorizações num recurso do lakehouse e apresenta uma vista não filtrada de todas as autorizações, incluindo as herdadas.

Para proteger o seu lago, siga estes passos:

  1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

    Aceda a Lagos

  2. Clique no nome do lago que criou.

  3. Clique no separador Autorizações.

  4. Clique no separador Vista por funções.

  5. Clique em Adicionar para adicionar uma nova função. Adicione as funções Dataplex Data Reader, Data Writer e Data Owner.

  6. Verifique se as funções Dataplex Data Reader, Data Writer e Data Owner são apresentadas.

Usar a vista Seguro

A vista Segura do Dataplex Universal Catalog na Google Cloud consola oferece o seguinte:

  • Uma vista filtrável apenas das funções do Dataplex Universal Catalog centradas num recurso específico
  • Separe as funções de dados das funções de recursos do lake
Exemplo de autorizações de dados que não são herdadas de recursos de data lake superiores
Figura 1: neste exemplo de um lago, ambos os principais têm autorizações de dados no recurso denominado dados do Cloud Storage (dados do GCS). Estas autorizações não são herdadas de recursos de data lake superiores.


Exemplo de autorizações que não são herdadas de recursos de data lake superiores
Figura 2: este exemplo mostra:
  1. Uma conta de serviço que herda a função de administrador do Dataplex do projeto.
  2. Principais (endereço de email) que herdam as funções de editor e visitante do Dataplex do projeto. Estes são os papéis que se aplicam a todos os recursos.
  3. Um principal (endereço de email) que herda a função de administrador do Dataplex do projeto.

Gestão de políticas

Depois de especificar a política de segurança, o catálogo universal do Dataplex propaga as autorizações para as políticas IAM dos recursos geridos.

A política de segurança configurada ao nível do lake é propagada a todos os recursos geridos nesse lake. O Dataplex Universal Catalog fornece o estado de propagação e a visibilidade destas propagações em grande escala no separador Gerir > Autorizações do Dataplex Universal Catalog. Monitoriza continuamente os recursos geridos para detetar alterações à política de IAM fora do Dataplex Universal Catalog.

Os utilizadores que já têm autorizações num recurso continuam a tê-las depois de um recurso ser anexado a um lake do catálogo universal do Dataplex. Da mesma forma, as associações de funções do Dataplex Universal Catalog que não sejam do Dataplex Universal Catalog criadas ou atualizadas depois de anexar o recurso ao Dataplex Universal Catalog permanecem inalteradas.

Defina políticas ao nível da coluna, da linha e da tabela

Os recursos do contentor do Cloud Storage têm tabelas externas do BigQuery associadas.

Pode atualizar um recurso de contentor do Cloud Storage, o que significa que o catálogo universal do Dataplex remove as tabelas externas anexadas e anexa tabelas do BigLake.

Pode usar tabelas BigLake em vez de tabelas externas para ter um controlo de acesso detalhado, incluindo controlos ao nível da linha, controlos ao nível da coluna e ocultação de dados de colunas.

Segurança dos metadados

Os metadados referem-se principalmente às informações de esquema associadas aos dados do utilizador presentes em recursos geridos por um lake.

A deteção do catálogo universal do Dataplex examina os dados nos recursos geridos e extrai informações de esquemas tabulares. Estas tabelas são publicadas nos sistemas BigQuery, Dataproc Metastore e Data Catalog (descontinuado).

BigQuery

Cada tabela descoberta tem uma tabela associada registada no BigQuery. Para cada zona, existe um conjunto de dados do BigQuery associado no qual todas as tabelas externas associadas às tabelas descobertas nessa zona de dados estão registadas.

As tabelas alojadas no Cloud Storage descobertas são registadas no conjunto de dados criado para a zona.

Dataproc Metastore

As bases de dados e as tabelas são disponibilizadas no Dataproc Metastore associado à instância do lake do Dataplex Universal Catalog. Cada zona de dados tem uma base de dados associada e cada recurso pode ter uma ou mais tabelas associadas.

Os dados num serviço do Dataproc Metastore são protegidos através da configuração da sua rede do VPC-SC. A instância do Dataproc Metastore é fornecida ao Dataplex Universal Catalog durante a criação do lake, o que já a torna um recurso gerido pelo utilizador.

Data Catalog

Cada tabela descoberta tem uma entrada associada no catálogo de dados (obsoleto), para permitir a pesquisa e a descoberta.

O catálogo de dados requer nomes de políticas IAM durante a criação de entradas. Por conseguinte, o Dataplex Universal Catalog fornece o nome da política de IAM do recurso de recurso do Dataplex Universal Catalog ao qual a entrada deve ser associada. Consequentemente, as autorizações na entrada do catálogo universal do Dataplex são determinadas pelas autorizações no recurso do recurso. Conceda a função Dataplex Metadata Reader (roles/dataplex.metadataReader) e a função Dataplex Metadata Writer (roles/dataplex.metadataWriter) no recurso de recurso.

O que se segue?