Sincronizar o metastore do Dataproc com o Data Catalog

Neste documento, mostramos como sincronizar os metadados do metastore do Dataproc com o Data Catalog.

Depois de sincronizar esses dois serviços, você poderá usar o Data Catalog para gerenciar os metadados do metastore do Dataproc. Por exemplo, com o Data Catalog, é possível marcar e pesquisar recursos específicos do metastore do Dataproc, como bancos de dados e tabelas.

O que é o Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável. Ele oferece mecanismos unificados de visualização e inclusão de tags para metadados técnicos e comerciais.

Para mais informações, consulte os seguintes guias de recursos do Data Catalog:

Antes de começar

Funções exigidas

Para ter as permissões necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog, faça o seguinte: peça ao administrador para conceder a você Visualizar entradas sincronizadas do Dataproc Metastore no Data Catalog (roles/metastore.metadataViewer) no projeto, com base no princípio de privilégio mínimo. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para sincronizar os metadados do Dataproc Metastore com o Data Catalog. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog:

  • Para acessar os bancos de dados do Dataproc Metastore: metastore.databases.get
  • Para listar bancos de dados do metastore do Dataproc: metastore.databases.list
  • Para receber tabelas do metastore do Dataproc: metastore.tables.get
  • Para listar as tabelas do Dataproc Metastore: metastore.tables.list

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Para mais informações sobre permissões e papéis específicos do metastore do Dataproc, consulte Gerenciar acesso com o IAM.

Como funcionam as permissões entre os serviços

O Data Catalog segue as permissões no nível metastore do Dataproc. Para metadados sincronizados do Metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no Metastore do Dataproc também se aplicam aos metadados no Data Catalog.

O Data Catalog verifica as permissões de cada metastore e uma tabela no momento do acesso, para que apenas os usuários com acesso ao O serviço do Dataproc Metastore pode conferir o serviço sincronizado recursos como entradas no Data Catalog.

Como a sincronização do Data Catalog funciona com o Metastore do Dataproc

É possível ativar o metastore do Dataproc no Data Catalog sincronizar ao criar ou atualizar um serviço do metastore do Dataproc usando no console do Google Cloud. É possível desativar a sincronização da mesma forma.

Depois de ativar a sincronização do Data Catalog, os metadados do banco de dados e da tabela são sincronizados automaticamente do metastore do Dataproc para o Data Catalog.

O Data Catalog sincroniza os seguintes metadados:

  • Instances.
  • Bancos de dados, incluindo nome e descrição.
  • Tabelas, incluindo nome, descrição e esquema (colunas com descrições).

Veja na tabela a seguir o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:

Recurso metastore do Dataproc Recurso do Data Catalog
Instância Entrada no grupo
Entrada
Banco de dados Entrada
Tabela Entrada
Coluna Esquema

Considerações

  • Pode levar até seis horas para que seu metastore do Dataproc os metadados são totalmente sincronizados com o Data Catalog. Após a inicial for concluída, as alterações incrementais serão sincronizadas sob demanda (como tabelas ou do banco de dados). Se uma sincronização sob demanda falhar, ela será incluída em um lote que ocorre a cada seis horas.

  • Se você suspeitar que há um problema com a sincronização, verifique os metadados publicar registros no Cloud Logging do metastore do Dataproc com o filtro textPayload=~".*Publish.*". Para mais informações sobre como acessar registros, consulte Acessar registros de job no Logging.

  • Se você desativar a sincronização do Data Catalog, os metadados vão parar de ser sincronizados do Metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.

  • Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.

  • Metadados do metastore do Dataproc armazenados no Data Catalog adere aos períodos de retenção padrão do Google Cloud.

  • Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.

Criar um serviço com a sincronização do Data Catalog ativada

A sincronização do Data Catalog está desativada por padrão.

Para ativar a sincronização do Data Catalog para um novo serviço, siga estas instruções.

Console

  1. No console do Google Cloud, abra a página do metastore do Dataproc:

    Acesse Dataproc Metastore

  2. Na parte superior da página Metastore do Dataproc, clique em Criar.

    A página Criar serviço é aberta.

  3. Selecione a versão do Metastore do Dataproc que você quer usar.

  4. Em Integração de metadados, clique em Sincronização do Data Catalog.

  5. Para as demais opções de configuração de serviço, use os padrões fornecidos. Ou configure seu serviço conforme necessário.

  6. Clique em Enviar.

Ativar ou desativar a sincronização do Data Catalog para um serviço atual

Para ativar ou desativar a sincronização do Data Catalog para um serviço atual, faça o seguinte: siga as instruções abaixo.

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc:

    Acesse Dataproc Metastore

  2. Na página Metastore do Dataproc, clique no serviço que você quer atualizar.

    A página Detalhes do serviço desse serviço é aberta.

  3. Na guia Configuration, clique em Edit.

    A página Editar serviço é aberta.

  4. Em Integração de metadados, ative ou desative a Sincronização do Data Catalog.

  5. Clique em Enviar.

Pesquisar com o Data Catalog

Você pode pesquisar metadados sincronizados do metastore do Dataproc usando o Data Catalog.

Embora não existam opções de pesquisa personalizadas para o metastore do Dataproc, existem várias maneiras de pesquisar diferentes metastore do Dataproc recursos, incluindo:

  • Instância do metastore do Dataproc
    • Por nome de exibição
    • Funções padrão do Data Catalog, por exemplo, usando tags
  • Banco de dados
    • Por nome de exibição
    • Por descrição
    • Por instância do metastore do Dataproc
    • Funções padrão do Data Catalog, por exemplo, usando tags.
  • Tabela
    • Por nome de exibição
    • Por descrição
    • Por nome da coluna
    • Por descrição de coluna
    • Por banco de dados
    • Por instância do metastore do Dataproc
    • Funções padrão do Data Catalog, por exemplo, usando tags.

A seguir