Visão geral do metastore do Dataproc

O metastore do Dataproc é um metastore do Apache Hive (HMS) totalmente gerenciado que é executado no Google Cloud. Um HMS é o padrão estabelecido no ecossistema de Big Data de código aberto para gerenciar metadados técnicos, como esquemas, partições e estatísticas de colunas em um banco de dados relacional.

O Dataproc Metastore é altamente disponível, com recuperação automática e sem servidor. Use-o para gerenciar metadados de data lake e fornecer interoperabilidade entre os vários mecanismos de processamento de dados e ferramentas que você usa.

Como funciona o metastore do Dataproc

Você pode usar um serviço Metastore do Dataproc conectando-o a um cluster do Dataproc. Um cluster do Dataproc inclui componentes que dependem de um HMS para orientar o planejamento e a execução de consultas.

Essa integração permite manter as informações da tabela entre jobs ou disponibilizar metadados para outros clusters e mecanismos de processamento.

Por exemplo, implementar um metastore pode ajudar você a designar que um subconjunto de arquivos contém dados de receita, em vez de rastrear manualmente os nomes dos arquivos. Nesse caso, é possível definir uma tabela para esses arquivos e armazenar os metadados no Metastore do Dataproc. Depois, você poderá conectá-lo a um cluster do Dataproc e consultar a tabela em busca de informações usando Hive, Spark SQL ou outros serviços de consulta.

Versões do metastore do Dataproc

Ao criar um serviço Metastore do Dataproc, é possível usar um serviço Metastore do Dataproc 2 ou um serviço Metastore do Dataproc 1.

  • O Dataproc Metastore 2 é a nova geração do serviço que oferece escalonabilidade horizontal, além dos recursos do Dataproc Metastore 1. Para mais informações, consulte recursos e benefícios.

  • O Dataproc Metastore 2 tem um plano de preços diferente do Metastore do Dataproc. Para mais informações, consulte planos de preços e configurações de escalonamento.

Casos de uso comuns

Todos os casos de uso listados nesta seção são compatíveis com o Dataproc Metastore 2 e o Metastore 1 do Dataproc, a menos que indicado de outra forma.

  • Atribua significado aos seus dados. Crie um repositório de metadados centralizado para compartilhar entre muitos clusters efêmeros do Dataproc. Use diferentes mecanismos de software de código aberto (OSS, na sigla em inglês), como Apache Hive, Apache Spark (em inglês) e Presto (links em inglês).

  • Crie uma visualização unificada dos seus dados. Fornecer interoperabilidade entre os serviços do Google Cloud, como Dataproc, Dataplex e BigQuery, ou usar outras ofertas de parceiros com base em código aberto no Google Cloud.

Recursos e benefícios

Todos os recursos listados nesta seção são compatíveis com o Dataproc Metastore 2 e o Metastore 1 do Dataproc, a menos que indicado de outra forma.

  • Compatibilidade com OSS. Conecte-se aos mecanismos de processamento de dados existentes, como Apache Hive, Apache Spark e Presto.

  • Gerenciamento. Crie ou atualize um metastore em minutos, com tarefas de operação e monitoramento totalmente configuradas.

  • Integração. Integre com outros produtos do Google Cloud, como usar o BigQuery como origem dos metadados de um cluster do Dataproc.

  • Segurança integrada. Use protocolos de segurança estabelecidos do Google Cloud, como Identity and Access Management (IAM) e autenticação Kerberos.

  • Importação simples. Importe os metadados existentes armazenados em um metastore externo do Hive Metastore para um serviço Metastore do Dataproc.

  • Backups automáticos. Configure backups automáticos do metastore para ajudar a evitar a perda de dados.

  • Monitoramento de desempenho. Defina níveis de desempenho para responder dinamicamente a cargas de trabalho e picos com uso intenso de alto consumo, sem pré-aquecimento ou armazenamento em cache.

  • Alta disponibilidade (HA, na sigla em inglês):

    • Metastore do Dataproc 2. Fornece alta disponibilidade (HA, na sigla em inglês) zonal sem exigir qualquer configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente bancos de dados de back-end e servidores HMS em várias zonas na região escolhida. Além da alta disponibilidade por zona, o metastore 2 do Dataproc é compatível com alta disponibilidade regional e recuperação de desastres (DR).
    • Metastore do Dataproc 1. Por padrão, ele fornece alta disponibilidade (HA, na sigla em inglês) zonal sem exigir nenhuma configuração específica ou gerenciamento contínuo. Isso é feito com a replicação automática de bancos de dados de back-end e servidores HMS em várias zonas na região escolhida
  • Dimensionamento.

    • Metastore do Dataproc 2. Use um fator de escalonamento horizontal para determinar quantos recursos seu serviço precisa usar em um determinado momento.
    • Metastore do Dataproc 1. Escolha entre um nível de desenvolvedor ou um nível empresarial ao configurar seu serviço. Esse nível determina quantos recursos seu serviço precisa usar em um determinado momento.
  • Suporte. Aproveite os SLAs padrão do Google Cloud e os canais de suporte.

Integrações com o Google Cloud

Todas as integrações listadas nesta seção são compatíveis com o Dataproc Metastore 1 e o Metastore 2 do Dataproc, a menos que indicado de outra forma.

  • Dataproc. Conecte-se a um cluster do Dataproc para disponibilizar metadados para cargas de trabalho de Big Data do OSS.
  • BigQuery: Consulte conjuntos de dados do BigQuery nas cargas de trabalho do Dataproc.
  • Dataplex Consulte dados estruturados e semiestruturados descobertos em um lake do Dataplex.
  • Data Catalog. Sincronize o metastore do Dataproc com o Data Catalog para permitir a pesquisa e a descoberta de metadados.
  • Geração de registros e monitoramento. Integrar o metastore do Dataproc aos produtos do Cloud Monitoring e do Logging.
  • Autenticação e IAM. Confie na autenticação OAuth padrão usada por outros produtos do Google Cloud, que oferece suporte ao uso de papéis granulares do Identity and Access Management para ativar o controle de acesso de recursos individuais.

Próximas etapas