Visão geral do metastore do Dataproc

O Dataproc Metastore é um metastore Apache Hive (HMS) totalmente gerenciado que é executado no Google Cloud. Um HMS é o padrão estabelecido no ecossistema de dados de código aberto para gerenciamento de metadados técnicos, como esquemas, partições e estatísticas de colunas em um banco de dados relacional.

O metastore do Dataproc é altamente disponível, com recuperação automática e sem servidor. Use-o para gerenciar os metadados do data lake e fornecer interoperabilidade entre os vários mecanismos de processamento de dados e ferramentas que você usa.

Como o Dataproc Metastore funciona

É possível usar um serviço do metastore do Dataproc conectando-o a um cluster do Dataproc. Um cluster do Dataproc inclui componentes que dependem de um HMS para impulsionar o planejamento e a execução de consultas.

Essa integração permite manter as informações da tabela entre jobs ou disponibilizar os metadados para outros clusters e mecanismos de processamento.

Por exemplo, a implementação de uma metastore pode ajudar a designar que um subconjunto dos arquivos contém dados de receita, em vez de rastrear manualmente os nomes de arquivos. Nesse caso, é possível definir uma tabela para esses arquivos e armazenar os metadados no Metastore do Dataproc. Depois, conecte-o a um cluster do Dataproc e consulte a tabela para obter informações usando o Hive, o Spark SQL ou outros serviços de consulta.

Versões do metastore do Dataproc

Ao criar um serviço do Metastore do Dataproc, você pode usar um serviço do Metastore do Dataproc 2 ou um serviço do Metastore do Dataproc 1.

  • O Metastore do Dataproc 2 é a nova geração do serviço que oferece escalonamento horizontal, além dos recursos do Metastore do Dataproc 1. Para mais informações, consulte recursos e benefícios.

  • O Dataproc Metastore 2 tem um plano de preços diferente do Dataproc Metastore. Para mais informações, consulte planos de preços e configurações de escalonamento.

Casos de uso comuns

Todos os casos de uso listados nesta seção têm suporte do metastore do Dataproc 2 e do Dataproc Metastore 1, a menos que indicado de outra forma.

  • Atribua significado aos seus dados. Crie um repositório de metadados centralizado que seja compartilhado entre muitos clusters temporários do Dataproc. Use diferentes mecanismos de software de código aberto (OSS, na sigla em inglês), como o [Apache Hive](https://hive.apache.org), o Apache Spark e o Presto.

  • Crie uma visualização unificada dos seus dados. Ofereça interoperabilidade entre os serviços doGoogle Cloud , como Dataproc, Dataplex e BigQuery, ou use outras ofertas de parceiros com base em código aberto noGoogle Cloud.

Recursos e benefícios

Todos os recursos listados nesta seção têm suporte do Dataproc Metastore 2 e do Dataproc Metastore 1, a menos que indicado de outra forma.

  • Compatibilidade com OSS. Conecte-se aos mecanismos de processamento de dados atuais, como Apache Hive, Apache Spark e Presto.

  • Gerenciamento. Crie ou atualize uma metastore em minutos, com tarefas de monitoramento e operação totalmente configuradas.

  • Integração. Integrar com outros Google Cloud produtos, como usando o BigQuery como a fonte de metadados de um cluster do Dataproc.

  • Segurança integrada. Use protocolos de segurança Google Cloud estabelecidos, como o gerenciamento de identidade e acesso (IAM) e a autenticação Kerberos.

  • Importação simples. Importe metadados armazenados em um metastore externo do Hive para um serviço do metastore do Dataproc.

  • Backups automáticos. Configure backups automáticos do metastore para evitar perda de dados.

  • Monitoramento de desempenho. Defina níveis de desempenho para responder dinamicamente a cargas de trabalho e picos de alta intensidade, sem pré-aquecimento ou armazenamento em cache.

  • Alta disponibilidade (HA).

    • Metastore do Dataproc 2. Oferece alta disponibilidade zonal (HA, na sigla em inglês) sem exigir nenhuma configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente os bancos de dados de back-end e os servidores do HMS em várias zonas na região escolhida. Além do HA zonal, o Dataproc Metastore 2 oferece suporte a HA regional e recuperação de desastres (DR).
    • Metastore do Dataproc 1. Por padrão, oferece alta disponibilidade (HA, na sigla em inglês) zonal sem exigir nenhuma configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente os bancos de dados de back-end e os servidores do HMS em várias zonas na região escolhida.

    Para mais informações sobre considerações específicas de cada região, consulte Geografia e regiões.

  • Dimensionamento.

    • Metastore do Dataproc 2. Use um fator de escalonamento horizontal para determinar quantos recursos seu serviço precisa usar em um determinado momento. O fator de escalonamento pode ser controlado manualmente ou definido como escalonamento automático quando necessário.
    • Metastore do Dataproc 1. Escolha entre o nível de desenvolvedor ou empresa ao configurar seu serviço. Esse nível determina quantos recursos seu serviço precisa usar em um determinado momento.
  • Suporte. Aproveite os SLAs Google Cloud e os canais de suporte padrão.

Integrações com Google Cloud

Todas as integrações listadas nesta seção têm suporte do Dataproc Metastore 1 e do Dataproc Metastore 2, a menos que indicado de outra forma.

  • Dataproc. Conecte-se a um cluster do Dataproc para fornecer metadados de cargas de trabalho de Big Data do OSS.
  • BigQuery. Consultar conjuntos de dados do BigQuery nos seus workloads do Dataproc
  • Dataplex. Consultar dados estruturados e semiestruturados descobertos em um data lake do Dataplex.
  • Data Catalog. Sincronize o Metastore do Dataproc com o Data Catalog para permitir a pesquisa e a descoberta de metadados.
  • Geração de registros e monitoramento. Integre o Dataproc Metastore a produtos do Cloud Monitoring e do Logging.
  • Autenticação e IAM. Dependem da autenticação OAuth padrão usada por outros produtosGoogle Cloud , que oferece suporte ao uso de papéis granulares de gerenciamento de identidade e acesso para permitir o controle de acesso de recursos individuais.

Próximas etapas