Visão geral do metastore do Dataproc

O metastore do Dataproc é um metastore do Apache Hive (HMS) totalmente gerenciado que é executado no Google Cloud. O HMS é o padrão estabelecido na área de Big Data de código aberto para gerenciar metadados técnicos, como esquemas, partições estatísticas em um banco de dados relacional.

O metastore do Dataproc é altamente disponível, com recuperação automática e sem servidor. Use para gerenciar data lake os metadados e fornecer interoperabilidade entre os vários mecanismos de processamento de dados e as ferramentas que você usa.

Como funciona o metastore do Dataproc

Você pode usar um serviço do Dataproc Metastore conectando-o um cluster do Dataproc. Um cluster do Dataproc inclui componentes que dependem de um HMS para orientar o planejamento e a execução de consultas.

Essa integração permite manter as informações da tabela entre jobs ou fazer metadados disponíveis para outros clusters e outros mecanismos de processamento.

Por exemplo, implementar um metastore pode ajudar você a designar que um subconjunto de seus arquivos contém dados de receita, em vez de rastrear manualmente os nomes dos arquivos. Nesse caso, você pode definir uma tabela para esses arquivos e armazenar os metadados em Metastore do Dataproc. Depois, você pode conectá-lo a um cluster do Dataproc e consultar a tabela em busca de informações usando o Hive, Spark SQL ou outros serviços de consulta.

Versões do metastore do Dataproc

Ao criar um serviço Metastore do Dataproc, você pode optar por usar um serviço Metastore 2 do Dataproc 2 ou um Metastore do Dataproc 1; serviço.

Casos de uso comuns

Todos os casos de uso listados nesta seção são compatíveis com o metastore do Dataproc 2 e Dataproc Metastore 1, salvo indicação em contrário.

  • Atribua significado aos seus dados. Crie um repositório de metadados centralizado que é compartilhado entre vários clusters temporários do Dataproc. Usar diferentes mecanismos de software de código aberto (OSS), como o [Apache Hive](https://hive.apache.org) , Apache Spark e Presto.

  • Crie uma visualização unificada dos seus dados. Proporcionar interoperabilidade entre Serviços do Google Cloud, como Dataproc, Dataplex, e BigQuery, ou usar outras ofertas de parceiros de código aberto em Google Cloud.

Recursos e benefícios

Todos os recursos listados nesta seção são compatíveis com o metastore do Dataproc 2 e Dataproc Metastore 1, salvo indicação em contrário.

  • Compatibilidade com OSS. Conecte-se aos seus mecanismos de processamento de dados existentes, como Apache Hive, Apache Spark e Presto.

  • Gerenciamento. Crie ou atualize um metastore em minutos, complete com tarefas de monitoramento e operação totalmente configuradas.

  • Integração. Integrar com outros produtos do Google Cloud, como usando o BigQuery como origem dos metadados de um aglomerado.

  • Segurança integrada. Usar protocolos de segurança estabelecidos do Google Cloud, como o Identity and Access Management (IAM) e a autenticação Kerberos.

  • Importação simples. Importar metadados existentes armazenados em um metastore Hive externo metastore em um serviço do Dataproc Metastore.

  • Backups automáticos. Configurar backups automáticos do metastore para ajudar a evitar perda de dados.

  • Monitoramento de desempenho. Defina níveis de desempenho para responder dinamicamente a cargas de trabalho e picos altamente intensos, sem pré-aquecimento ou armazenamento em cache.

  • Alta disponibilidade (HA):

    • Metastore do Dataproc 2. Fornece alta disponibilidade (HA, na sigla em inglês) zonal sem precisar de uma configuração específica ou gerenciamento contínuo. Isso é por meio da replicação automática de bancos de dados de back-end e servidores HMS em várias zonas da região escolhida. Além da alta disponibilidade zonal, O Dataproc Metastore 2 dá suporte a alta disponibilidade regional e Recuperação de desastres (DR).
    • Metastore do Dataproc 1. Por padrão, fornece alto alta disponibilidade (HA, na sigla em inglês) sem precisar de configurações específicas de projetos. Isso é feito replicando automaticamente bancos de dados de back-end e servidores HMS em diversas zonas da região escolhida
  • Dimensionamento.

    • Metastore do Dataproc 2. Use um fator de escalonamento horizontal para determinar quantos recursos seu serviço precisa usar em um determinado momento. O fator de escalonamento pode ser controlado manualmente ou definido para escalonamento automático quando necessário.
    • Metastore do Dataproc 1. Escolha entre um nível de desenvolvedor ou nível empresarial durante a configuração do serviço. Esse nível determina como muitos recursos que seu serviço precisa usar em um determinado momento.
  • Suporte. Aproveite os SLAs padrão do Google Cloud e os canais de suporte.

Integrações com o Google Cloud

Todas as integrações listadas nesta seção são compatíveis com o metastore do Dataproc 1 e Dataproc Metastore 2, salvo indicação em contrário.

  • Dataproc. Conecte-se a um cluster do Dataproc para disponibilizar metadados para cargas de trabalho OSS de Big Data.
  • BigQuery. consulte conjuntos de dados do BigQuery no Dataproc do Google Cloud.
  • Dataplex. Consulte dados estruturados e semiestruturados descobertos em um do Dataplex.
  • Data Catalog. Sincronizar o metastore do Dataproc com o Data Catalog para permitir a pesquisa e descoberta de metadados.
  • Logging e Monitoring. Integrar o metastore do Dataproc com produtos Cloud Monitoring e Logging.
  • Autenticação e IAM. Confie na autenticação OAuth padrão usada por outros produtos do Google Cloud, que permitem o uso de papéis granulares do Identity and Access Management para ativar o controle de acesso de recursos individuais.

Próximas etapas