O que é o metastore do Dataproc?

O Metastore do Dataproc é um metastore Apache Apache (HMS) do Apache totalmente gerenciado, altamente disponível e de recuperação automática que é executado no Google Cloud. Ele aceita HMS e serve como um componente essencial para gerenciar os metadados de entidades relacionais e fornece interoperabilidade entre aplicativos de processamento de dados no ecossistema de dados de código aberto.

Por que usar o metastore do Dataproc?

Casos de uso do metastore do Dataproc

Os casos de uso do metastore do Dataproc incluem:

  • Um repositório de metadados centralizado que pode ser compartilhado entre vários clusters efêmeros do Dataproc que executam diferentes mecanismos de código aberto, como Apache Hive, Apache Spark e Presto.

  • Uma visão unificada das suas tabelas de código aberto no Google Cloud, fornecendo interoperabilidade entre serviços nativos da nuvem, como o Dataproc e várias outras ofertas de parceiros baseados em código aberto no Google Cloud.

Recursos do metastore do Dataproc

O metastore do Dataproc fornece:

  • Compatibilidade com OSS: o metastore do Dataproc oferece um metastore compatível com OSS. Ele se integra perfeitamente à pilha de processamento de dados atual, como Apache Hive, Apache Spark e Presto. Isso proporciona mais interoperabilidade entre os serviços do Google Cloud e parceiros com código aberto.

  • Gerenciamento: o Metastore do Dataproc descarrega a sobrecarga de gerenciar o HMS. Você pode criar ou atualizar uma instância HMS em minutos com tarefas de monitoramento e operações totalmente configuradas.

  • Integração: além de simplificar o gerenciamento de serviços do HMS, o metastore do Dataproc pode ser integrado a produtos atuais do Google Cloud, como o Dataproc. Um serviço do metastore do Dataproc pode ser usado como a origem dos metadados de um cluster do Dataproc.

  • Importação simples: o recurso de importação permite importar metadados existentes armazenados em um banco de dados externo para o Metastore do Dataproc.

  • Segurança: é possível proteger os serviços do metastore do Dataproc com as soluções de segurança do Google Cloud. Também é possível configurar as permissões do Cloud IAM e usar a autenticação Kerberos.

  • Confiabilidade: o serviço Metastore do Dataproc é regularmente ativado para que você não precise se preocupar com a durabilidade de dados HMS.

  • Alto desempenho: cada camada fornece alocações de recursos garantidos para cargas de trabalho com alto consumo de dados que podem responder a picos nas chamadas HMS sem exigir pré-aquecimento ou armazenamento em cache.

  • Escalonabilidade à medida que seu data lake cresce: você pode alternar facilmente entre camadas quando o data lake estiver pronto ou criar novos metastores rapidamente.

  • Inatividade reduzida e mais produtividade O Google Cloud oferece SLAs e suporte.

O que está incluído no metastore do Dataproc?

Para mais informações sobre as versões de código aberto (Apache Hive) compatíveis com o metastore do Dataproc, consulte a política de versões do metastore do Dataproc.

Primeiros passos com o metastore do Dataproc

Para começar a usar o metastore do Dataproc rapidamente, consulte o Guia de início rápido para implantar o metastore do Dataproc. É possível acessar o metastore do Dataproc das seguintes maneiras: