Esta página foi traduzida pela API Cloud Translation.
Switch to English

O que é o metastore do Dataproc?

O metastore do Dataproc é um armazenamento totalmente gerenciado e altamente disponível em uma região, o Apache Hive Metastore (em inglês) de recuperação automática sem servidor no Google Cloud para produtos de análise de dados. Ele aceita HMS e serve como um componente essencial para gerenciar os metadados de entidades relacionais e fornece interoperabilidade entre aplicativos de processamento de dados no ecossistema de dados de código aberto.

Por que usar o metastore do Dataproc?

Casos de uso do metastore do Dataproc

Os casos de uso do metastore do Dataproc incluem:

  • Um repositório de metadados centralizado que pode ser compartilhado entre vários clusters efêmeros do Dataproc que executam diferentes mecanismos de código aberto, como Apache Hive, Apache Spark e Presto.

  • Uma visão unificada das suas tabelas de código aberto no Google Cloud, fornecendo interoperabilidade entre serviços nativos da nuvem, como o Dataproc e várias outras ofertas de parceiros baseados em código aberto no Google Cloud.

Recursos do metastore do Dataproc

O metastore do Dataproc fornece:

  • Compatibilidade com OSS: o metastore do Dataproc oferece um metato compatível compatível com OSS. Ele se integra perfeitamente à pilha de processamento de dados atual, como Apache Hive, Apache Spark e Presto. Isso proporciona mais interoperabilidade entre os serviços do Google Cloud e parceiros com código aberto.

  • Gerenciamento: o Metastore do Dataproc descarrega a sobrecarga de gerenciar o HMS. Você pode criar ou atualizar uma instância HMS em minutos com tarefas de monitoramento e operações totalmente configuradas.

  • Integração: além de simplificar o gerenciamento de serviços do HMS, o metastore do Dataproc pode se integrar a produtos atuais do Google Cloud, como o Cloud Dataproc. Um serviço do metastore do Dataproc pode ser usado como a origem dos metadados de um cluster do Dataproc.

  • Importação simples: o recurso de importação permite importar metadados existentes armazenados em um banco de dados externo para o Metastore do Dataproc.

  • Segurança: é possível proteger os serviços do metastore do Dataproc com as soluções de segurança fornecidas pelo Google Cloud. Também é possível configurar as permissões do Cloud IAM e usar a autenticação Kerberos.

  • Confiabilidade: o serviço Metastore do Dataproc é regularmente ativado para que você não precise se preocupar com a durabilidade de dados HMS.

  • Alto desempenho: cada camada fornece alocações de recursos garantidos para cargas de trabalho com alto consumo de dados que podem responder a picos nas chamadas HMS sem exigir pré-aquecimento ou armazenamento em cache.

  • Escalonabilidade à medida que seu data lake cresce: você pode alternar facilmente entre camadas quando o data lake estiver pronto ou criar novos metastores rapidamente.

  • Inatividade reduzida e mais produtividade O Google Cloud oferece SLAs e suporte.

O que está incluído no metastore do Dataproc?

Para mais informações sobre as versões de código aberto (Apache Hive) compatíveis com o metastore do Dataproc, consulte a política de versões do metastore do Dataproc.

Primeiros passos com o metastore do Dataproc

Para dar os primeiros passos rapidamente com o Metastore do Dataproc, consulte o guia de início rápido. É possível acessar o metastore do Dataproc das seguintes maneiras: