O Dataproc Metastore é um metastore do Apache Hive (HMS) totalmente gerido que é executado no Google Cloud. Um (HMS) é a norma estabelecida no ecossistema de Big Data de código aberto para gerir metadados técnicos, como esquemas, partições e estatísticas de colunas numa base de dados relacional.
O Dataproc Metastore é altamente disponível, com autocorreção e sem servidor. Use-o para gerir os metadados do data lake e oferecer interoperabilidade entre os vários motores de processamento de dados e ferramentas que está a usar.
Como funciona o Dataproc Metastore
Pode usar um serviço de Metastore do Dataproc associando-o a um cluster do Dataproc. Um cluster do Dataproc inclui componentes que dependem de um HMS para impulsionar o planeamento e a execução de consultas.
Esta integração permite-lhe manter as informações das tabelas entre tarefas ou disponibilizar metadados a outros clusters e outros motores de processamento.
Por exemplo, a implementação de um metastore pode ajudar a designar que um subconjunto dos seus ficheiros contém dados de receita, em vez de monitorizar manualmente os nomes dos ficheiros. Neste caso, pode definir uma tabela para esses ficheiros e armazenar os metadados no Dataproc Metastore. Posteriormente, pode associá-la a um cluster do Dataproc e consultar a tabela para obter informações através do Hive, do Spark SQL ou de outros serviços de consulta.
Versões do Dataproc Metastore
Quando cria um serviço de Dataproc Metastore, pode optar por usar um serviço de Dataproc Metastore 2 ou um serviço de Dataproc Metastore 1.
O Dataproc Metastore 2 é a nova geração do serviço que oferece escalabilidade horizontal, além das funcionalidades do Dataproc Metastore 1. Para mais informações, consulte as funcionalidades e as vantagens.
O Dataproc Metastore 2 tem um plano de preços diferente do Dataproc Metastore. Para mais informações, consulte os planos de preços e as configurações de escalabilidade.
Exemplos de utilização comuns
Todos os exemplos de utilização indicados nesta secção são suportados pelo Dataproc Metastore 2 e pelo Dataproc Metastore 1, salvo indicação em contrário.
Atribua significado aos seus dados. Crie um repositório de metadados centralizado que seja partilhado entre muitos clusters do Dataproc efémeros. Usar diferentes motores de software de código aberto (OSS), como o Apache Hive , o Apache Spark e o Presto.
Crie uma vista unificada dos seus dados. Oferecer interoperabilidade entre Google Cloud serviços, como o Dataproc, o Dataplex Universal Catalog e o BigQuery, ou usar outras ofertas de parceiros baseadas em código aberto na Google Cloud.
Funcionalidades e vantagens
Todas as funcionalidades indicadas nesta secção são suportadas pelo Dataproc Metastore 2 e pelo Dataproc Metastore 1, salvo indicação em contrário.
Compatibilidade com OSS. Estabeleça ligação aos seus motores de processamento de dados existentes, como o Apache Hive, o Apache Spark e o Presto.
Gestão. Crie ou atualize um metastore em minutos, com tarefas de monitorização e operação totalmente configuradas.
Integração. Integrar com outros Google Cloud produtos, como usar o BigQuery como a origem dos metadados para um cluster do Dataproc.
Segurança integrada. Use Google Cloud protocolos de segurança estabelecidos, como a gestão de identidade e de acesso (IAM) e a autenticação Kerberos.
Importação simples. Importe metadados existentes armazenados num metastore do Hive externo para um serviço do Dataproc Metastore.
Cópias de segurança automáticas. Configure cópias de segurança automáticas do metastore para ajudar a evitar a perda de dados.
Monitorização do desempenho. Defina níveis de desempenho para responder dinamicamente a cargas de trabalho e picos altamente intensivos, sem preparação prévia nem colocação em cache.
Elevada disponibilidade (HA).
- Dataproc Metastore 2. Oferece alta disponibilidade (HA) zonal sem exigir nenhuma configuração específica nem gestão contínua. Isto é feito replicando automaticamente as bases de dados de back-end e os servidores HMS em várias zonas na região que escolher. Além da HA zonal, o Dataproc Metastore 2 suporta HA regional e recuperação de desastres (RD).
- Dataproc Metastore 1. Por predefinição, oferece alta disponibilidade (HA) zonal sem exigir nenhuma configuração específica nem gestão contínua. Isto é conseguido replicando automaticamente as bases de dados de back-end e os servidores HMS em várias zonas na região que escolher.
Para mais informações sobre considerações específicas da região, consulte o artigo Geografia e regiões.
Escalabilidade.
- Dataproc Metastore 2. Use um fator de escalabilidade horizontal para determinar quantos recursos o seu serviço precisa de usar num determinado momento. O fator de escalabilidade pode ser controlado manualmente ou definido para ser dimensionado automaticamente quando necessário.
- Dataproc Metastore 1. Escolha entre um nível de programador ou um nível empresarial quando configurar o seu serviço. Este nível determina quantos recursos o seu serviço precisa de usar num determinado momento.
Apoio técnico. Tire partido dos Google Cloud SLAs e dos canais de apoio técnico padrão.
Integrações com o Google Cloud
Todas as integrações listadas nesta secção são suportadas pelo Dataproc Metastore 1 e pelo Dataproc Metastore 2, salvo indicação em contrário.
- Dataproc. Estabeleça ligação a um cluster do Dataproc para poder publicar metadados para cargas de trabalho de Big Data de OSS.
- BigQuery. Consulte conjuntos de dados do BigQuery nas suas cargas de trabalho do Dataproc.
- Catálogo universal do Dataplex. Consultar dados estruturados e semiestruturados descobertos num lago do Dataplex Universal Catalog.
- Data Catalog. Sincronize o Dataproc Metastore com o Data Catalog para ativar a pesquisa e a descoberta de metadados.
- Registo e monitorização. Integre o Dataproc Metastore com os produtos Cloud Monitoring e Logging.
- Autenticação e IAM. Confie na autenticação OAuth padrão usada por outros Google Cloud produtos, que suporta a utilização de funções de gestão de identidade e de acesso detalhadas para ativar o controlo de acesso para recursos individuais.
Passos seguintes
- Comece com o guia de início rápido Implementar um serviço do Dataproc Metastore.
- Compreenda os preços do Dataproc Metastore.
- Compreenda as quotas e os limites do Dataproc Metastore.
- Leia as notas de lançamento do Dataproc Metastore.
- Aceda ao Dataproc Metastore através da Google Cloud consola, da CLI do Google Cloud ou da API Dataproc Metastore.