Conceitos principais do Dataproc Metastore

Use os seguintes conceitos para ajudar a compreender como o Dataproc Metastore funciona e as diferentes funcionalidades que pode usar com o seu serviço.

Versões do Dataproc Metastore

Quando cria um serviço de Dataproc Metastore, pode optar por usar um serviço de Dataproc Metastore 2 ou um serviço de Dataproc Metastore 1.

Dataproc Metastore 2

O Dataproc Metastore 2 usa um fator de escalabilidade para determinar quantos recursos o seu serviço usa num determinado momento. Depois de criar um Dataproc Metastore 2, pode aumentar ou diminuir a escala do serviço modificando o fator de escalabilidade.

Dataproc Metastore 1

O Dataproc Metastore 1 usa níveis de serviço para determinar quantos recursos o seu serviço usa num determinado momento. Os níveis de serviço oferecem uma quantidade previsível e predeterminada de recursos.

Verifique a versão do Dataproc Metastore

Pode verificar a versão do Dataproc Metastore que está a usar na Google Cloud consola.

  • Dataproc Metastore 2: a tabela de configuração contém o seguinte valor: Edition Enterprise - Single Region.
  • Dataproc Metastore 1: a tabela de configuração contém um dos seguintes valores: Tier: DEVELOPER ou Tier: ENTERPRISE.

Termos comuns do Dataproc Metastore

Os seguintes termos são usados frequentemente no ecossistema e na documentação do Dataproc Metastore.

Serviços

  • Apache Hive. O Hive é um sistema de armazém de dados de código aberto popular criado no Apache Hadoop. O Hive oferece uma linguagem de consulta semelhante a SQL denominada HiveQL, que é usada para analisar conjuntos de dados estruturados grandes.
  • Metastore do Apache Hive. O metastore do Hive contém metadados sobre tabelas do Hive, como o respetivo esquema e localização.
  • Dataproc. O Dataproc é um serviço totalmente gerido, rápido e fácil de usar no Google Cloud para executar cargas de trabalho do Apache Spark e Apache Hadoop de forma simples e económica. Depois de criar um Dataproc Metastore, pode estabelecer ligação ao mesmo a partir de um cluster do Dataproc.
  • Cluster do Dataproc. Depois de criar um serviço de Dataproc Metastore, pode estabelecer ligação ao mesmo a partir de um cluster do Dataproc. Também pode usar o Dataproc Metastore com vários outros clusters, como clusters Apache Hive, Apache Spark ou Presto autogeridos.
  • Serviço Dataproc Metastore. O nome da instância da metastore que cria no Google Cloud. Pode ter um ou vários serviços de metastore diferentes na sua implementação.
  • Private Service Connect. O Private Service Connect permite-lhe configurar uma ligação privada aos metadados do Dataproc Metastore em redes VPC. Pode usá-la para estabelecer rede como alternativa ao peering de VPC.
  • VPC Service Controls. O VPC Service Controls melhora a sua capacidade de mitigar o risco de exfiltração de dados dos Google Cloud serviços, permitindo-lhe criar perímetros que protegem os recursos e os dados dos serviços que especifica explicitamente.

Conceitos

  • Tabelas. Todas as aplicações Hive têm tabelas internas geridas ou tabelas externas não geridas que armazenam os seus dados.
  • Diretório do armazém do Hive. A localização predefinida onde os dados da tabela gerida são armazenados.
  • Recipiente de artefactos. Um contentor do Cloud Storage criado automaticamente no seu projeto com cada serviço de metastore que criar. Este contentor pode ser usado para armazenar os artefactos do seu serviço, como metadados exportados e dados de tabelas geridas. Por predefinição, o contentor de artefactos armazena o diretório do armazém predefinido do serviço Dataproc Metastore.
  • Pontos finais. Um serviço Dataproc Metastore fornece aos clientes acesso aos metadados do Hive Metastore armazenados através de um ou mais pontos finais de rede. O Dataproc Metastore fornece URIs para estes pontos finais.
  • Protocolos de pontos finais. O protocolo de rede por cabo usado para a comunicação entre o Dataproc Metastore e os clientes do Hive Metastore. O Dataproc Metastore suporta o Apache Thrift e os pontos finais gRPC.
  • Federação de metadados. Uma funcionalidade que lhe permite aceder a metadados armazenados em várias instâncias do Dataproc Metastore.
  • Versões auxiliares. Uma funcionalidade que lhe permite ligar várias versões do cliente Hive ao mesmo serviço Dataproc Metastore.

Conceitos do metastore do Hive

A utilização de um serviço de Metastore do Dataproc requer que compreenda os conceitos básicos do metastore do Hive. Para mais informações, consulte o artigo Hive Metastore.

Requisitos de rede

O serviço Dataproc Metastore requer acesso à rede para funcionar corretamente. Para mais informações, consulte o artigo Configure os requisitos de rede.

Configurações do projeto

Existem várias configurações de projetos possíveis que pode usar quando implementar um cluster do Dataproc e um serviço do Dataproc Metastore. Para mais informações, consulte a implementação entre projetos.

O que se segue?