Conceitos principais do metastore do Dataproc

Use os conceitos a seguir para entender como o Metastore do Dataproc funciona e os diferentes recursos que você pode usar com seu serviço.

Versões do metastore do Dataproc

Ao criar um serviço do Metastore do Dataproc, você pode usar um serviço do Metastore do Dataproc 2 ou um serviço do Metastore do Dataproc 1.

Dataproc Metastore 2

O Metastore do Dataproc 2 usa um fator de escalonamento para determinar quantos recursos seu serviço usa em um determinado momento. Depois de criar uma Metastore do Dataproc 2, é possível aumentar ou diminuir o serviço modificando o fator de escalonamento.

Dataproc Metastore 1

A Metastore do Dataproc 1 usa níveis de serviço para determinar quantos recursos seu serviço usa em um determinado momento. Os níveis de serviço oferecem uma quantidade previsível e predeterminada de recursos.

Verificar a versão do metastore do Dataproc

É possível verificar qual versão do Dataproc Metastore você está usando no console do Google Cloud.

  • Dataproc Metastore 2: a tabela de configuração contém o seguinte valor: Edition Enterprise - Single Region.
  • Metastore do Dataproc 1: a tabela de configuração contém um dos seguintes valores: Nível: DEVELOPER ou Nível: ENTERPRISE.

Termos comuns do metastore do Dataproc

Os termos a seguir são usados com frequência em todo o ecossistema e na documentação do Dataproc Metastore.

Serviços

  • Apache Hive. O Hive é um conhecido sistema de data warehouse de código aberto desenvolvido no Apache Hadoop. O Hive oferece uma linguagem de consulta do tipo SQL, chamada HiveQL, que é usada para analisar conjuntos de dados grandes e estruturados.
  • Metastore do Apache Hive. O metastore do Hive armazena metadados sobre as tabelas do Hive, como o esquema e a localização delas.
  • Dataproc. O Dataproc é um serviço rápido, fácil de usar e totalmente gerenciado no Google Cloud para executar cargas de trabalho do Apache Spark e do Apache Hadoop de maneira simples e econômica. Depois de criar uma Metastore do Dataproc, é possível se conectar a ela em um cluster do Dataproc.
  • Cluster do Dataproc. Depois de criar um serviço do metastore do Dataproc, é possível se conectar a ele em um cluster do Dataproc. Também é possível usar o Dataproc Metastore com vários outros clusters, como clusters autogerenciados do Apache Hive, Apache Spark ou Presto.
  • Serviço de metastore do Dataproc. O nome da instância do metastore criada no Google Cloud. É possível ter um ou vários serviços de metastore diferentes na implementação.
  • Private Service Connect. O Private Service Connect permite configurar uma conexão particular com os metadados do metastore do Dataproc nas redes VPC. Você pode usá-lo para rede como uma alternativa ao peering da VPC.
  • VPC Service Controls. O VPC Service Controls melhora sua capacidade de reduzir o risco de exfiltração de dados dos serviços do Google Cloud, permitindo que você crie perímetros que protegem os recursos e os dados dos serviços especificados explicitamente.

Conceitos

  • Tabelas. Todos os aplicativos Hive têm tabelas externas gerenciadas ou não gerenciadas que armazenam seus dados.
  • Diretório de depósito do Hive. O local padrão em que os dados da tabela gerenciada são armazenados.
  • Bucket de artefatos. Um bucket do Cloud Storage que é criado no seu projeto automaticamente com todos os serviços de metastore que você cria. Esse bucket pode ser usado para armazenar artefatos de serviço, como metadados exportados e dados de tabela gerenciados. Por padrão, o bucket de artefatos armazena o diretório de armazenamento padrão do serviço do metastore do Dataproc.
  • Endpoints. Um serviço de metastore do Dataproc fornece aos clientes acesso aos metadados armazenados do metastore do Hive por um ou mais endpoints de rede. O metastore do Dataproc fornece URIs para esses endpoints.
  • Protocolos de endpoint. O protocolo de rede over-the-wire usado para comunicação entre os clientes do Dataproc Metastore e do Hive Metastore. O Dataproc Metastore oferece suporte a endpoints do Apache Thrift e gRPC.
  • Federação de metadados. Um recurso que permite acessar metadados armazenados em várias instâncias do Metastore do Dataproc.
  • Versões auxiliares. Um recurso que permite conectar várias versões do cliente do Hive ao mesmo serviço do metastore do Dataproc.

Conceitos do metastore do Hive

Para usar um serviço do metastore do Dataproc, você precisa entender conceitos básicos do metastore do Hive. Para mais informações, consulte Metastore do Hive.

Requisitos de rede

O serviço Metastore do Dataproc requer acesso à rede para funcionar corretamente. Para mais informações, consulte Configurar requisitos de rede.

Configurações do projeto

Há várias configurações de projeto que podem ser usadas ao implantar um cluster do Dataproc e um serviço do metastore do Dataproc. Para mais informações, consulte Implantação entre projetos.

A seguir