Principais conceitos do metastore do Dataproc

Use os conceitos a seguir para entender como o metastore do Dataproc funciona e os diferentes recursos que podem ser usados com seu serviço.

Versões do metastore do Dataproc

Ao criar um serviço do Dataproc Metastore, você pode usar um serviço Metastore do Dataproc 2 ou um serviço Metastore do Dataproc 1.

Metastore do Dataproc 2

O Dataproc Metastore 2 usa um fator de escalonamento para determinar quantos recursos o serviço usa em um determinado momento. Depois de criar um Metastore 2 do Dataproc, é possível aumentar ou diminuir o serviço modificando o fator de escalonamento.

  • O Dataproc Metastore 2 é a nova geração do serviço que oferece escalonabilidade horizontal, além dos recursos do Dataproc Metastore. Para mais informações, consulte os recursos e benefícios.

  • O Dataproc Metastore 2 tem um plano de preços diferente do Metastore do Dataproc. Para mais informações, consulte planos de preços e configurações de escalonamento.

Metastore do Dataproc 1

O Dataproc Metastore 1 usa níveis de serviço para determinar quantos recursos o serviço usa em determinado momento. Os níveis de serviço oferecem uma quantidade predeterminada e previsível de recursos.

Verificar a versão do Dataproc Metastore

Verifique qual versão do Dataproc Metastore você está usando no Console do Google Cloud.

  • Metastore do Dataproc 2: a tabela de configuração contém o seguinte valor: Edition Enterprise - Região única.
  • Metastore 1 do Dataproc: a tabela de configuração contém um dos seguintes valores: Tier: Develop ou Tier: ENTERPRISE.

Termos comuns do Metastore do Dataproc

Os termos a seguir são usados com frequência em todo o ecossistema e na documentação do Dataproc Metastore.

Serviços

  • Apache Hive (em inglês). O Hive é um conhecido sistema de data warehouse de código aberto, criado no Apache Hadoop. O Hive oferece uma linguagem de consulta semelhante a SQL, chamada HiveQL, que é usada para analisar conjuntos de dados grandes e estruturados.
  • Metastore do Apache Hive. O metastore do Hive contém metadados sobre as tabelas do Hive, como o esquema e o local.
  • Dataproc. O Dataproc é um serviço totalmente gerenciado, rápido e fácil de usar no Google Cloud que executa as cargas de trabalho do Apache Spark e do Apache Hadoop de maneira simples e econômica. Depois de criar um Metastore do Dataproc, é possível se conectar a ele a partir de um cluster do Dataproc.
  • Cluster do Dataproc. Depois de criar um serviço Metastore do Dataproc, conecte-se a ele a partir de um cluster do Dataproc. Também é possível usar o Dataproc Metastore com vários outros clusters, como clusters autogerenciados do Apache Hive, Apache Spark ou Presto.
  • Serviço Metastore do Dataproc. O nome da instância do metastore criada no Google Cloud. É possível ter um ou muitos serviços metastore diferentes em sua implementação.
  • Private Service Connect. O Private Service Connect permite configurar uma conexão particular com os metadados do Dataproc Metastore em redes VPC. É possível usá-lo para rede como uma alternativa ao peering de VPC.
  • VPC Service Controls. O VPC Service Controls melhora sua capacidade de reduzir o risco de exfiltração de dados nos serviços do Google Cloud, permitindo que você crie perímetros que protegem os recursos e os dados dos serviços especificados explicitamente.

conceitos

  • Tabelas. Todos os aplicativos Hive têm tabelas externas, internas e não gerenciadas que armazenam os dados.
  • Diretório de warehouse do Hive. O local padrão em que os dados da tabela gerenciada são armazenados.
  • Bucket de artefatos. Um bucket do Cloud Storage criado no projeto automaticamente com cada serviço metastore que você criar. Esse bucket pode ser usado para armazenar seus artefatos de serviço, como metadados exportados e dados de tabelas gerenciadas. Por padrão, o bucket de artefatos armazena o diretório de armazenamento padrão do seu serviço do Dataproc Metastore.
  • Endpoints: Um serviço do Dataproc Metastore fornece aos clientes acesso aos metadados armazenados do Hive Metastore por meio de um ou mais endpoints da rede. O metastore do Dataproc fornece URIs para esses endpoints.
  • Protocolos do endpoint. O protocolo de rede over-the-wire (em inglês) usado para comunicação entre os clientes do Dataproc Metastore e do Hive Metastore. O metastore do Dataproc oferece suporte aos endpoints Apache Thrift e gRPC.
  • Federação de metadados. Um recurso que permite acessar metadados armazenados em várias instâncias do Dataproc Metastore.
  • Versões auxiliares: Um recurso que permite conectar várias versões do cliente Hive ao mesmo serviço do Dataproc Metastore.

Conceitos do metastore do Hive

Para usar um serviço Metastore do Dataproc, é necessário entender os conceitos básicos do metastore Hive. Para mais informações, consulte Metastore do Hive.

Requisitos de rede

O serviço Metastore do Dataproc requer acesso à rede para funcionar corretamente. Para mais informações, consulte Configurar requisitos de rede.

Configurações do projeto

Há várias configurações de projeto possíveis que podem ser usadas ao implantar um cluster do Dataproc e um serviço do metastore do Dataproc. Para mais informações, consulte a implantação entre projetos.

A seguir