Concepts fondamentaux de Dataproc Metastore

Utilisez les concepts suivants pour vous aider à comprendre le fonctionnement de Dataproc Metastore et les différentes fonctionnalités que vous pouvez utiliser avec votre service.

Versions de Dataproc Metastore

Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser un service Dataproc Metastore 2 ou un service Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 utilise un facteur de scaling pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Après avoir créé Dataproc Metastore 2, vous pouvez faire évoluer le service à la hausse ou à la baisse en modifiant le facteur de scaling.

  • Dataproc Metastore 2 est la nouvelle génération du service. Il offre une évolutivité horizontale en plus des fonctionnalités de Dataproc Metastore. Pour en savoir plus, consultez Fonctionnalités et avantages.

  • Forfait de Dataproc Metastore 2 est différente de celle de Dataproc Metastore. Pour en savoir plus, consultez Forfaits et configurations de scaling.

Dataproc Metastore 1

Dataproc Metastore 1 utilise des niveaux de service pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Les niveaux de service fournissent une quantité prévisible et prédéterminée de ressources.

Vérifier la version de Dataproc Metastore

Vous pouvez vérifier la version de Dataproc Metastore que vous utilisez dans la console Google Cloud.

  • Dataproc Metastore 2 : la table de configuration contient la valeur Edition Enterprise - Single Region.
  • Dataproc Metastore 1: la table de configuration contient l'une des valeurs suivantes: Tier: DEVELOPER ou Tier: ENTERPRISE.

Termes courants dans Dataproc Metastore

Les termes suivants sont couramment utilisés dans l'écosystème et la documentation de Dataproc Metastore.

Services

  • Apache Hive : Hive est un système d'entreposage de données Open Source populaire basé sur Apache Hadoop. Hive propose un langage de requête de type SQL appelé HiveQL, utilisé pour analyser des ensembles de données volumineux et structurés.
  • Metastore Apache Hive. Le métastore Hive contient des métadonnées sur les tables Hive, telles que leur schéma et leur emplacement.
  • Dataproc. Dataproc est un service rapide, facile à utiliser et entièrement géré sur Google Cloud pour exécuter des charges de travail Apache Spark et Apache Hadoop de manière simple et économique. Après avoir créé un service Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Dataproc.
  • Cluster Dataproc. Après avoir créé un service Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Dataproc. Vous pouvez également utiliser Dataproc Metastore avec divers autres clusters, tels que les clusters Apache Hive, Apache Spark ou Presto autogérés.
  • Service Dataproc Metastore : Nom de l'instance de métastore que vous créez dans Google Cloud. Vous pouvez avoir un ou plusieurs services de métastore différents dans votre implémentation.
  • Private Service Connect Private Service Connect vous permet de configurer une connexion privée aux métadonnées de Dataproc Metastore sur les réseaux VPC. Vous pouvez l'utiliser pour la mise en réseau à la place de l'appairage de VPC.
  • VPC Service Controls. VPC Service Controls améliore votre capacité à limiter le risque d'exfiltration de données à partir des services Google Cloud en vous permettant de créer des périmètres qui protègent les ressources et les données des services que vous spécifiez explicitement.

Concepts

  • Tableaux : Toutes les applications Hive disposent de tables internes ou externes gérées qui stockent vos données.
  • Répertoire des entrepôts Hive Emplacement par défaut où les données de la table gérée sont stockées.
  • Bucket d'artefacts. un bucket Cloud Storage créé automatiquement dans votre projet avec chaque service de métastore que vous créez ; Ce bucket peut être utilisé pour stocker vos artefacts de service, tels que les métadonnées exportées et les données de tables gérées. Par défaut, le bucket d'artefacts stocke le répertoire d'entrepôt par défaut de votre service Dataproc Metastore.
  • Points de terminaison : Un service Dataproc Metastore fournit aux clients un accès aux métadonnées Hive Metastore stockées via un ou plusieurs points de terminaison de réseau. Dataproc Metastore fournit des URI pour ces points de terminaison.
  • Protocoles des points de terminaison : Protocole réseau de type "Over The Wire" utilisé pour la communication entre les clients Dataproc Metastore et Hive Metastore. Dataproc Metastore est compatible avec les points de terminaison Apache Thrift et gRPC.
  • Fédération de métadonnées. Fonctionnalité qui vous permet d'accéder aux métadonnées stockées dans plusieurs instances Dataproc Metastore.
  • Versions auxiliaires. Fonctionnalité qui vous permet de connecter plusieurs versions de client Hive au même service Dataproc Metastore.

Concepts du métastore Hive

L'utilisation d'un service Dataproc Metastore nécessite que vous compreniez les concepts de base du métastore Hive. Pour en savoir plus, consultez Hive Metastore.

Configuration réseau requise

Le service Dataproc Metastore nécessite un accès réseau pour fonctionner correctement. Pour en savoir plus, consultez Configurer la configuration réseau requise.

Configurations de projet

Il existe plusieurs configurations de projet possibles lors du déploiement d'un cluster Dataproc et d'un service Dataproc Metastore. Pour en savoir plus, consultez la section Déploiement inter-projets.

Étapes suivantes