Concepts de base de Dataproc Metastore

Utilisez les concepts suivants pour comprendre le fonctionnement de Dataproc Metastore et les différentes fonctionnalités que vous pouvez utiliser avec votre service.

Versions Dataproc Metastore

Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser un service Dataproc Metastore 2 ou un service Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 utilise un facteur de scaling pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Après avoir créé un Dataproc Metastore 2, vous pouvez faire évoluer le service en l'étendant ou en le réduisant en modifiant le facteur de scaling.

  • Dataproc Metastore 2 est la nouvelle génération du service qui offre une évolutivité horizontale en plus des fonctionnalités de Dataproc Metastore. Pour en savoir plus, consultez la section Fonctionnalités et avantages.

  • Dataproc Metastore 2 propose un forfait différent de celui de Dataproc Metastore. Pour en savoir plus, consultez les forfaits et configurations de scaling.

Dataproc Metastore 1

Dataproc Metastore 1 utilise des niveaux de service pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Les niveaux de service fournissent une quantité de ressources prévisible et prédéterminée.

Vérifier votre version de Dataproc Metastore

Vous pouvez vérifier la version de Dataproc Metastore que vous utilisez dans la console Google Cloud.

  • Dataproc Metastore 2: la table de configuration contient la valeur suivante: Edition Enterprise – Single Region (Édition Enterprise – Région unique).
  • Dataproc Metastore 1: le tableau de configuration contient l'une des valeurs suivantes: Niveau: DEVELOPER ou Niveau: ENTERPRISE.

Termes courants de Dataproc Metastore

Les termes suivants sont couramment utilisés dans l'écosystème et la documentation Dataproc Metastore.

Services

  • Apache Hive Hive est un système d'entrepôt de données Open Source populaire basé sur Apache Hadoop. Hive propose un langage de requête semblable à SQL appelé HiveQL, utilisé pour analyser de grands ensembles de données structurés.
  • Metastore Apache Hive Le métastore Hive contient des métadonnées sur les tables Hive, telles que leur schéma et leur emplacement.
  • Dataproc. Dataproc est un service rapide, convivial et entièrement géré sur Google Cloud qui vous permet d'exécuter des charges de travail Apache Spark et Apache Hadoop de manière simple et économique. Une fois que vous avez créé un métastore Dataproc, vous pouvez vous y connecter à partir d'un cluster Dataproc.
  • Cluster Dataproc Après avoir créé un service Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Dataproc. Vous pouvez également utiliser Dataproc Metastore avec divers autres clusters, tels que des clusters Apache Hive, Apache Spark ou Presto autogérés.
  • Service Dataproc Metastore Nom de l'instance de métamagasin que vous créez dans Google Cloud. Vous pouvez avoir un ou plusieurs services de métastore différents dans votre implémentation.
  • Private Service Connect Private Service Connect vous permet de configurer une connexion privée aux métadonnées Dataproc Metastore sur les réseaux VPC. Vous pouvez l'utiliser pour la mise en réseau au lieu de l'appairage de réseaux VPC.
  • VPC Service Controls. VPC Service Controls vous aide à limiter les risques d'exfiltration de données à partir des services Google Cloud en vous permettant de créer des périmètres qui protègent les ressources et les données des services que vous spécifiez explicitement.

Concepts

  • Tables Toutes les applications Hive sont associées à des tables internes gérées ou à des tables externes non gérées qui stockent vos données.
  • Répertoire d'entrepôt Hive Emplacement par défaut où les données de table gérées sont stockées.
  • Bucket d'artefacts Un bucket Cloud Storage créé automatiquement dans votre projet avec chaque service Metastore que vous créez. Ce bucket peut être utilisé pour stocker vos artefacts de service, tels que les métadonnées exportées et les données de table gérées. Par défaut, le bucket d'artefacts stocke le répertoire d'entrepôt par défaut de votre service Dataproc Metastore.
  • Points de terminaison Un service Dataproc Metastore permet aux clients d'accéder aux métadonnées Hive Metastore stockées via un ou plusieurs points de terminaison réseau. Dataproc Metastore fournit des URI pour ces points de terminaison.
  • Protocoles de point de terminaison Protocole réseau sur fil utilisé pour la communication entre les clients Dataproc Metastore et Hive Metastore. Dataproc Metastore est compatible avec les points de terminaison Apache Thrift et gRPC.
  • Fédération de métadonnées. Fonctionnalité qui vous permet d'accéder aux métadonnées stockées dans plusieurs instances Dataproc Metastore.
  • Versions auxiliaires Fonctionnalité qui vous permet de connecter plusieurs versions de client Hive au même service Dataproc Metastore.

Concepts du métastore Hive

Pour utiliser un service Dataproc Metastore, vous devez comprendre les concepts de base du métastore Hive. Pour en savoir plus, consultez la page Métastore Hive.

Configuration réseau requise

Le service Dataproc Metastore nécessite un accès réseau pour fonctionner correctement. Pour en savoir plus, consultez la section Configurer les exigences réseau.

Configurations de projet

Vous pouvez utiliser plusieurs configurations de projet lorsque vous déployez un cluster Dataproc et un service Dataproc Metastore. Pour en savoir plus, consultez la section Déploiement multiprojet.

Étape suivante