Présentation de Dataproc Metastore

Dataproc Metastore est un métastore Apache Hive (HMS) entièrement géré qui s'exécute sur Google Cloud. Un HMS est la norme établie dans l'écosystème big data Open Source pour la gestion des métadonnées techniques, telles que les schémas, les partitions et les statistiques de colonne dans une base de données relationnelle.

Dataproc Metastore offre une disponibilité élevée, une autoréparation et une solution sans serveur. Utilisez-le pour gérer les métadonnées des lacs de données et assurer l'interopérabilité entre les différents moteurs de traitement de données et outils que vous utilisez.

Fonctionnement de Dataproc Metastore

Vous pouvez utiliser un service Dataproc Metastore en le connectant à un cluster Dataproc. Un cluster Dataproc inclut des composants qui s'appuient sur un service HMS pour piloter la planification et l'exécution des requêtes.

Cette intégration vous permet de conserver les informations de votre table entre les tâches, ou de mettre les métadonnées à la disposition d'autres clusters et d'autres moteurs de traitement.

Par exemple, la mise en œuvre d'un métastore peut vous aider à indiquer qu'un sous-ensemble de vos fichiers contient des données sur les revenus, par opposition au suivi manuel des noms de fichiers. Dans ce cas, vous pouvez définir une table pour ces fichiers et stocker les métadonnées dans Dataproc Metastore. Vous pourrez ensuite le connecter à un cluster Dataproc et interroger la table pour obtenir des informations à l'aide de Hive, Spark SQL ou d'autres services de requête.

Versions de Dataproc Metastore

Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser un service Dataproc Metastore 2 ou un service Dataproc Metastore 1.

  • Dataproc Metastore 2 est la nouvelle génération du service qui offre une évolutivité horizontale en plus des fonctionnalités de Dataproc Metastore 1. Pour en savoir plus, consultez les fonctionnalités et les avantages.

  • Forfait de Dataproc Metastore 2 est différente de celle de Dataproc Metastore. Pour en savoir plus, consultez la section Forfaits et configurations de scaling.

Cas d'utilisation courants

Sauf indication contraire, tous les cas d'utilisation listés dans cette section sont compatibles avec Dataproc Metastore 2 et Dataproc Metastore 1.

  • Donner du sens à vos données. Créez un dépôt de métadonnées centralisé qui sera partagé entre de nombreux clusters Dataproc éphémères. Utilisez différents moteurs logiciels Open Source, tels qu'[Apache Hive](https://hive.apache.org, Apache Spark et Presto).

  • Créez une vue unifiée de vos données. Assurez l'interopérabilité entre les services Google Cloud, tels que Dataproc, Dataplex et BigQuery, ou utilisez d'autres offres partenaires Open Source sur Google Cloud.

Fonctionnalités et avantages

Sauf indication contraire, toutes les fonctionnalités listées dans cette section sont compatibles avec Dataproc Metastore 2 et Dataproc Metastore 1.

  • Compatibilité OSS : Connectez-vous à vos moteurs de traitement de données existants, tels qu'Apache Hive, Apache Spark et Presto.

  • Gestion. Créez ou mettez à jour un métastore en quelques minutes, avec des tâches de surveillance et d'exploitation entièrement configurées.

  • Intégration. Intégrer d'autres produits Google Cloud, par exemple en utilisant BigQuery en tant que source de métadonnées pour un cluster Dataproc

  • Sécurité intégrée Utilisez les protocoles de sécurité Google Cloud établis, tels que Identity and Access Management (IAM) et l'authentification Kerberos.

  • Importation simple. Importer les métadonnées existantes stockées dans un métastore Hive externe dans un service Dataproc Metastore

  • Sauvegardes automatiques : Configurez des sauvegardes automatiques de métastore pour éviter de perdre des données.

  • Surveillance des performances. Définissez des niveaux de performances pour répondre de manière dynamique aux charges de travail et aux pics d'utilisation particulièrement intensives, sans préchauffage ni mise en cache.

  • Haute disponibilité.

    • Dataproc Metastore 2. Fournit une haute disponibilité zonale sans nécessiter de configuration spécifique ni de gestion continue. Pour ce faire, les bases de données backend et les serveurs HMS sont automatiquement répliqués dans plusieurs zones de la région de votre choix. En plus de la haute disponibilité zonale, Dataproc Metastore 2 est compatible avec la haute disponibilité régionale et la reprise après sinistre.
    • Dataproc Metastore 1. Par défaut, fournit une haute disponibilité zonale sans nécessiter de configuration spécifique ni de gestion continue. Pour ce faire, les bases de données backend et les serveurs HMS sont automatiquement répliqués sur plusieurs zones de la région de votre choix.
  • Évolutivité.

    • Dataproc Metastore 2. Utilisez un facteur de scaling horizontal pour déterminer la quantité de ressources que votre service doit utiliser à un moment donné. Le facteur de scaling peut être contrôlé manuellement ou défini sur l'autoscaling (Preview) si nécessaire.
    • Dataproc Metastore 1. Lorsque vous configurez votre service, vous avez le choix entre un niveau développeur et un niveau entreprise. Ce niveau détermine le nombre de ressources que votre service doit utiliser à un moment donné.
  • Assistance. Profitez des contrats de niveau de service et des canaux d'assistance standards de Google Cloud.

Intégrations à Google Cloud

Sauf indication contraire, toutes les intégrations listées dans cette section sont compatibles avec Dataproc Metastore 1 et Dataproc Metastore 2.

  • Dataproc. Connectez-vous à un cluster Dataproc afin de pouvoir diffuser des métadonnées pour les charges de travail de big data OSS.
  • BigQuery : Interrogez des ensembles de données BigQuery dans vos charges de travail Dataproc.
  • Dataplex Interrogez les données structurées et semi-structurées découvertes dans un lac Dataplex.
  • Data Catalog Synchronisez Dataproc Metastore avec Data Catalog pour permettre la recherche et la découverte de métadonnées.
  • Journalisation et surveillance. Intégrez Dataproc Metastore aux produits Cloud Monitoring et Logging.
  • Authentification et IAM. Appuyez-vous sur l'authentification OAuth standard utilisée par d'autres produits Google Cloud, qui permet d'utiliser des rôles Identity and Access Management précis pour activer le contrôle des accès pour des ressources individuelles.

Étapes suivantes