Présentation de Dataproc Metastore

Dataproc Metastore est un métastore Apache Hive (HMS) entièrement géré qui s'exécute sur Google Cloud. Un (HMS) est la norme reconnue dans le domaine du big data Open Source. pour gérer les métadonnées techniques, comme les schémas, les partitions et les colonnes dans une base de données relationnelle.

Dataproc Metastore est disponibilité élevée, avec autoréparation et sans serveur. Utilisez-le pour gérer un lac de données et assurer une interopérabilité entre les différents moteurs de traitement des données et les outils que vous utilisez.

Fonctionnement de Dataproc Metastore

Vous pouvez utiliser un service Dataproc Metastore en le connectant à un cluster Dataproc. Un cluster Dataproc inclut des composants qui s'appuient sur un service de gestion des requêtes pour piloter la planification et l'exécution des requêtes.

Cette intégration vous permet de conserver les informations de votre table entre les jobs de métadonnées disponibles pour d'autres clusters et d'autres moteurs de traitement.

Par exemple, l'implémentation d'un métastore peut vous aider à indiquer qu'un sous-ensemble de vos fichiers contient des données sur les revenus, contrairement au suivi manuel de leurs noms de fichiers. Dans ce cas, vous pouvez définir une table pour ces fichiers et stocker les métadonnées dans Dataproc Metastore. Vous pouvez ensuite le connecter cluster Dataproc et interroger la table pour obtenir des informations à l'aide de Hive, Spark SQL ou d'autres services de requête.

Versions de Dataproc Metastore

Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser Un service Dataproc Metastore 2 ou un service Dataproc Metastore 1 service.

  • Dataproc Metastore 2 est la nouvelle génération du service qui offre une évolutivité horizontale en plus des fonctionnalités Dataproc Metastore 1. Pour en savoir plus, consultez Fonctionnalités et avantages.

  • Le forfait de Dataproc Metastore 2 est différent de celui Dataproc Metastore. Pour en savoir plus, consultez la page Forfaits et configurations de scaling.

Cas d'utilisation courants

Tous les cas d'utilisation listés dans cette section sont compatibles avec Dataproc Metastore 2 et Dataproc Metastore 1, sauf indication contraire.

  • Donnez du sens à vos données. Créer un dépôt de métadonnées centralisé partagé entre de nombreux clusters Dataproc éphémères. Utilisez différents moteurs de logiciels Open Source, comme [Apache Hive](https://hive.apache.org) , Apache Spark et Presto.

  • Créez une vue unifiée de vos données. Assurer l'interopérabilité entre aux services Google Cloud tels que Dataproc, Dataplex et BigQuery, ou profitez d'autres offres de partenaires Open Source Google Cloud.

Fonctionnalités et avantages

Toutes les fonctionnalités listées dans cette section sont compatibles avec Dataproc Metastore 2 et Dataproc Metastore 1, sauf indication contraire.

  • Compatibilité OSS. vous connecter à vos moteurs de traitement de données existants ; comme Apache Hive, Apache Spark et Presto.

  • Gestion : Créez ou mettez à jour un métastore en quelques minutes, avec de surveillance et d'opérations entièrement configurées.

  • Intégration. Intégration à d'autres produits Google Cloud, tels que en utilisant BigQuery comme source de métadonnées pour Dataproc cluster.

  • Sécurité intégrée : Utiliser les protocoles de sécurité Google Cloud établis comme Identity and Access Management (IAM) et l'authentification Kerberos.

  • Importation simple. Importer des métadonnées existantes stockées dans un métastore Hive externe dans un service Dataproc Metastore.

  • Sauvegardes automatiques. Configurez des sauvegardes automatiques du métastore pour éviter la perte de données.

  • Surveillance des performances. Définir des niveaux de performances auxquels répondre de manière dynamique des charges de travail et des pics de trafic très intensifs, sans préchauffage ni mise en cache.

  • Haute disponibilité.

    • Dataproc Metastore 2. Il fournit une haute disponibilité zonale sans configuration spécifique ni gestion continue. C'est répliquant automatiquement les bases de données backend et les serveurs HMS dans plusieurs zones de la région de votre choix. En plus de la haute disponibilité zonale, Dataproc Metastore 2 est compatible avec la haute disponibilité Reprise après sinistre (DR)
    • Dataproc Metastore 1. Par défaut, fournit une valeur zonale élevée sans configuration spécifique ni processus continu gestion de la sécurité. Pour cela, les bases de données backend sont automatiquement répliquées. et serveurs HMS sur plusieurs zones de la région de votre choix
  • Évolutivité.

    • Dataproc Metastore 2. Utilisez un facteur de scaling horizontal pour déterminer le nombre de ressources que votre service doit utiliser à un moment donné. Le facteur de scaling peut être contrôlé manuellement ou défini sur l'autoscaling. si nécessaire.
    • Dataproc Metastore 1. Choisissez entre un niveau de développeur niveau Entreprise lorsque vous configurez votre service. Ce niveau détermine comment de nombreuses ressources que votre service doit utiliser à un moment donné.
  • Assistance. Bénéficiez des contrats de niveau de service et des canaux d'assistance standards de Google Cloud.

Intégrations avec Google Cloud

Toutes les intégrations répertoriées dans cette section sont compatibles avec Dataproc Metastore 1 et Dataproc Metastore 2, sauf indication contraire.

  • Dataproc. Se connecter à un cluster Dataproc pour pouvoir diffuser pour les charges de travail de big data Open Source.
  • BigQuery. Interroger des ensembles de données BigQuery dans Dataproc charges de travail.
  • Dataplex : Interroger les données structurées et semi-structurées découvertes dans un lac Dataplex.
  • Data Catalog. Synchroniser Dataproc Metastore avec Data Catalog pour faciliter la recherche et la découverte des métadonnées.
  • Journalisation et surveillance. Intégrer Dataproc Metastore à Cloud Monitoring et Logging.
  • Authentification et IAM. Appuyez-vous sur l'authentification OAuth standard utilisée par d'autres les produits Google Cloud, qui permettent d'utiliser des rôles Identity and Access Management précis pour activer le contrôle des accès aux ressources individuelles.

Étapes suivantes