Qu'est-ce que Dataproc Metastore ?

Dataproc Metastore est un médiastore Apache Hive (HMS) sans serveur, entièrement géré, qui fonctionne sur Google Cloud et fonctionne sans serveur.

Dataproc Metastore vous fournit un HMS entièrement compatible, qui est la norme établie dans l'écosystème de données Open Source pour gérer les métadonnées techniques. Cela vous permet de gérer les métadonnées de vos lacs de données et assure l'interopérabilité entre les différents outils de traitement des données que vous utilisez.

Fonctionnement de Dataproc Metastore

Vous pouvez exploiter un service Dataproc Metastore en le connectant à un cluster Dataproc, dont les composants inclus reposent sur un HMS pour piloter la planification et l'exécution des requêtes.

Cette intégration vous permet de conserver les informations de votre table entre les tâches, ou de rendre les métadonnées disponibles pour d'autres clusters et autres moteurs de traitement.

Par exemple, la mise en œuvre d'un métastore peut vous aider à indiquer qu'un sous-ensemble de vos fichiers contient des données sur les revenus, au lieu de suivre manuellement les noms des fichiers. Dans ce cas, vous pouvez définir une table pour ces fichiers et stocker les métadonnées dans Dataproc Metastore. Vous pouvez ensuite la connecter à un cluster Dataproc et interroger la table pour obtenir des informations à l'aide de Hive, de Spark SQL ou d'autres services de requête.

Cas d'utilisation courants

  • Attribuez du sens à vos données. Créer un dépôt de métadonnées centralisé partagé entre les clusters Dataproc éphémères, à l'aide de différents moteurs Open Source Software (OSS), tels qu'Apache Hive, Apache Spark et Presto

  • Créez une vue unifiée de vos données. assurer l'interopérabilité entre les services Google Cloud, tels que Dataproc, Dataplex et BigQuery, ou utiliser d'autres offres de partenaires Open Source sur Google Cloud ;

Fonctionnalités et avantages

  • Compatibilité OSS Connectez-vous à vos piles de traitement de données existantes, comme Apache Hive, Apache Spark et Presto.

  • Gestion. Créez ou mettez à jour un métastore en quelques minutes, avec des tâches de surveillance et d'opération entièrement configurées.

  • Intégration. intégrer des produits Google Cloud existants, par exemple en utilisant un service Dataproc Metastore comme source de métadonnées pour un cluster Dataproc ;

  • Sécurité intégrée. Utilisez les protocoles de sécurité Google Cloud établis, comme Identity and Access Management (IAM) et l'authentification Kerberos.

  • Importation simple. Importez les métadonnées existantes stockées dans une base de données externe dans un métastore.

  • Sauvegardes automatiques. Configurez des sauvegardes automatiques du métastore pour éviter de perdre des données.

  • Surveillance des performances. Définissez des niveaux de performances pour répondre de manière dynamique aux charges de travail et aux pics très intensifs, sans préchauffage ni mise en cache.

  • Évolutivité. Passez d'un niveau de performances à un autre lorsque vous avez besoin de plus de ressources ou créez des métastores pour gérer la charge de travail.

  • Assistance. bénéficier de contrats de niveau de service et de canaux d'assistance Google Cloud standards ;

Intégrations

  • Dataproc:connectez-vous à un cluster Dataproc afin de pouvoir diffuser des métadonnées pour les charges de travail OSS associées au big data.
  • Dataplex: interrogez des données structurées et semi-structurées découvertes dans un lac Dataplex.
  • Data Catalog : synchronisez Dataproc Metastore avec Data Catalog pour permettre la recherche et la découverte de métadonnées.
  • Journalisation et surveillance : intégrez Dataproc Metastore aux produits Cloud Monitoring et Logging.
  • Authentification et IAM : utilisez l'authentification OAuth standard utilisée par d'autres produits Google Cloud, qui est compatible avec l'utilisation de rôles IAM précis pour activer le contrôle des accès à des ressources individuelles.

Versions d'Apache Hive compatibles

Dataproc Metastore est compatible avec un nombre limité de versions d'Apache Hive. Pour en savoir plus, consultez les règles relatives aux versions de Dataproc Metastore.

Concepts fondamentaux

Pour en savoir plus sur Dataproc Metastore, consultez la page Concepts fondamentaux.

Étapes suivantes