Présentation du métastore BigQuery
.Le métastore BigQuery est un métastore entièrement géré pour les produits d'analyse de données sur Google Cloud. Il fournit une source unique de vérité pour gérer les métadonnées provenant de plusieurs sources. Le métastore est accessible depuis BigQuery et divers moteurs de traitement de données ouverts, ce qui en fait un outil utile pour les analystes et les ingénieurs de données.
Par exemple, vous pouvez utiliser le métastore BigQuery comme catalogue avec des moteurs de requête Open Source tels qu'Apache Spark. Les tables créées à l'aide de Spark peuvent être interrogées à l'aide de BigQuery sans avoir à synchroniser vos métadonnées.
Avantages
Le métastore BigQuery offre plusieurs avantages pour la gestion et l'analyse des données:
- Architecture sans serveur Le métastore BigQuery fournit une architecture sans serveur, ce qui élimine le besoin de gérer des serveurs ou des clusters. Cela permet de réduire les coûts opérationnels, de simplifier le déploiement et de permettre l'ajustement automatique en fonction de la demande.
- Interopérabilité des moteurs Le métastore BigQuery vous permet d'accéder directement aux tables dans BigQuery, ce qui vous permet d'interroger les tables au format ouvert stockées dans BigQuery sans configuration supplémentaire. Par exemple, vous pouvez créer une table dans Spark, puis l'interroger directement dans BigQuery. Cela permet de simplifier votre workflow d'analyse et de réduire le besoin de transfert de données ou de processus ETL complexes.
Expérience utilisateur unifiée Le métastore BigQuery fournit un workflow unifié dans BigQuery et BigQuery Studio. Vous pouvez ainsi utiliser Spark directement dans BigQuery et BigQuery Studio. Exemple :
Tout d'abord, vous pouvez créer une table dans Spark avec un notebook BigQuery Studio.
Vous pouvez ensuite interroger la même table Spark dans la consoleGoogle Cloud .
Intégrations compatibles
Vous pouvez utiliser le métastore BigQuery avec la console Google Cloud , la gcloud CLI ou les API REST BigQuery.
Le métastore BigQuery est compatible avec les intégrations suivantes:
- Formats de tableau Apache Iceberg 1.5.2 ou version ultérieure
- Dataproc Version 2.2 ou ultérieure.
- Moteurs de traitement des données Version 3.3 de Spark ou version ultérieure
- Plugins Plug-in de catalogue Iceberg pour le métastore BigQuery
Différences avec BigLake Metastore
Le métastore BigQuery est le métastore recommandé sur Google Cloud.
Voici les principales différences entre le métastore BigQuery et le métastore BigLake:
BigLake Metastore est un service de métastore autonome distinct de BigQuery et qui n'est compatible qu'avec les tables Iceberg. Il dispose d'un modèle de ressources en trois parties différent. Les tables de BigLake ne sont pas automatiquement détectées à partir de BigQuery.
Le métastore BigQuery est basé sur le catalogue BigQuery et s'intègre directement à BigQuery. Les tables du métastore BigQuery sont modifiables à partir de plusieurs moteurs Open Source, et les mêmes tables peuvent être interrogées à partir de BigQuery. Lorsque vous utilisez BigQuery, il n'existe qu'une seule source de vérité pour vos métadonnées. Par exemple, le métastore BigQuery est compatible avec l'intégration directe avec Spark. Cette intégration offre un workflow plus fluide et permet de réduire la redondance lors du stockage des métadonnées et de l'exécution des tâches.
Étape suivante
- Migrer des données Dataproc Metastore vers le métastore BigQuery
- Utiliser le métastore BigQuery avec Dataproc
- Utiliser le métastore BigQuery avec Dataproc sans serveur