Présentation du métastore BigQuery

.

Le métastore BigQuery est un métastore entièrement géré pour les produits d'analyse de données sur Google Cloud. Il fournit une source unique de vérité pour gérer les métadonnées provenant de plusieurs sources. Le métastore est accessible depuis BigQuery et divers moteurs de traitement de données Open Source, ce qui en fait un outil utile pour les analystes et les ingénieurs de données.

Par exemple, vous pouvez utiliser le métastore BigQuery comme catalogue avec des moteurs de requête Open Source tels qu'Apache Spark. Les tables créées à l'aide de Spark peuvent être interrogées à l'aide de BigQuery sans avoir à synchroniser vos métadonnées.

Avantages

Le métastore BigQuery offre plusieurs avantages pour la gestion et l'analyse des données:

  • Architecture sans serveur Le métastore BigQuery fournit une architecture sans serveur, ce qui élimine la nécessité de gérer des serveurs ou des clusters. Cela permet de réduire les coûts opérationnels, de simplifier le déploiement et de permettre un scaling automatique en fonction de la demande.
  • Interopérabilité des moteurs Le métastore BigQuery vous permet d'accéder directement aux tables dans BigQuery, ce qui vous permet d'interroger les tables au format ouvert stockées dans BigQuery sans configuration supplémentaire. Par exemple, vous pouvez créer une table dans Spark, puis l'interroger directement dans BigQuery. Cela permet de simplifier votre workflow d'analyse et de réduire le besoin de transfert de données ou de processus ETL complexes.
  • Expérience utilisateur unifiée. BigQuery Metastore fournit un workflow unifié dans BigQuery et BigQuery Studio. Vous pouvez ainsi utiliser Spark directement dans BigQuery et BigQuery Studio. Exemple :

    Tout d'abord, vous pouvez créer une table dans Spark avec un notebook BigQuery Studio.

    Créer une table dans BQMS

    Vous pouvez ensuite interroger le même tableau Spark dans la console Google Cloud.

    Interroger une table dans BQMS

Intégrations compatibles

Vous pouvez utiliser le métastore BigQuery avec la console Google Cloud, la CLI gcloud ou les API REST BigQuery.

BigQuery Metastore est compatible avec les intégrations suivantes:

Différences avec BigLake Metastore

BigQuery Metastore est le métastore recommandé sur Google Cloud.

Voici les principales différences entre le métastore BigQuery et le métastore BigLake:

  • BigLake Metastore est un service de métastore autonome distinct de BigQuery et qui n'est compatible qu'avec les tables Iceberg. Il présente un modèle de ressources en trois parties différent. Les tables de BigLake ne sont pas automatiquement détectées à partir de BigQuery.

  • Le métastore BigQuery est basé sur le catalogue BigQuery et s'intègre directement à BigQuery. Les tables du métastore BigQuery sont modifiables à partir de plusieurs moteurs Open Source, et les mêmes tables peuvent être interrogées à partir de BigQuery. Lorsque vous utilisez BigQuery, il n'existe qu'une seule source de vérité pour vos métadonnées. Par exemple, BigQuery Metastore est compatible avec l'intégration directe à Spark. Cette intégration offre un workflow plus fluide et permet de réduire la redondance lors du stockage des métadonnées et de l'exécution des tâches.

Étape suivante