Einführung in den BigQuery-Metastore

Der BigQuery-Metastore ist ein vollständig verwalteter Metastore für Produkte zur Datenanalyse in der Google Cloud. Es bietet eine zentrale Datenquelle für die Verwaltung von Metadaten aus mehreren Quellen. Der Metastore ist über BigQuery und verschiedene Open-Source-Datenverarbeitungs-Engines zugänglich. Er ist daher ein nützliches Tool für Datenanalysten und Entwickler.

Sie können beispielsweise den BigQuery-Metastore als Katalog mit Open-Source-Abfragemaschinen wie Apache Spark verwenden. Mit Spark erstellte Tabellen können mit BigQuery abgefragt werden, ohne dass Sie Ihre Metadaten synchronisieren müssen.

Vorteile

Der BigQuery-Metastore bietet mehrere Vorteile für die Datenverwaltung und -analyse:

  • Serverlose Architektur. Der BigQuery-Metastore bietet eine serverlose Architektur, sodass keine Server- oder Clusterverwaltung erforderlich ist. So lässt sich der operative Aufwand reduzieren, die Bereitstellung vereinfachen und eine automatische Skalierung nach Bedarf ermöglichen.
  • Engine-Interoperabilität Der BigQuery-Metastore bietet direkten Tabellenzugriff in BigQuery. So können Sie Tabellen im offenen Format, die in BigQuery gespeichert sind, ohne zusätzliche Konfiguration abfragen. Sie können beispielsweise eine Tabelle in Spark erstellen und dann direkt in BigQuery abfragen. So können Sie Ihren Analyseablauf optimieren und die Notwendigkeit komplexer Datenübertragungen oder ETL-Prozesse reduzieren.
  • Einheitliche Nutzererfahrung Der BigQuery-Metastore bietet einen einheitlichen Workflow für BigQuery und BigQuery Studio. So können Sie Spark direkt in BigQuery und BigQuery Studio verwenden. Beispiel:

    Sie können zuerst eine Tabelle in Spark mit einem BigQuery Studio-Notebook erstellen.

    Tabelle in BQMS erstellen

    Als Nächstes können Sie dieselbe Spark-Tabelle in derGoogle Cloud Console abfragen.

    Tabelle in BQMS abfragen

Unterstützte Einbindungen

Sie können den BigQuery-Metastore mit der Google Cloud -Konsole, der gcloud CLI oder den BigQuery REST APIs verwenden.

Der BigQuery-Metastore unterstützt die folgenden Integrationen:

Unterschiede zum BigLake Metastore

Der BigQuery-Metastore ist der empfohlene Metastore in Google Cloud.

Die wichtigsten Unterschiede zwischen dem BigQuery-Metastore und dem BigLake-Metastore sind:

  • BigLake Metastore ist ein eigenständiger Metastore-Dienst, der sich von BigQuery unterscheidet und nur Iceberg-Tabellen unterstützt. Es hat ein anderes dreiteiliges Ressourcenmodell. Tabellen in BigLake werden nicht automatisch in BigQuery erkannt.

  • Der BigQuery-Metastore basiert auf dem BigQuery-Katalog und ist direkt in BigQuery eingebunden. Tabellen im BigQuery-Metastore können über mehrere Open-Source-Engines geändert werden und dieselben Tabellen können über BigQuery abgefragt werden. Wenn Sie BigQuery verwenden, gibt es nur eine einzige Quelle für Ihre Metadaten. Der BigQuery-Metastore unterstützt beispielsweise die direkte Integration mit Spark. Diese Integration sorgt für einen reibungsloseren Workflow und hilft, Redundanzen beim Speichern von Metadaten und Ausführen von Jobs zu reduzieren.

Nächste Schritte