Optimale Daten- und Metadatenformate für Lakehouses

In diesem Dokument erfahren Sie, welche Daten- und Metadatenformate sich am besten für die Gestaltung Ihres Data Lakehouse mit BigLake eignen.

Ein Data Lakehouse ist eine Datenarchitektur, die die Struktur eines Data Warehouse mit der Flexibilität von Rohdaten eines Data Lake kombiniert. Diese Architektur bietet Flexibilität und Skalierbarkeit für eine Vielzahl von Datenanwendungsfällen. DieGoogle Cloud -Data Lakehouse-Lösung heißt BigLake. Sie verbindet Google Cloud - und Open-Source-Dienste, um eine einheitliche Schnittstelle für Analysen und KI zu schaffen. Ein Data Lakehouse, das mit BigLake erstellt wurde, besteht aus den folgenden Hauptkomponenten:

  • Speicherfunktionen: Cloud Storage oder BigQuery mit Apache Iceberg als empfohlenes offenes Tabellenformat
  • Metastore: BigLake Metastore
  • Eine Abfrage-Engine: BigQuery, Apache Spark, Apache Flink, Trino oder andere Open-Source-Engines
  • Tool zum Schreiben und Analysieren von Daten: verschiedene BigQuery- und Open-Source-Verbindungen

BigLake fasst alle diese Komponenten in einer einzigen Umgebung mit einheitlicher Governance zusammen. Weitere Informationen zur BigLake-Architektur und zu Innovationen finden Sie unter BigLake evolved.

Metastore auswählen

Für Ihren Metastore empfehlen wir die Verwendung von BigLake Metastore. BigLake Metastore ist ein vollständig verwalteter und serverloser Metastore für Ihr Lakehouse in Google Cloud. BigLake Metastore bietet eine zentrale Single Source of Truth für Metadaten aus mehreren Quellen und ist über BigQuery und verschiedene offene Datenverarbeitungs-Engines zugänglich. So müssen Metadaten nicht mehr mit benutzerdefinierten Tools zwischen verschiedenen Repositorys kopiert und synchronisiert werden. Der BigLake-Metastore wird vom Dataplex Universal Catalog unterstützt. Dieser bietet einheitliche und detaillierte Zugriffssteuerungen für alle unterstützten Engines und ermöglicht eine End-to-End-Governance mit umfassenden Funktionen für Herkunft, Datenqualität und Auffindbarkeit.

Tabellenformat auswählen

Wenn Sie BigLake Metastore als Metastore für Ihr offenes Lakehouse verwenden, haben Sie folgende Optionen für das Format Ihrer Tabellen:

  • Wählen Sie BigQuery-Standardtabellen für Daten aus, die in BigQuery verwaltet werden. Diese Tabellen werden vollständig von BigQuery verwaltet und bieten die fortschrittlichsten Funktionen für Datenanalyse und ‑verwaltung. Sie können diese Tabellen weiterhin mit dem BigLake-Metastore verbinden. Wählen Sie diese Option für Tabellen aus, die keine Iceberg-Tabellen sind.
  • Wählen Sie BigLake Iceberg-Tabellen in BigQuery für eine vollständig verwaltete Umgebung in BigQuery aus. Diese Tabellen sind Iceberg-Tabellen, die Sie in BigQuery erstellen und in Cloud Storage speichern. Wie alle Tabellen, die BigLake Metastore verwenden, können sie von Open-Source-Engines oder BigQuery gelesen werden. BigQuery ist jedoch die einzige Engine, die direkt in diese schreiben kann. Wählen Sie diese Option aus, wenn Ihr ETL-Workflow (Extrahieren, Transformieren und Laden) von BigQuery verwaltet werden soll.
  • Wählen Sie BigLake Iceberg-Tabellen für eine teilweise verwaltete Umgebung auf Google Cloudaus. Diese Tabellen sind Iceberg-Tabellen, die Sie aus Open-Source-Engines erstellen und in Cloud Storage speichern. Wie alle Tabellen, die den BigLake-Metastore verwenden, können sie von Open-Source-Engines oder BigQuery gelesen werden. Die Open-Source-Engine, mit der die Tabelle erstellt wurde, ist jedoch die einzige Engine, die in die Tabelle schreiben kann. Wählen Sie diese Option aus, wenn Ihr ETL-Workflow von der Open-Source-Engine verwaltet werden soll.
  • Wählen Sie externe Tabellen für Tabellen außerhalb des BigLake-Metastores aus. Die Daten und Metadaten dieser Tabellen werden vollständig selbst verwaltet. Sie verlassen sich dabei vollständig auf die Funktionen offener Tabellenformate wie Iceberg, Apache Hudi oder Delta Lake. BigQuery kann nur Daten aus diesen Tabellen lesen. Wählen Sie diese Option für Daten und Metadaten aus, die Sie selbst in einem Drittanbieterkatalog verwalten möchten.

In der folgenden Tabelle finden Sie einen Vergleich der Optionen für das Tabellenformat:

Externe Tabellen BigLake Iceberg-Tabellen BigLake-Iceberg-Tabellen in BigQuery Standard-BigQuery-Tabellen
Metastore Externer oder selbst gehosteter Metastore BigLake Metastore BigLake Metastore BigLake Metastore
Speicherplatz Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Verwaltung Kunde oder Drittanbieter Google Google (stark verwaltete Umgebung) Google (am meisten verwaltete Erfahrung)
Lesen / Schreiben Open-Source-Engines (Lesen/Schreiben)

BigQuery (schreibgeschützt)
Open-Source-Engines (Lesen/Schreiben)

BigQuery (schreibgeschützt)
Open-Source-Engines (nur Lesezugriff mit Iceberg-Bibliotheken, Lese-/Schreibkompatibilität mit BigQuery Storage API)

BigQuery (Lese-/Schreibzugriff)

Open-Source-Engines (Lese-/Schreibkompatibilität mit der BigQuery Storage API)

BigQuery (Lesen/Schreiben)

Use cases Migrationen, Staging-Tabellen für BigQuery-Ladevorgänge, Selbstverwaltung Offenes Lakehouse Offenes Lakehouse, Speicher auf Unternehmensniveau für Analysen, Streaming und KI Speicher der Enterprise-Klasse für Analysen, Streaming und KI

Nächste Schritte