Formati ottimali di dati e metadati per i lakehouse

Questo documento illustra i formati ottimali di dati e metadati durante la progettazione della data lakehouse con BigLake.

Una data lakehouse è un'architettura di dati che combina la struttura di un data warehouse con la flessibilità dei dati non elaborati di un data lake. Questa architettura offre flessibilità e scalabilità per un'ampia gamma di casi d'uso dei dati. La soluzione di data lakehouseGoogle Cloud si chiama BigLake, che collega Google Cloud e servizi open source per creare un'interfaccia unificata per l'analisi e l'AI. Una data lakehouse creata con BigLake è composta dai seguenti componenti chiave:

  • Funzionalità di archiviazione: Cloud Storage o BigQuery, con Apache Iceberg come formato di tabella aperto consigliato
  • Un metastore: BigLake Metastore
  • Un motore di query: BigQuery, Apache Spark, Apache Flink, Trino o altri motori open source
  • Uno strumento per la scrittura e l'analisi dei dati: varie connessioni BigQuery e open source

BigLake raggruppa tutti questi componenti in un'unica esperienza con una governance uniforme. Per ulteriori informazioni sull'architettura e sulle innovazioni di BigLake, vedi BigLake si è evoluto.

Seleziona un metastore

Per il metastore, ti consigliamo di utilizzare BigLake Metastore. BigLake Metastore è un metastore serverless e completamente gestito per il tuo lakehouse su Google Cloud. Fornisce un'unica fonte attendibile per i metadati provenienti da più origini ed è accessibile da BigQuery e da vari motori di elaborazione dei dati aperti, eliminando la necessità di copiare e sincronizzare i metadati tra diversi repository con strumenti personalizzati. BigLake Metastore è supportato con il catalogo universale Dataplex, che fornisce controlli dell'accesso unificati e granulari su tutti i motori supportati e consente una governance end-to-end che include funzionalità complete di derivazione, qualità e rilevabilità dei dati.

Seleziona un formato di tabella

Con BigLake Metastore come metastore per la tua lakehouse aperta, hai le seguenti opzioni per il formato delle tabelle:

  • Scegli tabelle BigQuery standard per i dati gestiti in BigQuery. Queste tabelle sono completamente gestite da BigQuery e dispongono delle funzionalità di gestione e analisi dei dati più avanzate. Puoi comunque connettere queste tabelle a BigLake Metastore. Scegli questa opzione per le tabelle non Iceberg.
  • Scegli Tabelle BigLake Iceberg in BigQuery per un'esperienza completamente gestita su BigQuery. Queste tabelle sono tabelle Iceberg che crei da BigQuery e che memorizzi in Cloud Storage. Come tutte le tabelle che utilizzano BigLake Metastore, possono essere lette da motori open source o BigQuery. Tuttavia, BigQuery è l'unico motore che può scrivere direttamente in questi formati. Scegli questa opzione se vuoi che il flusso di lavoro di estrazione, trasformazione e caricamento (ETL) sia gestito da BigQuery.
  • Scegli Tabelle BigLake Iceberg per un'esperienza semi-gestita su Google Cloud. Queste tabelle sono tabelle Iceberg che crei da motori open source e archivi in Cloud Storage. Come tutte le tabelle che utilizzano il metastore BigLake, possono essere lette da motori open source o BigQuery. Tuttavia, solo il motore open source che ha creato la tabella può scriverci. Scegli questa opzione se vuoi che il flusso di lavoro ETL venga gestito dal motore open source.
  • Scegli tabelle esterne per le tabelle al di fuori del metastore BigLake. I dati e i metadati di queste tabelle sono completamente autogestiti, in quanto fai affidamento sulle funzionalità dei formati di tabelle aperte (come Iceberg, Apache Hudi o Delta Lake). BigQuery può solo leggere da queste tabelle. Scegli questa opzione per i dati e i metadati che vuoi gestire autonomamente in un catalogo di terze parti.

Utilizza la tabella seguente per confrontare le opzioni di formato della tabella:

Tabelle esterne Tabelle BigLake Iceberg Tabelle BigLake Iceberg in BigQuery Tabelle BigQuery standard
Metastore Metastore esterno o self-hosting BigLake metastore BigLake metastore BigLake metastore
Spazio di archiviazione Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Gestione Cliente o terza parte Google Google (esperienza altamente gestita) Google (esperienza più gestita)
Lettura / scrittura Motori open source (lettura/scrittura)

BigQuery (sola lettura)
Motori open source (lettura/scrittura)

BigQuery (sola lettura)
Motori open source (sola lettura con librerie Iceberg, interoperabilità di lettura/scrittura con l'API BigQuery Storage)

BigQuery (lettura/scrittura)

Motori open source (interoperabilità di lettura/scrittura con l'API BigQuery Storage)

BigQuery (lettura/scrittura)

Use cases Migrazioni, tabelle di gestione temporanea per i caricamenti BigQuery, autogestione Open lakehouse Lakehouse aperta, spazio di archiviazione di livello aziendale per analisi, streaming e AI Spazio di archiviazione di livello aziendale per analisi, streaming e AI

Passaggi successivi