Formati ottimali di dati e metadati per i lakehouse
Questo documento illustra i formati ottimali di dati e metadati durante la progettazione della data lakehouse con BigLake.
Una data lakehouse è un'architettura di dati che combina la struttura di un data warehouse con la flessibilità dei dati non elaborati di un data lake. Questa architettura offre flessibilità e scalabilità per un'ampia gamma di casi d'uso dei dati. La soluzione di data lakehouseGoogle Cloud si chiama BigLake, che collega Google Cloud e servizi open source per creare un'interfaccia unificata per l'analisi e l'AI. Una data lakehouse creata con BigLake è composta dai seguenti componenti chiave:
- Funzionalità di archiviazione: Cloud Storage o BigQuery, con Apache Iceberg come formato di tabella aperto consigliato
- Un metastore: BigLake Metastore
- Un motore di query: BigQuery, Apache Spark, Apache Flink, Trino o altri motori open source
- Uno strumento per la scrittura e l'analisi dei dati: varie connessioni BigQuery e open source
BigLake raggruppa tutti questi componenti in un'unica esperienza con una governance uniforme. Per ulteriori informazioni sull'architettura e sulle innovazioni di BigLake, vedi BigLake si è evoluto.
Seleziona un metastore
Per il metastore, ti consigliamo di utilizzare BigLake Metastore. BigLake Metastore è un metastore serverless e completamente gestito per il tuo lakehouse su Google Cloud. Fornisce un'unica fonte attendibile per i metadati provenienti da più origini ed è accessibile da BigQuery e da vari motori di elaborazione dei dati aperti, eliminando la necessità di copiare e sincronizzare i metadati tra diversi repository con strumenti personalizzati. BigLake Metastore è supportato con il catalogo universale Dataplex, che fornisce controlli dell'accesso unificati e granulari su tutti i motori supportati e consente una governance end-to-end che include funzionalità complete di derivazione, qualità e rilevabilità dei dati.
Seleziona un formato di tabella
Con BigLake Metastore come metastore per la tua lakehouse aperta, hai le seguenti opzioni per il formato delle tabelle:
- Scegli tabelle BigQuery standard per i dati gestiti in BigQuery. Queste tabelle sono completamente gestite da BigQuery e dispongono delle funzionalità di gestione e analisi dei dati più avanzate. Puoi comunque connettere queste tabelle a BigLake Metastore. Scegli questa opzione per le tabelle non Iceberg.
- Scegli Tabelle BigLake Iceberg in BigQuery per un'esperienza completamente gestita su BigQuery. Queste tabelle sono tabelle Iceberg che crei da BigQuery e che memorizzi in Cloud Storage. Come tutte le tabelle che utilizzano BigLake Metastore, possono essere lette da motori open source o BigQuery. Tuttavia, BigQuery è l'unico motore che può scrivere direttamente in questi formati. Scegli questa opzione se vuoi che il flusso di lavoro di estrazione, trasformazione e caricamento (ETL) sia gestito da BigQuery.
- Scegli Tabelle BigLake Iceberg per un'esperienza semi-gestita su Google Cloud. Queste tabelle sono tabelle Iceberg che crei da motori open source e archivi in Cloud Storage. Come tutte le tabelle che utilizzano il metastore BigLake, possono essere lette da motori open source o BigQuery. Tuttavia, solo il motore open source che ha creato la tabella può scriverci. Scegli questa opzione se vuoi che il flusso di lavoro ETL venga gestito dal motore open source.
- Scegli tabelle esterne per le tabelle al di fuori del metastore BigLake. I dati e i metadati di queste tabelle sono completamente autogestiti, in quanto fai affidamento sulle funzionalità dei formati di tabelle aperte (come Iceberg, Apache Hudi o Delta Lake). BigQuery può solo leggere da queste tabelle. Scegli questa opzione per i dati e i metadati che vuoi gestire autonomamente in un catalogo di terze parti.
Utilizza la tabella seguente per confrontare le opzioni di formato della tabella:
Tabelle esterne | Tabelle BigLake Iceberg | Tabelle BigLake Iceberg in BigQuery | Tabelle BigQuery standard | |
---|---|---|---|---|
Metastore | Metastore esterno o self-hosting | BigLake metastore | BigLake metastore | BigLake metastore |
Spazio di archiviazione | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
Gestione | Cliente o terza parte | Google (esperienza altamente gestita) | Google (esperienza più gestita) | |
Lettura / scrittura |
Motori open source (lettura/scrittura) BigQuery (sola lettura) |
Motori open source (lettura/scrittura) BigQuery (sola lettura) |
Motori open source (sola lettura con librerie Iceberg, interoperabilità di lettura/scrittura con l'API BigQuery Storage)
BigQuery (lettura/scrittura) |
Motori open source (interoperabilità di lettura/scrittura con
l'API BigQuery Storage) BigQuery (lettura/scrittura) |
Use cases | Migrazioni, tabelle di gestione temporanea per i caricamenti BigQuery, autogestione | Open lakehouse | Lakehouse aperta, spazio di archiviazione di livello aziendale per analisi, streaming e AI | Spazio di archiviazione di livello aziendale per analisi, streaming e AI |
Passaggi successivi
- Scopri di più su BigLake Metastore.