Ultimo aggiornamento: 01/05/2026
Apache Iceberg è un formato di tabella open source progettato per set di dati analitici su larga scala archiviati in data lake. Le tabelle Iceberg gestiscono i dati come raccolte di file, offrendo maggiore affidabilità, prestazioni e flessibilità per le moderne architetture di dati. Immaginalo come un livello intelligente che si trova al di sopra dello spazio di archiviazione del data lake, come Cloud Storage, e fornisce funzionalità simili a quelle di un database per i tuoi enormi set di dati. Invece di gestire semplicemente i file, Iceberg gestisce le tabelle come raccolte di file di dati, consentendo funzionalità come l'evoluzione dello schema, lo spostamento cronologico e una pianificazione delle query più efficiente. Ciò consente ad analisti di dati, data scientist e ingegneri di lavorare con i dati nei data lake con maggiore facilità ed efficienza e di aumentare i carichi di lavoro analitici.
Un data lake transazionale non solo archivia i dati su larga scala, ma supporta anche operazioni transazionali per garantire che i dati siano accurati e coerenti. Le tabelle Iceberg abilitano queste proprietà, note collettivamente come ACID.
Le tabelle Iceberg sono adatte a una varietà di casi d'uso moderni di data lake e lakehouse, tra cui:
Diverse figure tecniche sfruttano le tabelle Iceberg per gestire in modo efficiente set di dati di grandi dimensioni:
Consente agli utenti che conoscono l'SQL standard di eseguire operazioni complesse sul data lake senza dover apprendere un nuovo linguaggio.
Consente di apportare modifiche senza interruzioni alle strutture dei dati (aggiungendo, rinominando o rimuovendo colonne) senza interrompere le query.
Supporta Change Data Capture (CDC), consentendo agli utenti di elaborare solo i dati che sono cambiati dall'ultima esecuzione per migliorare l'efficienza.
Utilizza i metadati per eliminare i file non necessari, accelerando l'esecuzione delle query attraverso tecniche come il pushdown dei predicati.
Compatibile con vari motori come Spark, Flink, Hive e Presto.
Apache Iceberg introduce un livello di metadati che si trova al di sopra dei file di dati effettivi nel data lake. Questi metadati monitorano la struttura e il contenuto delle tabelle in modo più organizzato e solido rispetto ai tradizionali sistemi basati su file. Ecco una suddivisione dei suoi meccanismi principali:
L'architettura di Apache Iceberg coinvolge diversi componenti chiave che lavorano insieme:
Apache Iceberg migliora in modo significativo le funzionalità dei data lake aggiungendo un formato di tabella affidabile ad alte prestazioni. Nei data lake tradizionali senza un formato di tabella come Iceberg, i dati sono spesso solo una raccolta di file. Ciò può comportare diverse sfide:
Iceberg risolve queste limitazioni fornendo un livello strutturato al di sopra del data lake. Offre funzionalità simili a quelle di un database ai data lake, trasformandoli in data lakehouse più potenti e gestibili. Gestendo le tabelle come raccolte di file con metadati avanzati, Iceberg offre:
Google Cloud offre un ambiente solido per sfruttare Apache Iceberg. Diversi servizi di Google Cloud si integrano bene con Iceberg, consentendo agli utenti di creare soluzioni di data lakehouse potenti e scalabili.
Inizia a creare su Google Cloud con 300 $ di crediti senza costi e oltre 20 prodotti sempre senza costi.