Dernière mise à jour : 01/05/2026
Apache Iceberg est un format de table Open Source conçu pour les ensembles de données analytiques à grande échelle stockés dans des lacs de données. Les tables Iceberg gèrent les données sous forme de collections de fichiers, offrant une fiabilité, des performances et une flexibilité accrues pour les architectures de données modernes. Vous pouvez considérer qu'il s'agit d'une couche intelligente qui s'ajoute à votre stockage de lac de données, tel que Cloud Storage, et qui offre des fonctionnalités similaires à celles d'une base de données pour vos ensembles de données volumineux. Au lieu de gérer simplement des fichiers, Iceberg gère les tables comme des collections de fichiers de données, ce qui permet d'utiliser des fonctionnalités telles que l'évolution du schéma, les fonctionnalités temporelles et une planification des requêtes plus efficace. Les analystes de données, les data scientists et les ingénieurs de données peuvent ainsi travailler plus facilement et plus efficacement avec les données des lacs de données, et augmenter leurs charges de travail analytiques.
Un lac de données transactionnel ne se contente pas de stocker des données à grande échelle, il prend également en charge les opérations transactionnelles pour garantir l'exactitude et la cohérence des données. Les tables Iceberg permettent d'activer ces propriétés, collectivement appelées ACID.
Les tables Iceberg conviennent à divers cas d'utilisation modernes de lacs de données et de lakehouses, y compris :
Différents profils techniques utilisent les tables Iceberg pour gérer efficacement de grands ensembles de données :
Permet aux utilisateurs qui connaissent le langage SQL standard d'effectuer des opérations complexes sur les lacs de données sans avoir à apprendre un nouveau langage.
Permet de modifier facilement les structures de données (ajouter, renommer ou supprimer des colonnes) sans interrompre les requêtes.
Prend en charge la capture des données modifiées (CDC), ce qui permet aux utilisateurs de traiter uniquement les données qui ont changé depuis la dernière exécution pour améliorer l'efficacité.
Utilise les métadonnées pour éliminer les fichiers inutiles, ce qui accélère l'exécution des requêtes grâce à des techniques telles que le pushdown de prédicat.
Compatible avec différents moteurs comme Spark, Flink, Hive et Presto.
Apache Iceberg introduit une couche de métadonnées qui se trouve au-dessus des fichiers de données de votre lac de données. Ces métadonnées suivent la structure et le contenu de vos tables de manière plus organisée et plus robuste que les systèmes traditionnels basés sur des fichiers. Voici un récapitulatif de ses principaux mécanismes :
L'architecture d'Apache Iceberg implique plusieurs composants clés qui fonctionnent ensemble :
Apache Iceberg améliore considérablement les capacités des lacs de données en ajoutant un format de table fiable et performant. Dans les lacs de données traditionnels sans format de table comme Iceberg, les données ne sont souvent qu'une collection de fichiers. Cela peut entraîner plusieurs problèmes :
Iceberg contourne ces limites en fournissant une couche structurée au-dessus du lac de données. Il apporte des fonctionnalités de type base de données aux lacs de données, les transformant en lakehouses plus puissants et plus faciles à gérer. En gérant les tables comme des collections de fichiers avec des métadonnées riches, Iceberg permet :
Google Cloud fournit un environnement robuste pour exploiter Apache Iceberg. Plusieurs services Google Cloud s'intègrent bien à Iceberg, ce qui permet aux utilisateurs de créer des solutions de lakehouse de données puissantes et évolutives.
Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.