Última actualización: 01/05/2026
Apache Iceberg es un formato de tabla de código abierto diseñado para conjuntos de datos analíticos a gran escala almacenados en data lakes. Las tablas de Iceberg gestionan los datos como colecciones de archivos, lo que ofrece una mayor fiabilidad, rendimiento y flexibilidad para las arquitecturas de datos modernas. Puedes pensar en ella como una capa inteligente que se sitúa encima del almacenamiento de tu data lake, como Cloud Storage, y que proporciona funciones similares a las de una base de datos para tus conjuntos de datos de gran tamaño. En lugar de gestionar archivos, Iceberg gestiona tablas como colecciones de archivos de datos, lo que permite usar funciones como la evolución de esquemas, el viaje en el tiempo y una planificación de consultas más eficiente. De esta forma, los analistas, científicos e ingenieros de datos pueden trabajar con datos de lagos de datos con mayor facilidad y eficiencia, y aumentar sus cargas de trabajo analíticas.
Un data lake transaccional no solo almacena datos a escala, sino que también admite operaciones transaccionales para asegurar la precisión y la coherencia de los datos. Las tablas de Iceberg permiten estas propiedades, que se conocen colectivamente como ACID.
Las tablas de Iceberg son adecuadas para una gran variedad de casos prácticos de data lakes y lakehouses modernos, entre los que se incluyen los siguientes:
Distintos perfiles técnicos aprovechan las tablas de Iceberg para gestionar grandes conjuntos de datos de forma eficiente:
Permite a los usuarios que conocen el lenguaje SQL estándar realizar operaciones complejas en data lakes sin tener que aprender un nuevo lenguaje.
Permite hacer cambios en las estructuras de datos (añadir, cambiar el nombre o quitar columnas) de manera sencilla sin interrumpir las consultas.
Admite la captura de datos de cambios (CDC), lo que permite a los usuarios procesar solo los datos que han cambiado desde la última ejecución para mejorar la eficiencia.
Usa metadatos para descartar archivos innecesarios, lo que acelera la ejecución de las consultas mediante técnicas como el filtrado de predicados.
Compatible con varios motores, como Spark, Flink, Hive y Presto.
Apache Iceberg introduce una capa de metadatos que se sitúa por encima de los propios archivos de datos de tu data lake. Estos metadatos registran la estructura y el contenido de tus tablas de una forma más organizada y sólida que los sistemas tradicionales basados en archivos. A continuación, se describen sus mecanismos clave:
La arquitectura de Apache Iceberg consta de varios componentes clave que funcionan en conjunto:
Apache Iceberg mejora significativamente las funciones de los data lakes al añadir un formato de tabla fiable y eficaz. En los lagos de datos tradicionales que no tienen un formato de tabla como Iceberg, los datos suelen ser solo una colección de archivos. Esto puede dar lugar a varios problemas:
Iceberg aborda estas limitaciones proporcionando una capa estructurada encima del data lake. Aporta funciones similares a las de una base de datos a los data lakes, convirtiéndolos en data lakehouses más potentes y fáciles de gestionar. Al gestionar las tablas como colecciones de archivos con metadatos detallados, Iceberg permite:
Google Cloud proporciona un entorno sólido para aprovechar Apache Iceberg. Varios servicios de Google Cloud se integran bien con Iceberg, lo que permite a los usuarios crear soluciones de data lakehouse potentes y escalables.
Empieza a crear en Google Cloud con 300 USD en crédito sin coste económico y más de 20 productos que siempre se ofrecen sin coste.