Terakhir Diperbarui: 01/05/2026
Apache Iceberg adalah format tabel open source yang dirancang untuk set data analisis berskala besar yang disimpan di data lake. Tabel Iceberg mengelola data sebagai kumpulan file, sehingga menawarkan keandalan, performa, dan fleksibilitas yang lebih baik untuk arsitektur data modern. Anggap ini sebagai lapisan cerdas yang berada di atas penyimpanan data lake Anda, seperti Cloud Storage, yang memberikan kemampuan seperti database untuk set data besar Anda. Iceberg tidak hanya mengelola file, tetapi juga mengelola tabel sebagai kumpulan file data, sehingga memungkinkan fitur seperti evolusi skema, perjalanan waktu, dan perencanaan kueri yang lebih efisien. Hal ini memungkinkan analis data, data scientist, dan engineer untuk bekerja dengan data di data lake dengan lebih mudah dan efisien, serta meningkatkan workload analisis mereka.
Data lake transaksional tidak hanya menyimpan data dalam skala besar, tetapi juga mendukung operasi transaksional untuk memastikan data akurat dan konsisten. Tabel Iceberg memungkinkan properti ini, yang secara kolektif dikenal sebagai ACID.
Tabel Iceberg cocok untuk berbagai kasus penggunaan data lake dan data lakehouse modern, termasuk:
Berbagai persona teknis memanfaatkan tabel Iceberg untuk mengelola set data besar secara efisien:
Memungkinkan pengguna yang terbiasa dengan SQL standar untuk melakukan operasi data lake yang kompleks tanpa perlu mempelajari bahasa baru.
Memungkinkan perubahan yang lancar pada struktur data (menambah, mengganti nama, atau menghapus kolom) tanpa mengganggu kueri.
Mendukung Pengambilan Data Perubahan (CDC), yang memungkinkan pengguna memproses data yang berubah sejak proses terakhir untuk meningkatkan efisiensi.
Menggunakan metadata untuk memangkas file yang tidak diperlukan, sehingga mempercepat eksekusi kueri melalui teknik seperti predicate pushdown.
Kompatibel dengan berbagai mesin seperti Spark, Flink, Hive, dan Presto.
Apache Iceberg memperkenalkan lapisan metadata yang berada di atas file data aktual di data lake Anda. Metadata ini melacak struktur dan konten tabel Anda dengan cara yang lebih teratur dan andal daripada sistem berbasis file tradisional. Berikut perincian mekanisme utamanya:
Arsitektur Apache Iceberg melibatkan beberapa komponen utama yang bekerja sama:
Apache Iceberg meningkatkan kemampuan data lake secara signifikan dengan menambahkan format tabel yang andal dan berperforma tinggi. Di data lake tradisional tanpa format tabel seperti Iceberg, data sering kali hanya berupa kumpulan file. Hal ini dapat menyebabkan beberapa tantangan:
Iceberg mengatasi batasan ini dengan menyediakan lapisan terstruktur di atas data lake. Iceberg menghadirkan fitur seperti database ke data lake, sehingga mengubahnya menjadi data lakehouse yang lebih canggih dan mudah dikelola. Dengan mengelola tabel sebagai kumpulan file dengan metadata yang kaya, Iceberg memungkinkan:
Google Cloud menyediakan lingkungan yang andal untuk memanfaatkan Apache Iceberg. Beberapa layanan Google Cloud terintegrasi dengan baik dengan Iceberg, sehingga pengguna dapat membangun solusi data lakehouse yang canggih dan skalabel.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.