최종 업데이트: 2026년 5월 1일
Apache Iceberg는 데이터 레이크에 저장된 대규모 분석 데이터 세트를 위해 설계된 오픈소스 테이블 형식입니다. Iceberg 테이블은 데이터를 파일 모음으로 관리하여 최신 데이터 아키텍처에 향상된 안정성, 성능, 유연성을 제공합니다. Cloud Storage와 같은 데이터 레이크 스토리지 위에 위치한 지능형 레이어로 생각하면 됩니다. 방대한 데이터 세트에 데이터베이스와 유사한 기능을 제공합니다. Iceberg는 단순히 파일을 관리하는 것이 아니라 테이블을 데이터 파일의 컬렉션으로 관리하여 스키마 변경, 시간 이동, 보다 효율적인 쿼리 계획과 같은 기능을 지원합니다. 이를 통해 데이터 분석가, 데이터 과학자, 엔지니어는 데이터 레이크의 데이터를 더욱 쉽고 효율적으로 처리하고 분석 워크로드를 늘릴 수 있습니다.
트랜잭션 데이터 레이크는 대규모로 데이터를 저장할 뿐만 아니라 트랜잭션 작업을 지원하여 데이터의 정확성과 일관성을 보장합니다. Iceberg 테이블은 ACID라고 하는 이러한 속성을 지원합니다.
Iceberg 테이블은 다음과 같은 다양한 최신 데이터 레이크 및 레이크하우스 사용 사례에 적합합니다.
다양한 기술 페르소나가 Iceberg 테이블을 활용하여 대규모 데이터 세트를 효율적으로 관리합니다.
표준 SQL에 익숙한 사용자가 새로운 언어를 학습하지 않고도 복잡한 데이터 레이크 작업을 수행할 수 있습니다.
쿼리를 중단하지 않고 데이터 구조를 원활하게 변경할 수 있습니다(열 추가, 이름 바꾸기 또는 삭제).
변경 데이터 캡처(CDC)를 지원하므로 사용자가 마지막 실행 이후 변경된 데이터만 처리하여 효율성을 개선할 수 있습니다.
메타데이터를 사용하여 불필요한 파일을 가지치기하고 서술어 푸시다운과 같은 기법을 통해 쿼리 실행을 가속화합니다.
Spark, Flink, Hive, Presto와 같은 다양한 엔진과 호환됩니다.
Apache Iceberg는 데이터 레이크의 실제 데이터 파일 위에 있는 메타데이터 레이어를 도입합니다. 이 메타데이터는 기존의 파일 기반 시스템보다 더 체계적이고 강력한 방식으로 테이블의 구조와 콘텐츠를 추적합니다. 주요 메커니즘을 다음과 같이 세분화할 수 있습니다.
Apache Iceberg의 아키텍처에는 함께 작동하는 여러 주요 구성요소가 포함됩니다.
Apache Iceberg는 안정적이고 성능이 우수한 테이블 형식을 추가하여 데이터 레이크의 기능을 크게 향상합니다. Iceberg와 같은 테이블 형식이 없는 기존 데이터 레이크에서는 데이터가 단순히 파일 컬렉션인 경우가 많습니다. 이로 인해 다음과 같은 문제가 발생할 수 있습니다.
Iceberg는 데이터 레이크 위에 구조화된 레이어를 제공하여 이러한 제한사항을 해결합니다. 데이터 레이크에 데이터베이스와 유사한 기능을 제공하여 더 강력하고 관리하기 쉬운 데이터 레이크하우스로 변환합니다. 풍부한 메타데이터가 포함된 파일의 컬렉션으로 테이블을 관리하는 Iceberg를 사용하면 다음과 같은 이점이 있습니다.
Google Cloud는 Apache Iceberg를 활용하기 위한 강력한 환경을 제공합니다. 여러 Google Cloud 서비스가 Iceberg와 원활하게 통합되어 사용자가 강력하고 확장 가능한 데이터 레이크하우스 솔루션을 빌드할 수 있습니다.