레이크하우스를 위한 최적의 데이터 및 메타데이터 형식
이 문서에서는 BigLake로 데이터 레이크하우스를 설계할 때 최적의 데이터 및 메타데이터 형식을 안내합니다.
데이터 레이크하우스는 데이터 웨어하우스의 구조와 데이터 레이크의 원시 데이터 유연성을 결합한 데이터 아키텍처입니다. 이 아키텍처는 다양한 데이터 사용 사례에 유연성과 확장성을 제공합니다.Google Cloud 데이터 레이크하우스 솔루션은 BigLake라고 하며, Google Cloud 및 오픈소스 서비스를 연결하여 분석 및 AI를 위한 통합 인터페이스를 만듭니다. BigLake로 빌드된 데이터 레이크하우스는 다음과 같은 주요 구성요소로 구성됩니다.
- 스토리지 기능: Cloud Storage 또는 BigQuery(추천 개방형 테이블 형식으로 Apache Iceberg 포함)
- 메타스토어: BigLake Metastore
- 쿼리 엔진: BigQuery, Apache Spark, Apache Flink, Trino 또는 기타 오픈소스 엔진
- 데이터 쓰기 및 분석 도구: 다양한 BigQuery 및 오픈소스 연결
BigLake는 이러한 모든 구성요소를 균일한 거버넌스를 갖춘 단일 환경으로 패키징합니다. BigLake 아키텍처 및 혁신에 대한 자세한 내용은 BigLake의 진화를 참조하세요.
metastore 선택
metastore의 경우 BigLake metastore를 사용하는 것이 좋습니다. BigLake metastore는 Google Cloud의 레이크하우스를 위한 완전 관리형 서버리스 metastore입니다. 여러 소스의 메타데이터에 대한 단일 정보 소스를 제공하며 BigQuery 및 다양한 공개 데이터 처리 엔진에서 액세스할 수 있으므로 맞춤설정된 도구를 사용하여 서로 다른 저장소 간에 메타데이터를 복사하고 동기화할 필요가 없습니다. BigLake metastore는 Dataplex Universal Catalog에서 지원되며, 이 카탈로그는 지원되는 모든 엔진에서 통합되고 세분화된 액세스 제어를 제공하며 포괄적인 계보, 데이터 품질, 검색 가능성 기능을 포함하는 엔드 투 엔드 거버넌스를 지원합니다.
테이블 형식 선택
BigLake Metastore를 개방형 레이크하우스의 metastore로 사용하면 테이블 형식에 다음 옵션이 있습니다.
- BigQuery에서 관리되는 데이터의 경우 표준 BigQuery 테이블을 선택합니다. 이러한 테이블은 BigQuery에서 완전히 관리하며 가장 고급 데이터 분석 및 관리 기능이 있습니다. 이러한 테이블을 BigLake Metastore에 연결할 수 있습니다. Iceberg가 아닌 테이블의 경우 이 옵션을 선택하세요.
- BigQuery에서 완전 관리형 환경을 사용하려면 BigQuery의 BigLake Iceberg 테이블을 선택하세요. 이러한 테이블은 BigQuery에서 만들고 Cloud Storage에 저장하는 Iceberg 테이블입니다. BigLake metastore를 사용하는 모든 테이블과 마찬가지로 오픈소스 엔진이나 BigQuery에서 읽을 수 있습니다. 하지만 BigQuery는 직접 쓰기가 가능한 유일한 엔진입니다. 추출, 변환, 로드(ETL) 워크플로를 BigQuery에서 관리하도록 하려면 이 옵션을 선택하세요.
- BigLake Iceberg 테이블을 선택하여 Google Cloud에서 반관리형 환경을 사용합니다. 이러한 테이블은 오픈소스 엔진에서 만들고 Cloud Storage에 저장하는 Iceberg 테이블입니다. BigLake metastore를 사용하는 모든 테이블과 마찬가지로 오픈소스 엔진이나 BigQuery에서 읽을 수 있습니다. 하지만 테이블을 만든 오픈소스 엔진만 테이블에 쓸 수 있습니다. ETL 워크플로를 오픈소스 엔진으로 관리하려면 이 옵션을 선택합니다.
- BigLake metastore 외부의 테이블에는 외부 테이블을 선택합니다. 이러한 테이블의 데이터와 메타데이터는 완전히 자체 관리되며, 개방형 테이블 형식(예: Iceberg, Apache Hudi, Delta Lake)의 기능을 완전히 사용합니다. BigQuery는 이러한 테이블에서만 읽을 수 있습니다. 서드 파티 카탈로그에서 직접 관리하려는 데이터 및 메타데이터에 이 옵션을 선택합니다.
다음 표를 사용하여 표 형식 옵션을 비교하세요.
외부 테이블 | BigLake Iceberg 테이블 | BigQuery의 BigLake Iceberg 테이블 | 표준 BigQuery 테이블 | |
---|---|---|---|---|
metastore | 외부 또는 자체 호스팅 metastore | BigLake metastore | BigLake metastore | BigLake metastore |
스토리지 | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
관리 | 고객 또는 서드 파티 | Google(고도의 관리형 환경) | Google(최고 수준의 관리형 환경) | |
읽기/쓰기 |
오픈소스 엔진(읽기/쓰기) BigQuery(읽기 전용) |
오픈소스 엔진(읽기/쓰기) BigQuery(읽기 전용) |
오픈소스 엔진(Iceberg 라이브러리를 사용한 읽기 전용, BigQuery Storage API와의 읽기/쓰기 상호 운용성) BigQuery(읽기/쓰기) |
오픈소스 엔진(BigQuery Storage API와의 읽기/쓰기 상호 운용성) BigQuery(읽기/쓰기) |
사용 사례 | 마이그레이션, BigQuery 로드를 위한 스테이징 테이블, 자체 관리 | 개방형 레이크하우스 | 개방형 레이크하우스, 분석, 스트리밍, AI를 위한 엔터프라이즈급 스토리지 | 분석, 스트리밍, AI를 위한 엔터프라이즈급 스토리지 |
다음 단계
- BigLake metastore 자세히 알아보기