레이크 및 영역 정보

기업의 데이터는 여러 데이터 레이크, 데이터 웨어하우스, 데이터 마트에 분산되어 있는 경우가 많습니다. Dataplex Universal Catalog는 분산 데이터를 통합하고 다양한 데이터 애셋에 논리적 구조를 적용하여 데이터 거버넌스를 간소화하는 데이터 패브릭입니다.

Dataplex Universal Catalog는 레이크, 영역, 애셋, 항목과 같은 구조를 사용하여 기본 데이터 스토리지 시스템을 추상화합니다.

레이크

레이크는 데이터 도메인 또는 비즈니스 단위를 나타내는 논리적 구조입니다. 예를 들어 데이터를 그룹 사용 현황을 기준으로 구성하려면 각 부서(예: 판매, 영업, 재무)의 레이크를 설정하면 됩니다.

영역

영역은 레이크 내의 하위 도메인으로, 다음을 기준으로 데이터를 분류하는 데 유용합니다.

  • 단계: 랜딩, 원시, 선별된 데이터 분석, 선별된 데이터 과학 등
  • 사용: 데이터 계약 등
  • 제한: 보안 제어 및 사용자 액세스 수준 등

영역에는 두 가지 유형이 있습니다.

  • 원시 데이터 영역: 원시 형식이며 엄격한 유형 확인이 적용되지 않는 데이터를 포함합니다.

  • 선별 데이터 영역: 일정한 형식으로 정리되어 분석 준비를 마친 데이터를 포함합니다. 데이터는 열 형식이고 하이브 파티션이 적용되며 Parquet, Avro, Orc 파일 또는 BigQuery 테이블에 저장됩니다. 데이터는 유형 확인을 거칩니다. 예를 들어 CSV 파일은 SQL 액세스 성능이 떨어지므로 사용이 금지됩니다.

애셋

애셋은 Cloud Storage 또는 BigQuery에 저장된 데이터에 매핑됩니다. 별도의 Google Cloud 프로젝트에 저장된 데이터를 단일 영역에 애셋으로 매핑할 수 있습니다.

항목

항목은 정형 및 반정형 데이터(예: 테이블)와 비정형 데이터(예: 파일 세트)의 메타데이터를 나타냅니다.

다음 단계