이 페이지에서는 영역을 소개하고 Dataplex 레이크에 영역을 추가하는 방법을 설명합니다.
Dataplex 영역 개념
데이터 영역은 Dataplex 레이크 내의 이름이 지정된 항목입니다. Cloud Storage 버킷, BigQuery 데이터 세트, BigQuery 테이블과 같은 여러 애셋으로 구성된 구조화되지 않은 데이터, 반구조화된 데이터, 구조화된 데이터를 논리적으로 그룹화한 것입니다.
레이크는 하나 이상의 영역을 포함할 수 있습니다. 영역은 레이크 중 하나에만 속할 수 있지만 상위 프로젝트 외부의 프로젝트에 포함된 리소스를 가리키는 애셋을 포함할 수 있습니다.
Dataplex에서 영역의 구성을 선택할 수 있습니다. 원시 및 선별 영역이라는 두 가지 영역 중에서 선택할 수 있습니다.
원시 영역
원시 영역은 구조화된 데이터, CSV 파일 및 JSON 파일과 같은 반구조화된 데이터, 외부 소스의 형식을 불문한 구조화되지 않은 데이터를 저장합니다. 변환을 수행하기 전에 원시 데이터를 스테이징하는 데 유용합니다. 데이터는 Cloud Storage 버킷이나 BigQuery 데이터 세트에 저장될 수 있습니다.
원시 영역은 읽기 및 쓰기 권한에 대해 버킷 수준 또는 데이터 세트 수준의 세부사항을 지원합니다. 자세한 내용은 IAM 및 액세스 제어를 참조하세요.
원시 영역에 저장할 수 있는 데이터 유형에는 제한이 없습니다.
선별된 영역
선별된 영역은 구조화된 데이터를 저장합니다. 데이터는 Cloud Storage 버킷이나 BigQuery 데이터 세트에 저장될 수 있습니다.
Cloud Storage 버킷에 지원되는 형식은 Parquet, Avro, ORC입니다. 분석에 사용하기 전에 처리가 필요한 데이터를 스테이징하거나 분석 준비가 된 데이터를 제공하는 데 유용합니다.
BigQuery 테이블의 경우 잘 정의된 스키마와 Hive 스타일 파티션이 있어야 합니다. 선별된 영역에서 지정된 테이블의 스키마를 제공할 때 데이터는 스키마 드리프트 없이 테이블에 정의된 스키마를 준수해야 합니다.
즉, 데이터는 테이블에 정의된 스키마와 호환되어야 하며 새 파티션에는 테이블 스키마와 충돌하는 스키마가 없어야 합니다.
선별된 영역은 읽기 및 쓰기 권한에 대한 Cloud Storage 버킷 수준 또는 BigQuery 데이터 세트 수준 세부사항을 지원합니다. 자세한 내용은 IAM으로 액세스 제어를 참조하세요.
시작하기 전에
레이크에 영역을 추가하려면 먼저 레이크가 있어야 합니다. 아직 만들지 않았다면 레이크를 만듭니다.
대부분 gcloud lake
명령어에는 위치가 필요합니다. --location
매개변수를 설정하여 위치를 지정할 수 있습니다.
액세스 제어
- 영역을 추가하려면
dataplex.lakes.create
IAM 권한이 포함된 IAM 역할을 부여 받아야 합니다. Dataplex 특정 역할인roles/dataplex.admin
을 사용하여 추가 권한을 부여할 수 있습니다.
자세한 내용은 IAM으로 Dataplex 액세스 제어를 참조하세요.
구역 추가
Dataplex API 메서드 lakes.zones.create
를 실행하거나 Google Cloud 콘솔에 영역을 추가하여 기존 레이크에 새 영역을 만들고 추가할 수 있습니다.
레이크에 여러 영역을 추가할 수 있습니다. 한 번에 하나의 영역을 추가할 수 있지만 영역을 만드는 동안 레이크를 계속 사용할 수 있습니다.
콘솔
Google Cloud 콘솔에서 Dataplex로 이동합니다.
관리 뷰로 이동합니다.
관리 뷰에서 영역을 추가할 레이크의 이름을 클릭합니다.
영역 탭에서
영역 추가를 클릭합니다.영역의 표시 이름을 입력합니다.
유형 드롭다운을 클릭합니다. 원시 영역 또는 선별된 영역을 선택합니다. 지원되는 영역 유형에 대해 자세히 알아보세요.
선택사항: 설명을 입력합니다.
데이터 위치에서 리전 또는 멀티 리전을 선택합니다. 선택한 항목은 나중에 변경할 수 없습니다. 단일 리전 및 멀티 리전 데이터는 같은 영역에서 함께 사용할 수 없습니다.
선택사항: Dataplex가 영역의 데이터에서 메타데이터를 자동으로 스캔하고 추출할 수 있도록 하는 메타데이터 검색을 사용 설정합니다.
검색 설정을 클릭합니다.
메타데이터 검색 사용 설정이 선택되어 있는지 확인합니다.
선택사항: 패턴 포함에서 검색 스캔에 포함할 파일을 나열합니다.
선택사항: 패턴 제외에서 검색 스캔에서 제외할 파일을 나열합니다. 포함 및 제외 패턴을 모두 입력하면 제외 패턴이 먼저 적용됩니다.
반복 드롭다운을 클릭하고 빈도를 선택합니다.
시간대 드롭다운을 클릭하고 시간대를 선택합니다.
반복에서 커스텀을 선택한 경우 일정에서 작업 일정을 입력합니다. 그렇지 않으면 일정 값이 자동으로 입력됩니다.
만들기를 클릭합니다.
영역이 생성되려면 몇 분 정도 걸릴 수 있습니다.
REST
API 안내에 따라 API 탐색기를 사용하여 영역을 추가합니다.
영역 생성이 성공하면 영역이 자동으로 활성 상태로 전환됩니다. 실패하면 레이크가 이전 상태로 롤백됩니다.
영역을 만든 후 Cloud Storage 버킷 및 BigQuery 데이터 세트에 저장된 데이터를 영역의 애셋으로 매핑할 수 있습니다.
다음 단계
- 버킷 관리에 대해 자세히 알아보기
- 레이크 만들기에 대해 자세히 알아보기
- Cloud 감사 로그에 대해 자세히 알아보기