Dataplex를 사용하여 데이터 메시 아키텍처를 빌드할 수 있습니다. 이 가이드에서는 레이크, 영역, 애셋과 같은 Dataplex 기능을 사용하여 데이터 메시를 빌드하는 방법을 설명합니다.
데이터 메시는 도메인 데이터 소유자 간에 데이터 소유권을 분산하는 조직 및 기술적 접근 방식입니다. 이러한 소유자는 표준화된 방식을 통해 데이터를 제품으로 제공하고 조직의 여러 부서 간 소통을 촉진하여 데이터 세트를 여러 위치에 분산합니다. 데이터 메시 아키텍처에 대해 자세히 알아보세요.
목표
이 가이드에서는 Dataplex 항목을 사용하여 데이터 메시 아키텍처를 빌드합니다.
- 데이터 메시의 도메인 역할을 하는 Dataplex 레이크를 만듭니다.
- 각 도메인 내 개별 팀을 나타내는 영역을 레이크에 추가하고 관리형 데이터 계약을 제공합니다.
- Cloud Storage에 저장된 데이터에 매핑되는 애셋을 연결합니다.
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
이 문서에 설명된 태스크를 완료했으면 만든 리소스를 삭제하여 청구가 계속되는 것을 방지할 수 있습니다. 자세한 내용은 삭제를 참조하세요.
시작하기 전에
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Dataplex API를 사용 설정합니다.
Cloud Storage 버킷 만들기
데이터 메시의 데이터 애셋을 저장하려면 Cloud Storage 버킷이 필요합니다.
Cloud Storage 버킷 만들기 단계를 따르고 다음을 수행합니다.
- 버킷 이름을 지정합니다.
- 위치 유형에서 리전을 선택하고 드롭다운 메뉴에서 us-central1(아이오와)을 선택합니다.
도메인 만들기
Google Cloud 콘솔에서 Dataplex 페이지로 이동합니다.
관리 뷰로 이동합니다.
만들기를 클릭하여 데이터 메시 역할을 할 새 레이크를 만듭니다.
표시 이름 필드에
My data mesh
를 입력합니다.리전에서
us-central1
을 선택합니다.이전에 만들고 연결된 Metastore로 구성한 Dataproc Metastore 서비스를 선택합니다.
만들기를 클릭합니다.
레이크에 영역 만들기
Dataplex 레이크를 만들어 도메인을 만든 후 영역을 사용하여 도메인 내에서 관리형 데이터 계약 및 개별 팀을 호스팅할 수 있습니다. 다음과 같은 두 가지 유형의 영역이 있습니다.
원시 영역은 일반적으로 형식에 상관없이 Cloud Storage 외부 소스의 데이터를 저장하는 데 사용됩니다. 원시 영역은 소비할 수 있으려면 먼저 추가 처리가 필요한 데이터에 유용합니다.
선별된 영역은 특정 파일 형식을 준수해야 하는 Cloud Storage의 구조화된 데이터에 사용되며 Hive 호환 디렉터리 레이아웃으로 구성됩니다. 소비 및 분석에 사용할 수 있는 데이터에 가장 유용합니다.
각 도메인(예: sales
, customers
, products
)에는 최소한 원시 영역과 선별된 영역이 하나씩 있어야 합니다.
추가 영역은 팀 간 데이터 계약을 관리하거나 지정된 도메인 내의 팀을 위한 보다 세분화된 분석을 제공하는 데 사용됩니다. 예를 들어 제품 도메인 내의 인벤토리 관리가 해당합니다. 데이터 소유자는 도메인 내 데이터를 관리하고 데이터에 액세스할 수 있습니다.
Google Cloud 콘솔의 Dataplex에서 관리 뷰로 이동합니다.
영역을 추가할 레이크(
My data mesh
)의 이름을 클릭합니다.영역 탭에서
영역 추가를 클릭합니다.표시 이름 필드에
My sub domain
을 입력합니다. Dataplex에서 영역 ID를 자동으로 생성합니다.참고: 영역 이름이 BigQuery 데이터 세트의 이름으로 사용됩니다. 따라서 동일한 Google Cloud 프로젝트에 호스팅된 모든 영역은 서로 다른 레이크에 있더라도 고유 ID가 있어야 합니다.
유형에서 원시 영역을 선택합니다.
만들기를 클릭합니다.
영역에 애셋 연결
영역에 데이터 애셋을 연결합니다. 데이터가 포함된 스토리지 리소스인 데이터 애셋은 Cloud Storage 버킷 또는 BigQuery 데이터 세트일 수 있습니다. 이 단계는 데이터 메시 아키텍처를 만드는 마지막 단계입니다.
Dataplex 관리 뷰에서 자신이 만든 레이크(
My data mesh
)를 클릭합니다.영역 탭에서 애셋을 추가할 영역(
My sub domain
)을 클릭합니다.애셋 탭에서
애셋 추가를 클릭합니다.애셋 추가를 클릭합니다.
유형에서 Cloud Storage 버킷을 선택합니다.
표시 이름 필드에
Data mesh asset
을 입력합니다. Dataplex에서 자동으로 애셋 ID를 생성합니다.버킷 필드에서 찾아보기를 클릭합니다.
- 목록에서 버킷을 선택합니다.
- 선택을 클릭합니다.
완료를 클릭한 다음 계속을 클릭합니다.
계속을 클릭하여 기본 고급 설정을 수락합니다.
제출을 클릭하여 Cloud Storage 버킷을 영역에 데이터 애셋으로 추가합니다.
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
프로젝트 삭제
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
데이터 메시 아키텍처 삭제
Google Cloud 콘솔의 Dataplex에서 관리 뷰로 이동합니다.
삭제하려는 레이크에서
더보기를 클릭한 다음 삭제를 클릭합니다.delete
를 입력하여 작업을 확인하고 레이크 삭제를 클릭합니다.
다음 단계
- 데이터 처리 태스크 알아보기
- 데이터 탐색 알아보기
- 데이터 품질 태스크 사용 알아보기