이 문서에서는 Dataplex 레이크를 만드는 방법을 설명합니다. Dataplex를 지원하는 리전에서 레이크를 만들 수 있습니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
액세스 제어
레이크를 만들고 관리하려면 사전 정의된 역할
roles/dataplex.admin
또는roles/dataplex.editor
이 부여되었는지 확인합니다. 자세한 내용은 단일 역할 부여를 참고하세요.다른 프로젝트의 Cloud Storage 버킷을 레이크에 연결하려면 다음 명령어를 실행하여 아래의 Dataplex 서비스 계정에 버킷에 대한 관리자 역할을 부여합니다.
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
메타스토어 만들기
Dataproc Metastore 서비스 인스턴스를 Dataplex 레이크와 연결하면 Spark 쿼리에서 Hive Metastore를 사용하여 Dataplex 메타데이터에 액세스할 수 있습니다. gRPC가 사용 설정된 Dataproc Metastore(버전 3.1.2 이상)를 Dataplex 레이크와 연결해야 합니다.
기본 Thrift Metastore 엔드포인트 대신 gRPC 엔드포인트를 노출하도록 Dataproc Metastore 서비스 인스턴스를 구성합니다.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
gRPC 엔드포인트를 확인합니다.
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
레이크 만들기
콘솔
Google Cloud 콘솔에서 Dataplex로 이동합니다.
관리 뷰로 이동합니다.
만들기를 클릭합니다.
표시 이름을 입력합니다.
레이크 ID가 자동으로 생성됩니다. 원하는 경우 자체 ID를 제공할 수 있습니다. 리소스 이름 지정 규칙을 참조하세요.
선택사항: 설명을 입력합니다.
레이크를 만들 리전을 지정합니다.
지정된 리전 (예:
us-central1
)에서 생성된 레이크의 경우 영역 설정에 따라 단일 리전 (us-central1
) 데이터와 멀티 리전(us multi-region
) 데이터를 모두 연결할 수 있습니다.선택사항: 레이크에 라벨을 추가합니다.
선택사항: Metastore 섹션에서 Metastore 서비스 메뉴를 클릭하고 시작하기 전에 섹션에서 만든 서비스를 선택합니다.
만들기를 클릭합니다.
gcloud
호수를 만들려면 gcloud alpha dataplex lakes create
명령어를 사용합니다.
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
다음을 바꿉니다.
LAKE
: 새 호수의 이름LOCATION
: Google Cloud 리전을 나타냅니다.k1=v1,k2=v2,k3=v3
: 사용된 라벨 (있는 경우)METASTORE_SERVICE
: Dataproc Metastore 서비스(만들어진 경우)
REST
호수를 만들려면 lakes.create 메서드를 사용합니다.
다음 단계
- 호수에 영역을 추가하는 방법을 알아보세요.
- 영역에 애셋을 연결하는 방법을 알아보세요.
- 레이크 보호 방법 알아보기
- 레이크 관리 방법 알아보기