레이크 만들기

이 가이드에서는 Google Cloud 콘솔, gcloud CLI 또는 lakes.create API 메서드를 사용하여 Dataplex 레이크를 만드는 방법을 보여줍니다.

Dataplex를 지원하는 모든 리전에 레이크를 만들 수 있습니다.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, Cloud Storage. 사용 설정

    API 사용 설정

  5. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, Cloud Storage. 사용 설정

    API 사용 설정

액세스 제어

  1. 레이크를 만들고 관리할 수 있도록 사전 정의된 역할 roles/dataplex.admin 또는 roles/dataplex.editor가 부여되었는지 확인합니다. IAM 문서의 역할 부여 단계를 따르세요.

  2. 다른 프로젝트의 Cloud Storage 버킷을 레이크에 연결하려면 다음 명령어를 실행하여 아래의 Dataplex 서비스 계정에 버킷에 대한 관리자 역할을 부여합니다.

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

메타스토어 만들기

Dataproc Metastore 서비스 인스턴스를 Dataplex 레이크와 연결하면 Spark 쿼리에서 Hive Metastore를 사용하여 Dataplex 메타데이터에 액세스할 수 있습니다. gRPC가 사용 설정된 Dataproc Metastore(버전 3.1.2 이상)를 Dataplex 레이크와 연결해야 합니다.

  1. Dataproc Metastore 서비스를 만듭니다.

  2. 기본 Thrift Metastore 엔드포인트 대신 gRPC 엔드포인트를 노출하도록 Dataproc Metastore 서비스 인스턴스를 구성합니다. 다음 업데이트 API 요청을 실행합니다.

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. gRPC 엔드포인트를 확인합니다. 다음 명령어를 실행합니다.

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Dataplex 레이크 만들기

다음 단계에서는 Dataplex 레이크를 만드는 방법을 보여줍니다.

콘솔

  1. Google Cloud 콘솔에서 Dataplex로 이동합니다.

    Dataplex로 이동

  2. 관리 뷰로 이동합니다.

  3. 만들기를 클릭합니다.

  4. 표시 이름을 입력합니다.

  5. 레이크 ID는 자동으로 생성됩니다. 원하는 경우 자체 ID를 제공할 수 있습니다. 리소스 이름 지정 규칙을 참조하세요.

  6. 선택사항: 설명을 입력합니다.

  7. 레이크를 만들 리전을 지정합니다.

    지정된 리전(예: us-central1)에서 생성된 레이크의 경우 영역 설정에 따라 단일 리전(us-central1) 데이터와 멀티 리전(us multi-region) 데이터를 모두 연결할 수 있습니다.

  8. 선택사항: 레이크에 라벨을 추가합니다.

  9. 선택사항: Metastore 섹션에서 Metastore 서비스 드롭다운을 클릭하고 시작하기 전에 섹션에서 만든 서비스를 선택합니다.

  10. 만들기를 클릭합니다.

gcloud

다음 gcloud preview dataplex lake create 명령어를 사용하여 레이크를 만듭니다.

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

다음을 바꿉니다.

  • LAKE: 새 레이크의 이름입니다.
  • LOCATION: Google Cloud 리전입니다.
  • k1=v1,k2=v2,k3=v3: 라벨을 사용한 경우 해당 라벨입니다.
  • METASTORE_SERVICE: Dataproc Metastore 서비스를 만든 경우 해당 서비스입니다.

REST

API 안내에 따라 API 탐색기를 사용하여 레이크를 만듭니다.

다음 단계