레이크 만들기

이 가이드에서는 Google Cloud 콘솔, gcloud CLI 또는 lakes.create API 메서드를 사용하여 Dataplex 레이크를 만드는 방법을 보여줍니다.

Dataplex를 지원하는 모든 리전에 레이크를 만들 수 있습니다.

시작하기 전에

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, Cloud Storage. APIs.

    Enable the APIs

액세스 제어

  1. 레이크를 만들고 관리할 수 있도록 사전 정의된 역할 roles/dataplex.admin 또는 roles/dataplex.editor가 부여되었는지 확인합니다. IAM 문서의 역할 부여 단계를 따르세요.

  2. 다른 프로젝트의 Cloud Storage 버킷을 레이크에 연결하려면 다음 명령어를 실행하여 아래의 Dataplex 서비스 계정에 버킷에 대한 관리자 역할을 부여합니다.

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

메타스토어 만들기

Dataproc Metastore 서비스 인스턴스를 Dataplex 레이크와 연결하면 Spark 쿼리에서 Hive Metastore를 사용하여 Dataplex 메타데이터에 액세스할 수 있습니다. gRPC가 사용 설정된 Dataproc Metastore(버전 3.1.2 이상)를 Dataplex 레이크와 연결해야 합니다.

  1. Dataproc Metastore 서비스를 만듭니다.

  2. 기본 Thrift Metastore 엔드포인트 대신 gRPC 엔드포인트를 노출하도록 Dataproc Metastore 서비스 인스턴스를 구성합니다. 다음 업데이트 API 요청을 실행합니다.

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. gRPC 엔드포인트를 확인합니다. 다음 명령어를 실행합니다.

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Dataplex 레이크 만들기

다음 단계에서는 Dataplex 레이크를 만드는 방법을 보여줍니다.

콘솔

  1. Google Cloud 콘솔에서 Dataplex로 이동합니다.

    Dataplex로 이동

  2. 관리 뷰로 이동합니다.

  3. 만들기를 클릭합니다.

  4. 표시 이름을 입력합니다.

  5. 레이크 ID는 자동으로 생성됩니다. 원하는 경우 자체 ID를 제공할 수 있습니다. 리소스 이름 지정 규칙을 참조하세요.

  6. 선택사항: 설명을 입력합니다.

  7. 레이크를 만들 리전을 지정합니다.

    지정된 리전(예: us-central1)에서 생성된 레이크의 경우 영역 설정에 따라 단일 리전(us-central1) 데이터와 멀티 리전(us multi-region) 데이터를 모두 연결할 수 있습니다.

  8. 선택사항: 레이크에 라벨을 추가합니다.

  9. 선택사항: Metastore 섹션에서 Metastore 서비스 드롭다운을 클릭하고 시작하기 전에 섹션에서 만든 서비스를 선택합니다.

  10. 만들기를 클릭합니다.

gcloud

다음 gcloud preview dataplex lake create 명령어를 사용하여 레이크를 만듭니다.

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

다음을 바꿉니다.

  • LAKE: 새 레이크의 이름입니다.
  • LOCATION: Google Cloud 리전입니다.
  • k1=v1,k2=v2,k3=v3: 라벨을 사용한 경우 해당 라벨입니다.
  • METASTORE_SERVICE: Dataproc Metastore 서비스를 만든 경우 해당 서비스입니다.

REST

API 안내에 따라 API 탐색기를 사용하여 레이크를 만듭니다.

다음 단계