Dataproc Metastore 서비스 만들기

컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

이 페이지에서는 Dataproc Metastore 서비스를 만드는 방법을 보여줍니다.

Dataproc Metastore 서비스를 만든 후에는 여기에 메타데이터를 가져오고 다음 클러스터 유형 중 하나에 연결할 수 있습니다.

클러스터에 연결하면 클러스터에서 Dataproc Metastore 서비스가 해당 Hive Metastore로 사용됩니다. 그런 다음 Dataproc Metastore에서 표준 HIve 명령어를 실행하고 메타데이터를 쿼리할 수 있습니다.

시작하기 전에

필요한 역할

Dataproc Metastore를 만드는 데 필요한 권한을 얻으려면 최소 권한의 원칙에 따라 관리자에게 프로젝트에 대해 다음 IAM 역할을 부여해 달라고 요청하세요.

  • Dataproc Metastore 리소스 전체 제어 권한 부여(roles/metastore.editor)
  • IAM 정책 관리를 포함한 모든 Dataproc Metastore 리소스에 대한 전체 액세스 권한 부여(roles/metastore.admin)

역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 Dataproc Metastore를 만드는 데 필요한 metastore.services.create 권한이 있습니다. 커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

특정 Dataproc Metastore 역할 및 권한에 대한 상세 설명은 IAM으로 Dataproc 액세스 관리를 참조하세요.

기본 설정을 사용하여 Dataproc Metastore 만들기

다음 안내에서는 제공된 기본 설정을 사용하여 기본 Dataproc Metastore 서비스를 만드는 방법을 보여줍니다. 이 설정에는 구성 설정, 네트워크 구성, 보안 설정, 선택적인 기능이 포함됩니다.

콘솔

  1. Google Cloud 콘솔에서 Dataproc Metastore 페이지로 이동합니다.

    Dataproc Metastore로 이동

  2. 탐색 메뉴에서 +만들기를 클릭합니다.

  3. 서비스 이름 필드에 서비스의 고유 이름을 입력합니다.

    이름 지정 규칙에 대한 자세한 내용은 리소스 이름 지정 규칙을 참조하세요.

  4. 데이터 위치를 선택합니다.

    적합한 리전 선택에 대한 자세한 내용은 사용 가능한 리전 및 영역리전 엔드포인트를 참조하세요.

  5. 남은 서비스 구성 옵션의 경우 제공된 기본값을 사용합니다.

  6. 서비스를 만들고 시작하려면 제출을 클릭합니다.

    새 메타스토어 서비스가 Dataproc Metastore 페이지에 나타납니다. 서비스 사용이 준비될 때까지 상태가 생성 중으로 표시됩니다. 준비되면 상태가 활성으로 변경됩니다. 서비스를 프로비저닝하는 데 몇 분 정도 걸릴 수 있습니다.

gcloud CLI

제공된 기본값을 사용하여 기본 Metastore 서비스를 만들려면 다음 gcloud metastore services create 명령어를 실행합니다.

gcloud metastore services create SERVICE \
  --location=LOCATION

다음을 바꿉니다.

  • SERVICE: 새 Dataproc Metastore 서비스 이름입니다.
  • LOCATION: Dataproc Metastore를 만들려는 Google Cloud 리전입니다. 기본 위치를 설정할 수도 있습니다.

    이름 지정 규칙에 대한 자세한 내용은 리소스 이름 지정 규칙을 참조하세요.

REST

API 안내에 따라 API 탐색기를 사용하여 서비스를 만듭니다.

고급 설정을 사용하여 Dataproc Metastore 만들기

다음 안내에서는 고급 설정을 사용하여 구성된 Dataproc Metastore 서비스를 만드는 방법을 보여줍니다. 이 설정을 사용하면 구성 설정, 네트워크 구성, 보안 설정, 선택적인 기능을 수정할 수 있습니다.

콘솔

시작하기

  1. Google Cloud 콘솔에서 Dataproc Metastore 페이지를 엽니다.

    Dataproc Metastore 열기

  2. Dataproc Metastore 페이지 상단에서 만들기를 클릭합니다.

    서비스 만들기 페이지가 열립니다.

    서비스 만들기 페이지

    서비스 정보

    1. 서비스 이름 필드에 서비스의 고유 이름을 입력합니다.

      이름 지정 규칙에 대한 자세한 내용은 리소스 이름 지정 규칙을 참조하세요.

    2. 데이터 위치를 선택합니다.

      적합한 리전 선택에 대한 자세한 내용은 사용 가능한 리전 및 영역리전 엔드포인트를 참조하세요.

    3. Hive Metastore 버전을 선택합니다.

      이 값을 수정하지 않으면 서비스에서 지원되는 최신 Hive 버전(현재 버전 3.1.2)이 사용됩니다.

      올바른 버전 선택에 대한 자세한 내용은 버전 정책을 참조하세요.

    4. 출시 채널을 선택합니다.

      이 값을 수정하지 않으면 Metastore에 Stable 값이 사용됩니다. 자세한 내용은 출시 채널을 참조하세요.

    5. TCP 포트를 입력합니다.

      Thrift 엔드포인트가 연결되는 TCP 포트입니다. 이 값을 수정하지 않으면 포트 번호 9083이 사용됩니다. 엔드포인트를 gRPC로 변경하면 이 값이 자동으로 443으로 변경되고, 이를 바꿀 수 없습니다.

    6. 서비스 등급을 선택합니다.

      서비스 등급은 서비스 용량에 영향을 줍니다. 자세한 내용은 서비스 등급을 참조하세요.

    엔드포인트 프로토콜

    • 선택사항: 엔드포인트 프로토콜(미리보기)을 선택합니다.

      선택한 기본 옵션은Apache Thrift입니다. 다른 엔드포인트에 대한 자세한 내용은 엔드포인트 프로토콜 선택을 참조하세요.

    네트워크 구성

    1. 네트워크 구성을 선택합니다.

      기본적으로 서비스는 하나의 VPC 네트워크에만 노출되고 default 네트워크를 사용합니다. default 네트워크에서는 서비스가 동일한 프로젝트의 다른 서비스에 연결될 수 있습니다.

      다음 작업을 완료하도록 네트워크 설정을 기본값에서 변경합니다.

      • Dataproc Metastore 서비스를 다른 프로젝트의 Dataproc Metastore 서비스에 연결합니다.
      • Dataproc 클러스터와 같은 다른 Google Cloud 서비스와 함께 Dataproc Metastore 서비스를 사용합니다.
    2. 선택사항: 공유 VPC 네트워크 사용을 클릭하고 프로젝트 IDVPC 네트워크 이름을 입력합니다.

    3. 선택사항: 여러 VPC 서브네트워크에서 서비스에 액세스할 수 있도록 설정을 클릭하고 서브네트워크를 선택합니다. 서브네트워크를 최대 5개까지 지정할 수 있습니다.

    4. 완료를 클릭합니다.

    메타데이터 통합

    유지보수 기간

    • 선택사항: 유지보수 기간에 대해 요일시간을 선택합니다.

      자세한 내용은 유지보수 기간을 참조하세요.

    보안

    1. 선택사항: Kerberos를 사용 설정합니다.

      1. Kerberos를 사용 설정하려면 전환 버튼을 클릭합니다.
      2. 보안 비밀 리소스 ID를 선택하거나 입력합니다.
      3. 최신 보안 비밀 버전을 사용하도록 선택하거나 사용할 이전 항목을 선택합니다.
      4. Kerberos 주체를 입력합니다.

        이 Dataproc Metastore 서비스에 할당되는 주체입니다.

      5. krb5 config 파일을 찾습니다.

    2. (선택사항) 암호화 유형을 선택합니다.

      • 선택한 기본 옵션은 Google 관리 암호화 키입니다.

      • 고객 관리 키를 선택하려면 고객 관리 암호화 키(CMEK) 사용을 클릭합니다.

        자세한 내용은 고객 관리 암호화 키 사용을 참조하세요.

    Metastore 구성 재정의

    • 선택사항: Hive Metastore에 매핑을 적용하려면 + 재정의 추가를 클릭합니다.

    보조 버전 구성

    • 선택사항: 보조 버전 구성을 추가하려면 사용 설정을 클릭합니다.

      자세한 내용은 보조 버전을 참조하세요.

    데이터베이스 유형

    • 선택사항: 데이터베이스 유형(미리보기)을 선택합니다.

      데이터베이스 유형으로 MySQL 또는 Spanner를 선택합니다. MySQL이 기본 데이터베이스 유형입니다.

      특정 데이터베이스 유형 선택에 대한 자세한 내용은 데이터베이스 유형을 참조하세요.

    라벨

    • 선택사항: 메타데이터를 기술하는 선택적인 라벨을 추가 또는 삭제하려면 + 라벨 추가를 클릭합니다.

서비스 시작

서비스를 만들고 시작하려면 제출을 클릭합니다.

새 메타스토어 서비스가 Dataproc Metastore 페이지에 나타납니다. 서비스 사용이 준비될 때까지 상태가 생성 중으로 표시됩니다. 준비되면 상태가 활성으로 변경됩니다. 서비스를 프로비저닝하는 데 몇 분 정도 걸릴 수 있습니다.

gcloud CLI

  1. Metastore를 만들려면 다음 gcloud metastore services create 명령어를 실행합니다.

    gcloud metastore services create SERVICE \
      --location=LOCATION \
      --port=PORT \
      --tier=TIER \
      --hive-metastore-version=HIVE_METASTORE_VERSION \
      --release-channel=RELEASE_CHANNEL \
      --hive-metastore-configs=METADATA_OVERRIDE \
      --labels=LABELS \
      --network=NETWORK \
      --consumer-subnetworks="projects/PROJECT_ID/regions/LOCATION/subnetworks/SUBNET1, projects/PROJECT_ID/regions/LOCATION/subnetworks/SUBNET2" \
      --kerberos-principal=KERBEROS_PRINCIPAL \
      --krb5-config=KRB5_CONFIG \
      --keytab=CLOUD_SECRET \
      --encryption-kms-key=KMS_KEY

    다음을 바꿉니다.

    기본 설정:

    • SERVICE: 새 Dataproc Metastore 서비스 이름입니다.
    • LOCATION: Dataproc Metastore를 만들려는 Google Cloud 리전입니다. 기본 위치를 설정할 수도 있습니다.
    • PORT: 선택사항: Thrift 엔드포인트에 사용되는 TCP 포트입니다. 설정하지 않으면 9083이 사용됩니다. gRPC 엔드포인트를 사용하도록 선택하면 포트 번호가 자동으로 443으로 변경됩니다.
    • TIER: 선택사항: 새 서비스의 서비스 등급입니다. 설정하지 않으면 Developer 값이 사용됩니다.
    • HIVE_METASTORE_VERSION: 선택사항: 서비스에 사용하려는 Hive Metastore 버전입니다. 예를 들면 3.1.2입니다. 설정하지 않으면 최신 Hive 버전이 사용됩니다.
    • RELEASE_CHANNEL: 선택사항: 서비스의 출시 채널입니다. 설정하지 않으면 Stable 값이 사용됩니다.
    • METADATA_OVERRIDE: 선택사항: 서비스에 적용하려는 Hive Metastore 재정의 구성입니다. k1=v1,k2=v2,k3=v3 형식의 쉼표로 구분된 목록을 사용합니다.
    • LABELS: 선택사항: 서비스에 메타데이터를 추가할 키-값 쌍입니다. k1=v1,k2=v2,k3=v3 형식의 쉼표로 구분된 목록을 사용합니다.

    네트워크 설정:

    • NETWORK: 서비스에 연결하려는 VPC 네트워크의 이름입니다. 설정하지 않으면 default 값이 사용됩니다.

      서비스와 다른 프로젝트에 속하는 VPC 네트워크를 사용하는 경우 상대 리소스 이름 전체를 제공해야 합니다. 예를 들면 projects/HOST_PROJECT/global/networks/NETWORK_ID입니다.

    • SUBNET1, SUBNET2: 선택사항: 서비스에 액세스할 수 있는 서브네트워크 목록입니다. ID, 정규화된 URL 또는 서브네트워크의 상대 이름을 사용할 수 있습니다. 서브네트워크를 최대 5개까지 지정할 수 있습니다.

    Kerberos 설정:

    • KERBEROS_PRINCIPAL: 선택사항: Keytab 및 KDC 모두에 있는 Kerberos 주체입니다. 일반적으로 "primary/instance@REALM" 주체 형식이 사용되지만, 정확한 형식은 없습니다.
    • KRB5_CONFIG: (선택사항) krb5.config 파일은 KDC 위치와 렐름 및 Kerberos 애플리케이션의 기본값이 포함된 KDC 및 Kerberos 렐름 정보를 지정합니다.
    • CLOUD_SECRET: 선택사항: Secret Manager 보안 비밀 버전의 상대 리소스 이름입니다.
    • KMS_KEY: 선택사항: 키 리소스 ID를 나타냅니다.

    베타 Metastore 설정(미리보기):

    다음 매개변수에는 gcloud beta metastore services create 명령어를 사용해야 합니다.

    gcloud beta metastore services create SERVICE \
      --endpoint-protocol=ENDPOINT_PROTOCOL \
      --database-type=DATABASE_TYPE \
      --data-catalog-sync=DATA_CATALOG_SYNC \
      --auxiliary-versions=AUXILIARY_VERSION
        

    다음을 바꿉니다.

  2. 성공적으로 만들어졌는지 확인합니다.

REST

API 안내에 따라 API 탐색기를 사용하여 서비스를 만듭니다.

Hive 메타스토어 구성 재정의 설정

Hive 웨어하우스 디렉터리가 Cloud Storage에 있으면 Metastore 구성 재정의를 설정해야 합니다. 이 재정의는 커스텀 데이터 웨어하우스를 Dataproc Metastore 서비스의 기본 웨어하우스 디렉터리로 설정합니다.

이 재정의를 설정하려면 먼저 Dataproc Metastore 서비스에 웨어하우스 디렉터리에 액세스하기 위한 객체 읽기 및 쓰기 권한이 있는지 확인합니다. 자세한 내용은 Hive 웨어하우스 디렉터리를 참조하세요.

다음 안내에서는 새 Dataproc Metastore 서비스에 대해 Hive Metastore 구성 재정의를 설정하는 방법을 보여줍니다.

콘솔

  1. Google Cloud 콘솔에서 Dataproc Metastore 페이지를 엽니다.

    Dataproc Metastore 열기

  2. 탐색 메뉴에서 +만들기를 클릭합니다.

  3. 서비스 이름 필드에 서비스의 고유 이름을 입력합니다.

    이름 지정 규칙에 대한 자세한 내용은 리소스 이름 지정 규칙을 참조하세요.

  4. 데이터 위치를 선택합니다.

    적합한 리전 선택에 대한 자세한 내용은 사용 가능한 리전 및 영역리전 엔드포인트를 참조하세요.

  5. Metastore 구성 재정의에 다음을 입력합니다.

    • : hive.metastore.warehouse.dir 값을 입력합니다.
    • : 웨어하우스 디렉터리의 Cloud Storage 위치입니다. 예를 들면 gs://my-bucket/path/to/location입니다.
  6. 필요에 따라 서비스에 대해 남은 구성을 선택합니다.

  7. 제출을 클릭합니다.

    Dataproc Metastore 페이지로 돌아가서 서비스가 성공적으로 생성되었는지 확인합니다.

gcloud CLI

  1. Hive 재정의를 사용하여 Dataproc Metastore 서비스를 만들려면 다음 gcloud metastore services create 명령어를 실행합니다.

    gcloud metastore services create SERVICE \
      --location=LOCATION \
      --create-hive-metastore-configs="hive.metastore.warehouse.dir=CUSTOMER_DIR"
    

    다음을 바꿉니다.

    • SERVICE: 새 Dataproc Metastore 서비스 이름입니다.
    • LOCATION: Dataproc Metastore를 만들려는 Google Cloud 리전입니다. 기본 위치를 설정할 수도 있습니다.
    • CUSTOMER_DIR: 웨어하우스 디렉터리의 Cloud Storage 위치입니다. 예를 들면 gs://my-bucket/path/to/location입니다.
  2. 성공적으로 만들어졌는지 확인합니다.

일반적인 문제 해결

일반적인 문제에는 다음이 포함됩니다.

  • VPC 피어링 제한. 메타스토어를 만들기 전에 VPC 피어링을 제한하는 조직 정책 제약조건을 설정하지 않으면 메타스토어 만들기에 실패합니다. 올바른 VPC 구성 설정에 대한 자세한 내용은 VPC 피어링을 제한하는 제약조건으로 인해 서비스 생성이 실패함을 참조하세요.

  • VPC 네트워크 문제 Metastore를 만들 때 사용 중인 VPC 네트워크에서 Dataproc Metastore 서비스에 필요한 RFC 1918 주소가 부족해질 수 있습니다. 이 문제를 해결하는 방법은 할당된 IP 범위가 소진됨을 참조하세요.

다음 단계