메타데이터 제휴 정보

메타데이터 통합은 단일 엔드포인트에서 여러 메타데이터 소스에 액세스할 수 있는 서비스입니다.

페더레이션을 설정하려면 페더레이션 서비스를 만든 후 메타데이터 소스를 구성합니다. 그런 다음 서비스는 모든 메타데이터에 액세스하는 데 사용할 수 있는 단일 gRPC 엔드포인트를 노출합니다.

예를 들어 제휴를 사용하면 단일 엔드포인트를 통해 여러 Dataproc Metastore 서비스를 노출하는 Dataproc 클러스터를 만들 수 있습니다. 그런 다음 Spark 또는 Hive와 같은 오픈소스 소프트웨어(OSS) 엔진을 통해 빅데이터 작업을 실행하여 여러 메타스토어에서 메타데이터에 액세스할 수 있습니다.

제휴 작동 방식

Spark 또는 Hive에서 실행되는 OSS 빅데이터 워크로드는 런타임에 메타데이터를 가져오도록 Hive Metastore API에 요청을 전송합니다.

  • Hive Metastore 인터페이스는 읽기 및 쓰기 메서드를 모두 지원합니다. 제휴 서비스는 Hive 메타스토어 인터페이스의 gRPC 버전을 노출합니다.
  • 런타임에 제휴 서비스에 요청이 수신되면 소스 순서를 확인하여 적합한 메타데이터를 검색합니다.

메타데이터 소스

제휴 서비스를 만들 때는 메타데이터 소스를 추가해야 합니다. 다음 소스를 백엔드 메타스토어로 사용할 수 있습니다.

  • Dataproc Metastore 인스턴스
  • 하나 이상의 BigQuery 데이터 세트를 포함하는 프로젝트
  • Dataplex 레이크(미리보기)

소스 제한사항

다음 섹션에는 다양한 메타데이터 소스를 사용할 때 준수해야 하는 제한사항이 나와 있습니다.

모든 소스

모든 메타데이터 소스에 다음 제한사항이 적용됩니다.

  • 제휴 서비스에는 자체 데이터가 없습니다. 대신 제휴 서비스는 메타데이터 소스 중 하나의 메타데이터만 제공합니다.
  • 제휴 서비스는 다른 제휴 서비스의 메타데이터 소스가 될 수 없습니다.

Dataproc Metastore

Dataproc Metastore를 소스로 사용할 경우 다음 제한사항이 적용됩니다.

  • 제휴 서비스는 gRPC 엔드포인트를 통해서만 사용할 수 있습니다. 제휴에 Dataproc Metastore를 사용하려면 gRPC 엔드포인트를 사용하여 메타스토어를 만듭니다.
  • 제휴 서비스를 단일 리전의 단일 리전 Dataproc Metastore 서비스에 연결할 수 있습니다. 제휴 서비스에서는 멀티 리전 Dataproc Metastore 서비스를 지원하지 않습니다.

BigQuery

BigQuery 데이터 세트가 포함된 프로젝트를 소스로 사용하는 경우 다음 조건을 충족해야 합니다.

  • BigQuery 데이터 세트가 포함된 프로젝트에 액세스하는 데 올바른 IAM 역할을 부여합니다.
  • BigQuery 데이터 세트와 함께 하나 이상의 Dataproc Metastore를 소스로 추가합니다.

Dataplex Lakes

  • dataplex.lakes.get 권한이 포함된 IAM 역할을 부여합니다.
  • Dataplex Lake와 함께 하나 이상의 Dataproc Metastore 서비스를 소스로 추가합니다.

소스 순서 지정

제휴 서비스는 메타데이터 요청을 우선순위 순서대로 처리합니다. 이러한 개념을 소스 순서 지정이라고 부릅니다. 런타임에 제휴 서비스에 요청이 수신되면 소스 순서를 확인하고 다음 작업 중 하나를 수행합니다.

  • 요청에 데이터베이스 이름이 포함된 경우. 데이터베이스 이름이 포함된 백엔드 메타스토어로 요청이 라우팅됩니다. 두 개 넘는 메타스토어에 동일한 데이터베이스 이름이 포함된 경우 최저 순위의 메타스토어로 요청이 라우팅됩니다.
  • 요청이 데이터베이스를 만들거나 삭제하는 경우. 최저 순위의 메타스토어로 요청이 라우팅됩니다.
  • 요청에 데이터베이스 이름이 포함되어 있지 않고 데이터베이스를 만들거나 삭제하지 않는 경우. 최저 순위의 Dataproc Metastore 인스턴스로 요청이 라우팅됩니다. 데이터베이스를 지정하지 않는 일부 Hive Metastore 요청 예시는 set_ugicreate_database입니다.
  • 메타스토어에 데이터베이스가 포함되어 있지 않은 경우. OSS 엔진이 '찾을 수 없음' 오류로 응답합니다.

다음 단계