Dataproc Metastore 개요

Dataproc Metastore는 Google Cloud에서 실행되는 완전 관리형 Apache Hive 메타스토어(HMS)입니다. HMS는 스키마, 파티션, 관계형 데이터베이스의 열 통계와 같은 기술 메타데이터를 관리하기 위해 오픈소스 빅데이터 생태계에서 확립된 표준입니다.

Dataproc Metastore는 고가용성, 자동 복구, 서버리스를 지원합니다. 이를 사용하면 데이터 레이크 메타데이터를 관리하고 사용 중인 다양한 데이터 처리 엔진 간의 상호 운용성을 제공할 수 있습니다.

Dataproc Metastore 작동 방식

Dataproc 클러스터에 연결하여 Dataproc Metastore 서비스를 사용할 수 있습니다. Dataproc 클러스터에는 HMS를 사용하여 쿼리 계획 및 실행을 구동하는 구성요소가 포함됩니다.

이 통합을 통해 작업 간 테이블 정보를 유지하거나 메타데이터를 다른 클러스터 및 기타 처리 엔진에 제공할 수 있습니다.

예를 들어 메타스토어를 구현하면 파일 이름 수동 추적과 반대로 파일 하위 집합에 수익 데이터가 포함되도록 지정하는 데 도움이 됩니다. 이 경우 이러한 파일에 대해 테이블을 정의하고 Dataproc Metastore에 메타데이터를 저장할 수 있습니다. 그런 다음 Dataproc 클러스터에 연결하고 Hive, Spark SQL 또는 기타 쿼리 서비스를 사용하여 테이블에 정보를 쿼리할 수 있습니다.

Dataproc Metastore 버전

Dataproc Metastore 서비스를 만들 때 Dataproc Metastore 2 서비스 또는 Dataproc Metastore 1 서비스를 사용하도록 선택할 수 있습니다.

  • Dataproc Metastore 2는 Dataproc Metastore 1 기능 외에도 수평 확장성을 제공하는 차세대 서비스입니다. 자세한 내용은 특징 및 장점을 참조하세요.

  • Dataproc Metastore 2는 Dataproc Metastore와 요금제가 다릅니다. 자세한 내용은 요금제 및 확장 구성을 참조하세요.

일반 사용 사례

이 섹션에 나와 있는 모든 사용 사례는 달리 명시하지 않는 한 Dataproc Metastore 2 및 Dataproc Metastore 1에서 지원됩니다.

  • 데이터에 의미 할당. 많은 임시 Dataproc 클러스터 간에 공유되는 중앙 집중식 메타데이터 저장소를 만듭니다. [Apache Hive](https://hive.apache.org), Apache SparkPresto와 같은 다른 오픈소스 소프트웨어 엔진을 사용합니다.

  • 데이터에 대한 통합 뷰 빌드. Dataproc, Dataplex, BigQuery와 같은 Google Cloud 서비스 간의 상호 운용성을 제공하거나 Google Cloud의 다른 오픈소스 기반 파트너 제품을 사용할 수 있습니다.

특징 및 장점

이 섹션에 나와 있는 모든 특징은 달리 명시하지 않는 한 Dataproc Metastore 2 및 Dataproc Metastore 1에서 지원됩니다.

  • OSS 호환성. Apache Hive, Apache Spark, Presto와 같은 기존 데이터 처리 엔진에 연결할 수 있습니다.

  • 관리. 완전히 구성된 모니터링 및 작업 작업으로 몇 분 안에 메타스토어를 만들거나 업데이트할 수 있습니다.

  • 통합. BigQuery를 Dataproc 클러스터의 메타데이터 소스로 사용하는 등 다른 Google Cloud 제품과 통합합니다.

  • 내장된 보안 기능. Identity and Access Management(IAM)Kerberos 인증 같은 확립된 Google Cloud 보안 프로토콜을 사용합니다.

  • 간편한 가져오기. 외부 Hive Metastore 메타스토어에 저장된 기존 메타데이터를 Dataproc Metastore 서비스로 가져옵니다.

  • 자동 백업. 자동 메타스토어 백업을 구성하여 데이터 손실을 방지합니다.

  • 성능 모니터링. 사전 워밍 또는 캐싱 없이 고밀도 워크로드와 급격한 호출 증가에 동적으로 대응할 수 있는 성능 등급을 설정할 수 있습니다.

  • 고가용성(HA).

    • Dataproc Metastore 2. 특정 구성이나 지속적인 관리가 필요하지 않은 영역별 고가용성(HA) 기능을 제공합니다. 이렇게 하려면 선택한 리전의 여러 영역에 백엔드 데이터베이스와 HMS 서버를 자동으로 복제하면 됩니다. 영역 HA 외에 Dataproc Metastore 2도 리전별 HA 및 재해 복구(DR)를 지원합니다.
    • Dataproc Metastore 1. 기본적으로 특정 구성이나 지속적인 관리가 필요하지 않은 영역별 고가용성(HA) 기능을 제공합니다. 이렇게 하려면 선택한 리전의 여러 영역에 백엔드 데이터베이스와 HMS 서버를 자동으로 복제하면 됩니다.
  • 확장성.

    • Dataproc Metastore 2. 수평 확장 인수를 사용하여 지정된 시간에 서비스에서 사용해야 하는 리소스 수를 결정합니다. 필요한 경우 배율을 수동으로 제어하거나 자동 확장(미리보기)으로 설정할 수 있습니다.
    • Dataproc Metastore 1. 서비스를 설정할 때 개발자 등급과 엔터프라이즈 등급 중에서 선택합니다. 이 등급은 서비스가 지정된 시에 사용해야 하는 리소스 수를 결정합니다.
  • 지원. 표준 Google Cloud SLA 및 지원 채널의 혜택을 누릴 수 있습니다.

Google Cloud와 통합

이 섹션에 나와 있는 모든 통합은 달리 명시하지 않는 한 Dataproc Metastore 1 및 Dataproc Metastore 2에서 지원됩니다.

  • Dataproc. OSS 빅데이터 워크로드에 메타데이터를 제공할 수 있도록 Dataproc 클러스터에 연결합니다.
  • BigQuery. Dataproc 워크로드에서 BigQuery 데이터 세트를 쿼리합니다.
  • Dataplex. Dataplex 레이크에서 검색된 구조화된 데이터 및 반구조화된 데이터를 쿼리합니다.
  • Data Catalog. Dataproc Metastore를 Data Catalog와 동기화하여 메타데이터 검색 및 탐색을 사용 설정합니다.
  • 로깅 및 모니터링. Dataproc Metastore를 Cloud Monitoring 및 Logging 제품과 통합합니다.
  • 인증 및 IAM. 다른 Google Cloud 제품에서 사용하는 표준 OAuth 인증을 사용할 수 있으며, 이를 통해 세분화된 Identity and Access Management 역할을 사용하여 개별 리소스에 대한 액세스 제어를 사용 설정할 수 있습니다.

다음 단계