Dataproc Metastore란 무엇인가요?

Dataproc Metastore는 데이터 분석 제품을 위해 Google Cloud에서 작동하며, 리전 내 고가용성을 지원하고, 자동 복구가 가능한 완전 관리형 서버리스 Apache Hive 메타스토어(HMS)입니다. HMS를 지원하고 관계형 항목의 메타데이터 관리를 위한 핵심 구성요소로 작동하며, 오픈소스 데이터 생태계에서 데이터 처리 애플리케이션 간의 상호운용성을 제공합니다.

Dataproc Metastore를 사용하는 이유는 무엇인가요?

이 섹션에서는 Dataproc Metastore 사용 사례와 기능을 설명합니다.

Dataproc Metastore 사용 사례

Dataproc Metastore 사용 사례는 다음과 같습니다.

  • Apache Hive,Apache Spark, Presto와 같이 여러 다른 오픈소스 엔진을 실행하는 여러 임시 Dataproc 클러스터 간에 공유될 수 있는 중앙화된 메타데이터 저장소로 사용될 수 있습니다.

  • Dataproc와 같은 클라우드 기반 서비스와 Google Cloud의 다른 여러 오픈소스 기반 파트너 제품들 간의 상호운용성을 제공하는 Google Cloud 내 오픈소스 테이블 통합 뷰어로 사용될 수 있습니다.

Dataproc Metastore 기능

Dataproc Metastore 기능은 다음과 같습니다.

  • OSS 호환성 - Dataproc Metastore는 완전한 OSS 호환 메타스토어를 제공합니다. Apache Hive, Apache Spark, Presto와 같은 기존 데이터 처리 스택과 매끄럽게 통합될 수 있습니다. Google Cloud 서비스와 오픈소스 중심의 파트너 사이에 더 많은 상호운용성을 제공합니다.

  • 관리 - Dataproc Metastore는 HMS 관리 부담을 줄여줍니다. 완전히 구성된 모니터링 및 운영 작업으로 몇 분 내에 HMS 인스턴스를 만들거나 업데이트할 수 있습니다.

  • 통합 - HMS 서비스 관리를 단순화하는 것 외에도 Dataproc Metastore는 Dataproc와 같은 기존 Google Cloud 제품들과 통합될 수 있습니다. 실행 중인 Dataproc Metastore 서비스를 Dataproc 클러스터의 메타데이터 소스로 사용할 수 있습니다.

  • 단순 가져오기 - 가져오기 기능을 사용해서 외부 데이터베이스에 저장된 기존 메타데이터를 Dataproc Metastore로 가져올 수 있습니다.

  • 보안 - Google Cloud에서 제공되는 보안 솔루션으로 Dataproc Metastore 서비스를 보호할 수 있습니다. 또한 Cloud IAM 권한을 설정하고 Kerberos 인증을 사용할 수 있습니다.

  • 안정성 - Dataproc Metastore 서비스는 정기적으로 백업되므로 HMS 데이터 내구성을 염려할 필요가 없습니다.

  • 고성능 - 각 등급은 사전 워밍 또는 캐싱 없이 급격한 HMS 호출 증가에 대응할 수 있는 고밀도 워크로드를 위한 보장 리소스 할당을 제공합니다.

  • 데이터 레이크 증가에 따른 확장성 - 데이터 레이크가 준비된 경우 각 등급 간에 쉽게 이동이 가능하고 새 메타스토어를 빠르게 만들 수도 있습니다.

  • 다운타임 감소 및 생산성 증가 - Google Cloud는 SLA 및 지원을 제공합니다.

Dataproc Metastore에는 무엇이 포함되나요?

Dataproc Metastore에서 지원되는 오픈소스(Apache Hive) 버전에 대한 자세한 내용은 Dataproc Metastore 버전 정책을 참조하세요.

Dataproc Metastore 시작하기

Dataproc Metastore를 빠르게 시작하려면 Dataproc Metastore 배포를 위한 빠른 시작을 참조하세요. Dataproc Metastore에 액세스하는 방법은 다음과 같습니다.