Dataproc Metastore는 Google Cloud에서 실행되는 완전 관리형 Apache Hive 메타스토어 (HMS)입니다.
HMS는 스키마, 파티션, 관계형 데이터베이스의 열 통계와 같은 기술 메타데이터를 관리하기 위해 오픈소스 빅데이터 생태계에서 확립된 표준입니다.
Dataproc Metastore는 고가용성, 자동 복구, 서버리스를 지원합니다.
이를 사용하면 데이터 레이크 메타데이터를 관리하고 사용 중인 다양한 데이터 처리 엔진 간의 상호 운용성을 제공할 수 있습니다.
Dataproc Metastore 작동 방식
Dataproc 클러스터에 연결하여 Dataproc Metastore 서비스를 사용할 수 있습니다. Dataproc 클러스터에는 HMS를 사용하여 쿼리 계획 및 실행을 구동하는 구성요소가 포함됩니다.
이 통합을 통해 작업 간 테이블 정보를 유지하거나 메타데이터를 다른 클러스터 및 기타 처리 엔진에 제공할 수 있습니다.
예를 들어 메타스토어를 구현하면 파일 이름 수동 추적과 반대로 파일 하위 집합에 수익 데이터가 포함되도록 지정하는 데 도움이 됩니다.
이 경우 이러한 파일에 대해 테이블을 정의하고 Dataproc Metastore에 메타데이터를 저장할 수 있습니다. 그런 다음 Dataproc 클러스터에 연결하고 Hive, Spark SQL 또는 기타 쿼리 서비스를 사용하여 테이블에 정보를 쿼리할 수 있습니다.
Dataproc Metastore 버전
Dataproc Metastore 서비스를 만들 때 Dataproc Metastore 2 서비스 또는 Dataproc Metastore 1 서비스를 사용하도록 선택할 수 있습니다.
Dataproc Metastore 2는 Dataproc Metastore 1 기능 외에도 수평 확장성을 제공하는 차세대 서비스입니다.
자세한 내용은 특징 및 장점을 참조하세요.
Dataproc Metastore 2는 Dataproc Metastore와 요금제가 다릅니다. 자세한 내용은 요금제 및 확장 구성을 참조하세요.
일반 사용 사례
이 섹션에 나와 있는 모든 사용 사례는 달리 명시하지 않는 한 Dataproc Metastore 2 및 Dataproc Metastore 1에서 지원됩니다.
데이터에 의미 할당. 많은 임시 Dataproc 클러스터 간에 공유되는 중앙 집중식 메타데이터 저장소를 만듭니다. Apache Hive, Apache Spark, Presto와 같은 다른 오픈소스 소프트웨어(OSS) 엔진을 사용합니다.
데이터에 대한 통합 뷰 빌드. Dataproc, Dataplex 범용 카탈로그, BigQuery와 같은Google Cloud 서비스 간의 상호 운용성을 제공하거나Google Cloud에서 다른 오픈소스 기반 파트너 제품을 사용합니다.
특징 및 이점
이 섹션에 나와 있는 모든 특징은 달리 명시하지 않는 한 Dataproc Metastore 2 및 Dataproc Metastore 1에서 지원됩니다.
OSS 호환성. Apache Hive, Apache Spark, Presto와 같은 기존 데이터 처리 엔진에 연결할 수 있습니다.
관리. 완전히 구성된 모니터링 및 작업 작업으로 몇 분 안에 메타스토어를 만들거나 업데이트할 수 있습니다.
통합. BigQuery를 Dataproc 클러스터의 메타데이터 소스로 사용하는 등 다른 Google Cloud 제품과 통합합니다.
간편한 가져오기. 외부 Hive Metastore 메타스토어에 저장된 기존 메타데이터를 Dataproc Metastore 서비스로 가져옵니다.
자동 백업. 자동 메타스토어 백업을 구성하여 데이터 손실을 방지합니다.
성능 모니터링. 사전 워밍 또는 캐싱 없이 고밀도 워크로드와 급격한 호출 증가에 동적으로 대응할 수 있는 성능 등급을 설정할 수 있습니다.
고가용성(HA).
Dataproc Metastore 2. 특정 구성이나 지속적인 관리가 필요하지 않은 영역별 고가용성(HA) 기능을 제공합니다. 이렇게 하려면 선택한 리전의 여러 영역에 백엔드 데이터베이스와 HMS 서버를 자동으로 복제하면 됩니다. 영역 HA 외에 Dataproc Metastore 2도 리전별 HA 및 재해 복구(DR)를 지원합니다.
Dataproc Metastore 1. 기본적으로 특정 구성이나 지속적인 관리가 필요하지 않은 영역별 고가용성(HA) 기능을 제공합니다. 이렇게 하려면 선택한 리전의 여러 영역에 백엔드 데이터베이스와 HMS 서버를 자동으로 복제하면 됩니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eDataproc Metastore is a fully managed, highly available, and serverless Apache Hive metastore (HMS) on Google Cloud, designed for managing data lake metadata.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore integrates with Dataproc clusters and other Google Cloud services like BigQuery and Dataplex, enabling interoperability and a unified data view across various open-source engines.\u003c/p\u003e\n"],["\u003cp\u003eIt supports two versions, Dataproc Metastore 1 and the newer Dataproc Metastore 2, with the latter offering horizontal scalability and zonal, regional high availability (HA), and Disaster Recovery (DR).\u003c/p\u003e\n"],["\u003cp\u003eKey features include OSS compatibility, built-in security, simple metadata import, automatic backups, and performance monitoring to manage the storage of table information between jobs.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore allows for centralized metadata repositories, enabling users to assign meaning to data and make it available across multiple ephemeral Dataproc clusters using different open source software (OSS) engines.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore overview\n\n\u003cbr /\u003e\n\nDataproc Metastore is a fully managed [Apache Hive metastore](https://cwiki.apache.org/confluence/display/Hive/Design#Design-Metastore) (HMS) that runs on Google Cloud.\nAn (HMS) is the established standard in the open source big data\necosystem for managing technical metadata, such as schemas, partitions, and column\nstatistics in a relational database.\n\nDataproc Metastore is highly available, autohealing, and serverless.\nUse it to manage [data lake](https://cloud.google.com/learn/what-is-a-data-lake)\nmetadata and provide interoperability between the various data processing engines\nand tools that you're using.\n\nHow Dataproc Metastore works\n----------------------------\n\nYou can use a Dataproc Metastore service by connecting it to\na Dataproc cluster. A Dataproc cluster includes\ncomponents that rely on an HMS to drive query planning and execution.\n\nThis integration lets you keep your table information between jobs or make\nmetadata available to other clusters and other processing engines.\n\nFor example, implementing a metastore might help you designate that a subset\nof your files contains revenue data, as opposed to manually tracking the filenames.\nIn this case, you can define a table for those files and store the metadata in\nDataproc Metastore. After, you can connect it to a\nDataproc cluster and query the table for information using Hive,\nSpark SQL, or other query services.\n\n**Dataproc Metastore versions**\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore 1 features.\n For more information, see [features and benefits](#Dataproc%20Metastore-features).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Common use cases\n\nAll use cases listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **Assign meaning to your data.** Create a centralized metadata repository\n that's shared among many ephemeral Dataproc clusters. Use\n different open source software (OSS) engines, such as [Apache Hive](https://hive.apache.org)\n , [Apache Spark](https://spark.apache.org/), and [Presto](https://prestodb.io/).\n\n- **Build a unified view of your data.** Provide interoperability between\n Google Cloud services, such as Dataproc, Dataplex Universal Catalog,\n and BigQuery, or use other open source-based partner offerings on\n Google Cloud.\n\n### Features and benefits\n\nAll features listed in this section are supported by Dataproc Metastore\n2 and Dataproc Metastore 1, unless otherwise noted.\n\n- **OSS compatibility**. Connect to your existing data processing engines,\n such as Apache Hive, Apache Spark, and Presto.\n\n- **Management**. Create or update a metastore within minutes, complete with\n fully configured monitoring and operation tasks.\n\n- **Integration**. Integrate with other Google Cloud products, such as\n using BigQuery as the source of metadata for a Dataproc\n cluster.\n\n- **Built-in security** . Use established Google Cloud security protocols,\n such as [Identity and Access Management (IAM)](/dataproc-metastore/docs/iam-and-access-control)\n and [Kerberos authentication](/dataproc-metastore/docs/configure-kerberos).\n\n- **Simple import**. Import existing metadata stored in an external Hive Metastore\n metastore into a Dataproc Metastore service.\n\n- **Automatic Backups**. Configure automatic metastore backups to help avoid\n data loss.\n\n- **Performance monitoring**. Set performance tiers to dynamically respond to\n highly intensive workloads and spikes, without pre-warming or caching.\n\n- **High availability (HA)**.\n\n - **Dataproc Metastore 2.** Provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose. In addition to Zonal HA, Dataproc Metastore 2 supports regional HA and Disaster Recovery (DR).\n - **Dataproc Metastore 1.** By default, provides zonal high availability (HA) without requiring any specific configuration or on-going management. This is accomplished by automatically replicating backend databases and HMS servers across multiple zones in the region you choose.\n\n\n For more information about region-specific considerations, see\n [Geography and regions](/docs/geography-and-regions#regions_and_zones).\n- **Scalability**.\n\n - **Dataproc Metastore 2.** Use a horizontal scaling factor to determine how many resources your service needs to use at a given time. The scaling factor can be manually controlled or set to autoscale when needed.\n - **Dataproc Metastore 1.** Choose between a developer tier or enterprise tier when you set up your service. This tier determines how many resources your service needs to use at a given time.\n- **Support**. Benefit from standard Google Cloud SLAs and support channels.\n\nIntegrations with Google Cloud\n------------------------------\n\nAll integrations listed in this section are supported by Dataproc Metastore\n1 and Dataproc Metastore 2, unless otherwise noted.\n\n- **Dataproc.** Connect to a Dataproc cluster, so you can serve metadata for OSS big data workloads.\n- **BigQuery.** Query BigQuery datasets in your Dataproc workloads.\n- **Dataplex Universal Catalog.** Query structured and semi-structured data discovered in a Dataplex Universal Catalog lake.\n- **Data Catalog.** Sync Dataproc Metastore with Data Catalog to enable search and discovery of metadata.\n- **Logging and Monitoring.** Integrate Dataproc Metastore with Cloud Monitoring and Logging products.\n- **Authentication and IAM.** Rely on standard OAuth authentication used by other Google Cloud products, which supports using granular Identity and Access Management roles to enable access control for individual resources.\n\nNext steps\n----------\n\n- Get started with the quickstart guide, [Deploying a Dataproc Metastore service](/dataproc-metastore/docs/create-service-cluster).\n- Understand [Dataproc Metastore pricing](/dataproc-metastore/pricing).\n- Understand [quotas and limits for Dataproc Metastore](/dataproc-metastore/docs/quotas).\n- Read the [Dataproc Metastore release notes](/dataproc-metastore/docs/release-notes).\n- Access Dataproc Metastore using the [Google Cloud console](https://console.cloud.google.com/dataproc/metastore), the [Google Cloud CLI](/sdk/gcloud/reference/metastore) or with the [Dataproc Metastore API](/dataproc-metastore/docs/reference/rest)."]]