다음 개념을 사용하면 Dataproc Metastore의 작동 방식과 서비스로 사용할 수 있는 다양한 기능을 이해할 수 있습니다.
Dataproc Metastore 버전
Dataproc Metastore 서비스를 만들 때 Dataproc Metastore 2 서비스 또는 Dataproc Metastore 1 서비스를 사용하도록 선택할 수 있습니다.
Dataproc Metastore 2
Dataproc Metastore 2는 확장 인수를 사용하여 지정된 시간에 서비스에서 사용하는 리소스 수를 결정합니다. Dataproc Metastore 2를 만든 후 확장 인수를 수정하여 서비스를 확장하거나 축소할 수 있습니다.
Dataproc Metastore 2는 Dataproc Metastore 기능 외에도 수평 확장성을 제공하는 차세대 서비스입니다.
자세한 내용은 특징 및 장점을 참조하세요.
Dataproc Metastore 2는 Dataproc Metastore와 요금제가 다릅니다. 자세한 내용은 요금제 및 확장 구성을 참조하세요.
Dataproc Metastore 1
Dataproc Metastore 1은 서비스 등급을 사용하여 지정된 시간에 서비스에서 사용하는 리소스 수를 결정합니다. 서비스 등급은 예측 가능한 미리 정해진 리소스 양을 제공합니다.
Dataproc Metastore 버전 확인
사용 중인 Dataproc Metastore 버전은Google Cloud 콘솔에서 확인할 수 있습니다.
Dataproc Metastore 2: 구성 테이블에는 엔터프라이즈 버전 - 단일 리전 값이 포함되어 있습니다.
Dataproc Metastore 1: 구성 테이블에는 등급: 개발자 또는 등급: 엔터프라이즈 값 중 하나가 포함되어 있습니다.
일반적인 Dataproc Metastore 용어
다음 용어는 Dataproc Metastore 생태계와 문서에서 일반적으로 사용됩니다.
서비스
Apache Hive. Hive는 Apache Hadoop을 기반으로 구축된 널리 사용되는 오픈소스 데이터 웨어하우스입니다. Hive가 제공하는 HiveQL이라는 SQL 스타일의 쿼리 언어를 사용하여 구조화된 대규모 데이터 세트를 분석할 수 있습니다.
Apache Hive Metastore Hive 메타스토어는 Hive 테이블에 대한 스키마, 위치 등의 메타데이터를 보유합니다.
Dataproc. Dataproc은 Google Cloud 에서 간단하고 비용 효율적인 방식으로 Apache Spark 및 Apache Hadoop 워크로드를 실행하는 빠르고 사용하기 쉬운 완전 관리형 서비스입니다. Dataproc Metastore를 만든 후 Dataproc 클러스터에서 서비스에 연결할 수 있습니다.
Dataproc 클러스터. Dataproc Metastore 서비스를 만든 후 Dataproc 클러스터에서 서비스에 연결할 수 있습니다. Dataproc Metastore는 자체 관리형 Apache Hive, Apache Spark, Presto 클러스터와 같은 다양한 다른 클러스터와 함께 사용할 수도 있습니다.
Dataproc Metastore 서비스. Google Cloud에서 만드는 Metastore 인스턴스의 이름입니다. 구현에 한 개 이상의 서로 다른 Metastore 서비스를 사용할 수 있습니다.
Private Service Connect Private Service Connect를 사용하면 VPC 네트워크 간에 Dataproc Metastore 메타데이터에 대해 비공개 연결을 설정할 수 있습니다. VPC 피어링의 대안으로 네트워킹에 이를 사용할 수 있습니다.
VPC 서비스 제어. VPC 서비스 제어는 명시적으로 지정하는 리소스 및 서비스 데이터를 보호하는 매개변수를 생성하도록 허용하여 Google Cloud 서비스에서 데이터 무단 반출 위험을 완화하는 기능을 향상시켜 줍니다.
개념
테이블. 모든 Hive 애플리케이션에는 데이터를 저장하는 관리형 내부 또는 비관리형 외부 테이블이 포함됩니다.
Hive 웨어하우스 디렉터리. 관리형 테이블 데이터가 저장되는 기본 위치입니다.
아티팩트 버킷. 생성하는 모든 메타스토어 서비스와 함께 프로젝트에 자동으로 생성되는 Cloud Storage 버킷입니다. 이 버킷을 사용하여 내보낸 메타데이터 및 관리형 테이블 데이터와 같은 서비스 아티팩트를 저장할 수 있습니다. 기본적으로 아티팩트 버킷에는 Dataproc Metastore 서비스의 기본 웨어하우스 디렉터리가 저장됩니다.
엔드포인트. Dataproc Metastore 서비스는 하나 이상의 네트워크 엔드포인트를 통해 저장된 Hive Metastore 메타데이터에 대한 액세스 권한을 클라이언트에 제공합니다. Dataproc Metastore는 이러한 엔드포인트에 대해 URI를 제공합니다.
엔드포인트 프로토콜 Dataproc Metastore와 Hive Metastore 클라이언트 간의 통신에 사용되는 데이터 전송 네트워크 프로토콜입니다. Dataproc Metastore는 Apache Thrift 및 gRPC 엔드포인트를 지원합니다.
메타데이터 제휴. 여러 Dataproc Metastore 인스턴스에 저장된 메타데이터에 액세스할 수 있게 해주는 기능입니다.
보조 버전. 여러 Hive 클라이언트 버전을 동일한 Dataproc Metastore 서비스에 연결할 수 있게 해주는 기능입니다.
Hive Metastore 개념
Dataproc Metastore 서비스를 사용하려면 Hive Metastore 기본 개념의 이해가 필요합니다. 자세한 내용은 Hive Metastore를 참조하세요.
네트워크 요구사항
Dataproc Metastore 서비스가 올바르게 작동하려면 네트워킹 액세스 권한이 필요합니다. 자세한 내용은 네트워크 요구사항 구성을 참조하세요.
프로젝트 구성
Dataproc 클러스터 및 Dataproc Metastore 서비스를 배포할 때는 다양한 프로젝트 구성을 사용할 수 있습니다.
자세한 내용은 프로젝트 간 배포를 참조하세요.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eDataproc Metastore offers two service versions: Dataproc Metastore 1, which uses service tiers for resource allocation, and Dataproc Metastore 2, which uses a scaling factor for dynamic resource scaling.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore 2 provides horizontal scalability and has a different pricing plan compared to Dataproc Metastore 1.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore uses common terms like Apache Hive, Apache Hive metastore, Dataproc cluster, and Private Service Connect to describe its features and ecosystem.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Metastore stores metadata about Hive tables, offers options for networking like Private Service Connect and VPC Service Controls, and uses a Cloud Storage bucket for service artifacts.\u003c/p\u003e\n"],["\u003cp\u003eThe Dataproc Metastore has services to create, update, delete and import metadata into it, to aid in the management of the metastore.\u003c/p\u003e\n"]]],[],null,["# Dataproc Metastore core concepts\n\nUse the following concepts to help you understand how\nDataproc Metastore works and the different features you can use\nwith your service.\n\nDataproc Metastore versions\n---------------------------\n\nWhen you create a Dataproc Metastore service, you can choose to use\na *Dataproc Metastore 2 service* or a *Dataproc Metastore 1\nservice*.\n\n### Dataproc Metastore 2\n\nDataproc Metastore 2 uses a scaling factor to determine how\nmany resources your service uses at a given time. After you create a\nDataproc Metastore 2, you can scale the service up or down by modifying\nthe scaling factor.\n\n- Dataproc Metastore 2 is the new generation of the service that offers\n horizontal scalability in addition to Dataproc Metastore features.\n For more information, see [features and benefits](/dataproc-metastore/docs/overview#why-use-Dataproc%20Metastore).\n\n- Dataproc Metastore 2 has a different pricing plan than\n Dataproc Metastore. For more information, see [pricing plans and scaling configurations](/dataproc-metastore/pricing).\n\n### Dataproc Metastore 1\n\nDataproc Metastore 1 uses service tiers to determine how many\nresources your service uses at a given time. Service tiers provide a predictable,\npredetermined amount of resources.\n\n### Check your Dataproc Metastore version\n\nYou can check what version of Dataproc Metastore you're using in the\nGoogle Cloud console.\n\n- **Dataproc Metastore 2** : The configuration table contains the following value: **Edition Enterprise - Single Region**.\n- **Dataproc Metastore 1** : The configuration table contains one of the following values: **Tier: DEVELOPER** or **Tier: ENTERPRISE**.\n\nCommon Dataproc Metastore terms\n-------------------------------\n\nThe following terms are used commonly throughout the Dataproc Metastore\necosystem and documentation.\n\n#### Services\n\n- **Apache Hive**. Hive is a popular open source data warehouse system built on Apache Hadoop. Hive offers a SQL-like query language called HiveQL, which is used to analyze large, structured datasets.\n- **Apache Hive metastore**. The Hive metastore holds metadata about Hive tables, such as their schema and location.\n- **Dataproc**. Dataproc is a fast, easy-to-use, fully managed service on Google Cloud for running Apache Spark and Apache Hadoop workloads in a simple, cost-efficient way. After you create a Dataproc Metastore, you can connect to it from a Dataproc cluster.\n- **Dataproc cluster**. After you create a Dataproc Metastore service, you can connect to it from a Dataproc cluster. You can also use Dataproc Metastore with various other clusters, such as self-managed Apache Hive, Apache Spark, or Presto clusters.\n- **Dataproc Metastore service**. The name of the metastore instance you create in Google Cloud. You can have one or many different metastore services in your implementation.\n- **Private Service Connect**. Private Service Connect lets you set up a private connection to Dataproc Metastore metadata across VPC networks. You can use it for networking as an alternative to VPC peering.\n- **VPC Service Controls**. VPC Service Controls improves your ability to mitigate the risk of data exfiltration from Google Cloud services by allowing you to create perimeters that protect the resources and data of services that you explicitly specify.\n\n#### Concepts\n\n- **Tables**. All Hive applications have managed internal or unmanaged external tables that store your data.\n- **Hive warehouse directory**. The default location where managed table data is stored.\n- **Artifacts bucket**. A Cloud Storage bucket that is created in your project automatically with every metastore service that you create. This bucket can be used to store your service artifacts, such as exported metadata and managed table data. By default, the artifacts bucket stores the default warehouse directory of your Dataproc Metastore service.\n- **Endpoints**. A Dataproc Metastore service provides clients access to the stored Hive Metastore metadata through one or more network endpoints. Dataproc Metastore provides URIs for these endpoints.\n- **Endpoint protocols**. The over-the-wire network protocol used for communication between Dataproc Metastore and Hive Metastore clients. Dataproc Metastore supports Apache Thrift and gRPC endpoints.\n- **Metadata Federation**. A feature that lets you access metadata that is stored in multiple Dataproc Metastore instances.\n- **Auxiliary versions**. A feature that lets you connect multiple Hive client versions to the same Dataproc Metastore service.\n\nHive metastore concepts\n-----------------------\n\nUsing a Dataproc Metastore service requires that you understand\nbasic Hive metastore concepts. For more information, see [Hive Metastore](/dataproc-metastore/docs/hive-metastore).\n\nNetwork Requirements\n--------------------\n\nThe Dataproc Metastore service requires networking access to work\ncorrectly. For more information, see [Configure network requirements](/dataproc-metastore/docs/access-service).\n\nProject configurations\n----------------------\n\nThere are a number of possible project configurations you can use when deploying a\nDataproc cluster and a Dataproc Metastore service.\nFor more information, see [cross-project deployment](/dataproc-metastore/docs/cross-project-deployment).\n\nWhat's next\n-----------\n\n- [Create a service](/dataproc-metastore/docs/create-service)\n- [Update and delete a service](/dataproc-metastore/docs/manage-service)\n- [Import metadata into a service](/dataproc-metastore/docs/import-metadata)"]]