Dataproc Metastore 核心概念

請參考下列概念,瞭解 Dataproc Metastore 的運作方式,以及可搭配服務使用的各種功能。

Dataproc Metastore 版本

建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務Dataproc Metastore 1 服務

Dataproc Metastore 2

Dataproc Metastore 2 會使用縮放比例,判斷服務在特定時間使用的資源數量。建立 Dataproc Metastore 2 後,您可以修改調整係數,向上或向下調整服務規模。

  • Dataproc Metastore 2 是新一代服務,除了 Dataproc Metastore 功能外,還提供水平擴充能力。詳情請參閱「功能和優點」。

  • Dataproc Metastore 2 的計價方案與 Dataproc Metastore 不同。詳情請參閱定價方案和資源調度設定

Dataproc Metastore 1

Dataproc Metastore 1 會根據服務層級,判斷服務在特定時間使用的資源數量。服務層級會提供可預測的預先決定資源量。

檢查 Dataproc Metastore 版本

您可以在Google Cloud 控制台中查看目前使用的 Dataproc Metastore 版本。

  • Dataproc Metastore 2:設定資料表包含下列值:Edition Enterprise - Single Region
  • Dataproc Metastore 1:設定表包含下列其中一個值:Tier: DEVELOPERTier: ENTERPRISE

常見的 Dataproc Metastore 術語

下列術語普遍用於 Dataproc Metastore 生態系統和說明文件。

服務

  • Apache Hive。Hive 是採用 Apache Hadoop 建構而成的熱門開放原始碼資料倉儲系統,Hive 提供類似 SQL 的查詢語言,稱為 HiveQL,可用於分析大型結構化資料集。
  • Apache Hive Metastore。Hive 中繼存放區會保存 Hive 資料表相關的中繼資料,例如資料表的結構定義和位置。
  • Dataproc。Dataproc 是運作快速又簡單易用的 Google Cloud 全代管服務,可讓您以簡單且符合成本效益的方式,執行 Apache Spark 和 Apache Hadoop 工作負載。建立 Dataproc Metastore 後,即可從 Dataproc 叢集連線至該服務。
  • Dataproc 叢集。建立 Dataproc Metastore 服務後,即可從 Dataproc 叢集連線至該服務。您也可以將 Dataproc Metastore 與各種其他叢集搭配使用,例如自行管理的 Apache Hive、Apache Spark 或 Presto 叢集。
  • Dataproc Metastore 服務。您在 Google Cloud中建立的 Metastore 執行個體名稱。實作中可以有一或多個不同的 Metastore 服務。
  • Private Service Connect。透過 Private Service Connect,您可以在虛擬私有雲網路之間,設定與 Dataproc Metastore 中繼資料的私人連線。您可以將其用於網路,做為虛擬私有雲對等互連的替代方案。
  • VPC Service Controls。VPC Service Controls 可讓您建立 perimeter,保護明確指定的服務資源和資料,進而降低 Google Cloud 服務資料遭竊取的風險。

概念

  • 資料表。所有 Hive 應用程式都有代管內部或非代管外部資料表,用於儲存資料。
  • Hive 倉儲目錄。儲存受管理資料表資料的預設位置。
  • 構件 bucket。在您建立每個中繼存放區服務時,系統會自動在專案中建立 Cloud Storage 值區。這個值區可用來儲存服務構件,例如匯出的中繼資料和代管資料表資料。根據預設,構件值區會儲存 Dataproc Metastore 服務的預設倉儲目錄。
  • 端點。Dataproc Metastore 服務會透過一或多個網路端點,讓用戶端存取儲存的 Hive Metastore 中繼資料。Dataproc Metastore 會提供這些端點的 URI。
  • 端點通訊協定。用於 Dataproc Metastore 與 Hive Metastore 用戶端之間通訊的網路通訊協定。Dataproc Metastore 支援 Apache Thrift 和 gRPC 端點。
  • 中繼資料聯盟。這項功能可讓您存取儲存在多個 Dataproc Metastore 執行個體中的中繼資料。
  • 輔助版本。這項功能可讓多個 Hive 用戶端版本連線至同一個 Dataproc Metastore 服務。

Hive 中繼存放區概念

如要使用 Dataproc Metastore 服務,您必須瞭解基本的 Hive 中繼存放區概念。詳情請參閱「Hive Metastore」。

網路需求

Dataproc Metastore 服務需要網路存取權才能正常運作。詳情請參閱「設定網路需求」。

專案設定

部署 Dataproc 叢集和 Dataproc Metastore 服務時,您可以使用多種可能的專案設定。詳情請參閱跨專案部署

後續步驟