Dataproc Metastore 總覽

Dataproc Metastore 是全代管的 Apache Hive 中繼存放區 (HMS),在 Google Cloud上執行。(HMS) 是開放原始碼大數據生態系統中既有的標準,用於管理技術中繼資料,例如關聯式資料庫中的結構定義、分割區和資料欄統計資料。

Dataproc Metastore 具備高可用性、自動修復功能,且為無伺服器。您可以使用此服務管理資料湖中繼資料,並在使用的各種資料處理引擎和工具之間提供互通性。

Dataproc Metastore 的運作方式

您可以將 Dataproc Metastore 服務連線至 Dataproc 叢集,Dataproc 叢集包含依附於 HMS 的元件,可驅動查詢規劃和執行作業。

透過這項整合功能,您可以在作業之間保留表格資訊,或讓其他叢集和其他處理引擎使用中繼資料。

舉例來說,實作中繼資料存放區可協助您指定檔案子集包含收益資料,不必手動追蹤檔案名稱。在這種情況下,您可以為這些檔案定義資料表,並將中繼資料儲存在 Dataproc Metastore 中。之後,您可以將其連線至 Dataproc 叢集,並使用 Hive、Spark SQL 或其他查詢服務查詢資料表中的資訊。

Dataproc Metastore 版本

建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務Dataproc Metastore 1 服務

  • Dataproc Metastore 2 是新一代服務,除了 Dataproc Metastore 1 的功能外,還提供水平擴充功能。詳情請參閱「功能和優點」。

  • Dataproc Metastore 2 的計價方案與 Dataproc Metastore 不同。詳情請參閱定價方案和資源調度設定

常見用途

除非另有註明,否則 Dataproc Metastore 2 和 Dataproc Metastore 1 皆支援本節列出的所有用途。

  • 為資料指派意義。建立集中式中繼資料存放區,供多個暫時性 Dataproc 叢集共用。使用不同的開放原始碼軟體 (OSS) 引擎,例如 Apache HiveApache SparkPresto

  • 建立統一的資料檢視畫面。在 Dataproc、Dataplex Universal Catalog 和 BigQuery 等服務之間提供互通性,或在Google Cloud上使用其他以開放原始碼為基礎的合作夥伴產品。Google Cloud

特色與優點

除非另有說明,否則本節列出的所有功能都支援 Dataproc Metastore 2 和 Dataproc Metastore 1。

  • OSS 相容性。連線至現有的資料處理引擎,例如 Apache Hive、Apache Spark 和 Presto。

  • 管理。在幾分鐘內建立或更新中繼存放區,並完成所有設定的監控和作業工作。

  • 整合。與其他 Google Cloud 產品整合,例如將 BigQuery 做為 Dataproc 叢集的中繼資料來源。

  • 內建安全防護機制。使用既有的 Google Cloud 安全通訊協定,例如身分與存取權管理 (IAM)Kerberos 驗證

  • 輕鬆匯入:將儲存在外部 Hive Metastore 中的現有中繼資料匯入 Dataproc Metastore 服務。

  • 自動備份。設定自動備份中繼存放區,避免資料遺失。

  • 監控成效:設定效能層級,動態回應高密集型工作負載和尖峰流量,不需預先暖機或快取。

  • 高可用性 (HA)

    • Dataproc Metastore 2。提供可用區高可用性 (HA),不需任何特定設定或持續管理。方法是在您選擇的區域中,自動將後端資料庫和 HMS 伺服器複製到多個可用區。除了區域高可用性,Dataproc Metastore 2 也支援區域高可用性和災難復原 (DR)。
    • Dataproc Metastore 1. 預設提供區域高可用性 (HA),無須任何特定設定或持續管理。方法是在您選擇的區域中,自動將後端資料庫和 HMS 伺服器複製到多個可用區。

    如要進一步瞭解特定地區的注意事項,請參閱「地理位置與區域」一文。

  • 擴充性

    • Dataproc Metastore 2。使用水平調度係數,判斷服務在特定時間需要使用的資源數量。您可以手動控制縮放比例,或視需要設為自動縮放。
    • Dataproc Metastore 1. 設定服務時,請選擇開發人員層級或企業層級。這個層級決定服務在特定時間需要使用的資源數量。
  • 支援。享有標準 Google Cloud 服務水準協議和支援管道。

與 Google Cloud

除非另有註明,否則本節列出的所有整合功能都支援 Dataproc Metastore 1 和 Dataproc Metastore 2。

  • Dataproc。連線至 Dataproc 叢集,以便為 OSS 大數據工作負載提供中繼資料。
  • BigQuery。在 Dataproc 工作負載中查詢 BigQuery 資料集。
  • Dataplex Universal Catalog。查詢在 Dataplex Universal Catalog 湖泊中探索到的結構化和半結構化資料。
  • 資料目錄。將 Dataproc Metastore 與 Data Catalog 同步處理,即可搜尋及探索中繼資料。
  • 記錄與監控。將 Dataproc Metastore 與 Cloud Monitoring 和 Logging 產品整合。
  • 驗證和 IAM。採用其他Google Cloud 產品使用的標準 OAuth 驗證機制,支援使用精細的身分與存取權管理角色,為個別資源啟用存取權控管。

後續步驟