Dataproc Metastore 是全代管的 Apache Hive 中繼存放區 (HMS),在 Google Cloud上執行。(HMS) 是開放原始碼大數據生態系統中既有的標準,用於管理技術中繼資料,例如關聯式資料庫中的結構定義、分割區和資料欄統計資料。
Dataproc Metastore 具備高可用性、自動修復功能,且為無伺服器。您可以使用此服務管理資料湖中繼資料,並在使用的各種資料處理引擎和工具之間提供互通性。
Dataproc Metastore 的運作方式
您可以將 Dataproc Metastore 服務連線至 Dataproc 叢集,Dataproc 叢集包含依附於 HMS 的元件,可驅動查詢規劃和執行作業。
透過這項整合功能,您可以在作業之間保留表格資訊,或讓其他叢集和其他處理引擎使用中繼資料。
舉例來說,實作中繼資料存放區可協助您指定檔案子集包含收益資料,不必手動追蹤檔案名稱。在這種情況下,您可以為這些檔案定義資料表,並將中繼資料儲存在 Dataproc Metastore 中。之後,您可以將其連線至 Dataproc 叢集,並使用 Hive、Spark SQL 或其他查詢服務查詢資料表中的資訊。
Dataproc Metastore 版本
建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務或 Dataproc Metastore 1 服務。
Dataproc Metastore 2 是新一代服務,除了 Dataproc Metastore 1 的功能外,還提供水平擴充功能。詳情請參閱「功能和優點」。
Dataproc Metastore 2 的計價方案與 Dataproc Metastore 不同。詳情請參閱定價方案和資源調度設定。
常見用途
除非另有註明,否則 Dataproc Metastore 2 和 Dataproc Metastore 1 皆支援本節列出的所有用途。
為資料指派意義。建立集中式中繼資料存放區,供多個暫時性 Dataproc 叢集共用。使用不同的開放原始碼軟體 (OSS) 引擎,例如 Apache Hive、Apache Spark 和 Presto。
建立統一的資料檢視畫面。在 Dataproc、Dataplex Universal Catalog 和 BigQuery 等服務之間提供互通性,或在Google Cloud上使用其他以開放原始碼為基礎的合作夥伴產品。Google Cloud
特色與優點
除非另有說明,否則本節列出的所有功能都支援 Dataproc Metastore 2 和 Dataproc Metastore 1。
OSS 相容性。連線至現有的資料處理引擎,例如 Apache Hive、Apache Spark 和 Presto。
管理。在幾分鐘內建立或更新中繼存放區,並完成所有設定的監控和作業工作。
整合。與其他 Google Cloud 產品整合,例如將 BigQuery 做為 Dataproc 叢集的中繼資料來源。
內建安全防護機制。使用既有的 Google Cloud 安全通訊協定,例如身分與存取權管理 (IAM) 和 Kerberos 驗證。
輕鬆匯入:將儲存在外部 Hive Metastore 中的現有中繼資料匯入 Dataproc Metastore 服務。
自動備份。設定自動備份中繼存放區,避免資料遺失。
監控成效:設定效能層級,動態回應高密集型工作負載和尖峰流量,不需預先暖機或快取。
高可用性 (HA)。
- Dataproc Metastore 2。提供可用區高可用性 (HA),不需任何特定設定或持續管理。方法是在您選擇的區域中,自動將後端資料庫和 HMS 伺服器複製到多個可用區。除了區域高可用性,Dataproc Metastore 2 也支援區域高可用性和災難復原 (DR)。
- Dataproc Metastore 1. 預設提供區域高可用性 (HA),無須任何特定設定或持續管理。方法是在您選擇的區域中,自動將後端資料庫和 HMS 伺服器複製到多個可用區。
如要進一步瞭解特定地區的注意事項,請參閱「地理位置與區域」一文。
擴充性。
- Dataproc Metastore 2。使用水平調度係數,判斷服務在特定時間需要使用的資源數量。您可以手動控制縮放比例,或視需要設為自動縮放。
- Dataproc Metastore 1. 設定服務時,請選擇開發人員層級或企業層級。這個層級決定服務在特定時間需要使用的資源數量。
支援。享有標準 Google Cloud 服務水準協議和支援管道。
與 Google Cloud
除非另有註明,否則本節列出的所有整合功能都支援 Dataproc Metastore 1 和 Dataproc Metastore 2。
- Dataproc。連線至 Dataproc 叢集,以便為 OSS 大數據工作負載提供中繼資料。
- BigQuery。在 Dataproc 工作負載中查詢 BigQuery 資料集。
- Dataplex Universal Catalog。查詢在 Dataplex Universal Catalog 湖泊中探索到的結構化和半結構化資料。
- 資料目錄。將 Dataproc Metastore 與 Data Catalog 同步處理,即可搜尋及探索中繼資料。
- 記錄與監控。將 Dataproc Metastore 與 Cloud Monitoring 和 Logging 產品整合。
- 驗證和 IAM。採用其他Google Cloud 產品使用的標準 OAuth 驗證機制,支援使用精細的身分與存取權管理角色,為個別資源啟用存取權控管。
後續步驟
- 請參閱「部署 Dataproc Metastore 服務」快速入門指南。
- 瞭解 Dataproc Metastore 定價。
- 瞭解 Dataproc Metastore 的配額和限制。
- 參閱 Dataproc Metastore 版本資訊。
- 使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc Metastore API 存取 Dataproc Metastore。