Cloud Dataproc 會使用映像檔,將有用的 Google Cloud Platform 連接器,以及 Apache Spark 與 Apache Hadoop 元件整合成一個套件,讓您能用來部署到 Cloud Dataproc 叢集。這些映像檔包含叢集的基本作業系統 (Debian 或 Ubuntu),以及執行工作所需的核心與選用元件,例如 Spark、Hadoop 和 Hive。我們會定期升級這些映像檔,加入新的改善項目和功能。Cloud Dataproc 版本管理可讓您在建立叢集時選擇一組軟體版本。
版本管理的運作方式
映像檔建立時會給予一個格式如下的映像檔版本編號:
version_major.version_minor.version_sub_minor-os_distribution
以下為目前維護的作業系統版本:
作業系統版本編碼 | 作業系統版本 |
---|---|
debian9 | Debian 9 |
ubuntu18 | Ubuntu 18 |
如要查看之前支援的作業系統版本,請參閱舊映像檔版本一節。
我們建議的做法是為實際工作環境,或是當特定元件版本的相容性很重要時,指定 major.minor
映像檔版本。副次要版本和作業系統版本將會自動設為最近一週的新發行版本。
選取版本
在您建立新的 Cloud Dataproc 叢集時,系統預設會使用最新的可用 Debian 映像檔版本。您可以在建立叢集時,選取 Debian 或 Ubuntu 映像檔版本 (請參閱 Cloud Dataproc 映像檔版本清單)。如果您指定 Debian 映像檔,可以省略作業系統版本代碼的尾碼,例如指定「1.3」來選取 1.3-debian9
映像檔。不過,如要選取 Ubuntu 映像檔,就必須使用作業系統的尾碼,例如指定「1.4-ubuntu18」。
gcloud 指令
當您使用 gcloud dataproc clusters create
指令時,可以使用 --image-version
引數為新叢集指定映像檔版本。
Debian 映像檔範例:
gcloud dataproc clusters create new-cluster-name --image-version 1.4
Ubuntu 映像檔範例:
gcloud dataproc clusters create new-cluster-name --image-version 1.3-ubuntu18
最佳做法是省略副次要版本,讓系統使用最新的副次要版本。不過,您還是可以在必要時指定副次要版本,例如「1.2.67」。
您可以使用 gcloud
指令列工具來查看目前的版本。
gcloud dataproc clusters describe cluster-name
REST API
您可以指定 SoftwareConfig
imageVersion 欄位,做為 cluster.create API 請求的一部分。
範例
POST /v1/projects/project-id/regions/global/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "1.3" } } }
主控台
建立新叢集時,請按一下 Cloud Dataproc 的「Create a cluster」(建立叢集) 表單底部的 [Advanced options] (進階選項)。

「Image」(映像檔) 欄位會顯示系統將在建立叢集時使用的映像檔。該欄位一開始顯示的是預設值 (最新的可用 Debian 版本)。


建立新版本時
我們會定期建立新的主要版本,以納入下列其中一或多個項目:
- 下列項目的主要版本:
- Spark、Hadoop 和其他大數據元件
- Google Cloud 連接器
- Cloud Dataproc 功能的主要變更或更新
我們會定期建立新的次要版本,以納入下列其中一或多個項目:
- 下列項目的次要版本和更新:
- Spark、Hadoop 和其他大數據元件
- Google Cloud 連接器
- Cloud Dataproc 功能的次要變更或更新
建立新的次要版本時,該版本的 Debian 映像檔會成為主要版本的預設映像檔,代表該主要版本所用的最新版本。
我們會定期建立新的副次要版本,以納入下列其中一或多個項目:
- 映像檔中元件的修補程式或修正內容
映像檔版本與 Cloud Dataproc 支援
主要和次要映像檔版本將在發行之後的特定時間內取得支援。在此期間,使用這些映像檔版本的叢集也能取得支援。在支援期限過後,使用這些映像檔版本的叢集將無法繼續取得支援。
映像檔版本發行後的月數 | 是否可以使用此映像檔版本建立叢集? | 使用此映像檔版本的叢集能否取得支援? |
---|---|---|
0-12 | 是 | 是 |
12-24 | 是 | 否 |
24+ | 否 | 否 |
副次版本並未提供保證期限或支援。
舊映像檔版本
之前支援的作業系統版本
以下為之前支援的作業系統版本:
作業系統版本編碼 | 作業系統版本 | 上次發行日期 |
---|---|---|
deb8 | Debian 8 | 2018 年 10 月 26 日 |
無明確作業系統版本的映像檔版本
在 2018 年 8 月 16 日之前,映像檔版本是使用 Debian 8 建構的,並且缺少作業系統版本代碼,格式如下:
version_major.version_minor.version_sub_minor
0.1 和 0.2
我們在 Cloud Dataproc 1.0
正式發行版之前所推出的 Alpha 版或 Beta 版映像檔,不受 Cloud Dataproc 支援政策的規範。