Cloud Dataproc 版本管理

Cloud Dataproc 會使用映像檔,將有用的 Google Cloud Platform 連接器,以及 Apache Spark 與 Apache Hadoop 元件整合成一個套件,讓您能用來部署到 Cloud Dataproc 叢集。這些映像檔包含叢集的基本作業系統 (Debian 或 Ubuntu),以及執行工作所需的核心與選用元件,例如 Spark、Hadoop 和 Hive。我們會定期升級這些映像檔,加入新的改善項目和功能。Cloud Dataproc 版本管理可讓您在建立叢集時選擇一組軟體版本。

版本管理的運作方式

映像檔建立時會給予一個格式如下的映像檔版本編號:

version_major.version_minor.version_sub_minor-os_distribution

以下為目前維護的作業系統版本:

作業系統版本編碼 作業系統版本
debian9 Debian 9
ubuntu18 Ubuntu 18

如要查看之前支援的作業系統版本,請參閱舊映像檔版本一節。

我們建議的做法是為實際工作環境,或是當特定元件版本的相容性很重要時,指定 major.minor 映像檔版本。副次要版本和作業系統版本將會自動設為最近一週的新發行版本。

選取版本

在您建立新的 Cloud Dataproc 叢集時,系統預設會使用最新的可用 Debian 映像檔版本。您可以在建立叢集時,選取 Debian 或 Ubuntu 映像檔版本 (請參閱 Cloud Dataproc 映像檔版本清單)。如果您指定 Debian 映像檔,可以省略作業系統版本代碼的尾碼,例如指定「1.3」來選取 1.3-debian9 映像檔。不過,如要選取 Ubuntu 映像檔,就必須使用作業系統的尾碼,例如指定「1.4-ubuntu18」。

gcloud 指令

當您使用 gcloud dataproc clusters create 指令時,可以使用 --image-version 引數為新叢集指定映像檔版本。

Debian 映像檔範例:

gcloud dataproc clusters create new-cluster-name --image-version 1.4

Ubuntu 映像檔範例:

gcloud dataproc clusters create new-cluster-name --image-version 1.3-ubuntu18

最佳做法是省略副次要版本,讓系統使用最新的副次要版本。不過,您還是可以在必要時指定副次要版本,例如「1.2.67」。

您可以使用 gcloud 指令列工具來查看目前的版本。

gcloud dataproc clusters describe cluster-name

REST API

您可以指定 SoftwareConfig imageVersion 欄位,做為 cluster.create API 請求的一部分。

範例

POST /v1/projects/project-id/regions/global/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "1.3"
    }
  }
}
  

主控台

建立新叢集時,請按一下 Cloud Dataproc 的「Create a cluster」(建立叢集) 表單底部的 [Advanced options] (進階選項)。

「Image」(映像檔) 欄位會顯示系統將在建立叢集時使用的映像檔。該欄位一開始顯示的是預設值 (最新的可用 Debian 版本)。

按一下 [Change] (變更),顯示可供叢集選用的映像檔清單。您可以選擇標準或自訂映像檔

建立新版本時

我們會定期建立新的主要版本,以納入下列其中一或多個項目:

  • 下列項目的主要版本:
    • Spark、Hadoop 和其他大數據元件
    • Google Cloud 連接器
  • Cloud Dataproc 功能的主要變更或更新

我們會定期建立新的次要版本,以納入下列其中一或多個項目:

  • 下列項目的次要版本和更新:
    • Spark、Hadoop 和其他大數據元件
    • Google Cloud 連接器
  • Cloud Dataproc 功能的次要變更或更新

建立新的次要版本時,該版本的 Debian 映像檔會成為主要版本的預設映像檔,代表該主要版本所用的最新版本。

我們會定期建立新的副次要版本,以納入下列其中一或多個項目:

  • 映像檔中元件的修補程式或修正內容

映像檔版本與 Cloud Dataproc 支援

主要和次要映像檔版本將在發行之後的特定時間內取得支援。在此期間,使用這些映像檔版本的叢集也能取得支援。在支援期限過後,使用這些映像檔版本的叢集將無法繼續取得支援。

映像檔版本發行後的月數 是否可以使用此映像檔版本建立叢集? 使用此映像檔版本的叢集能否取得支援?
0-12
12-24
24+

副次版本並未提供保證期限或支援。

舊映像檔版本

之前支援的作業系統版本

以下為之前支援的作業系統版本:

作業系統版本編碼 作業系統版本 上次發行日期
deb8 Debian 8 2018 年 10 月 26 日

無明確作業系統版本的映像檔版本

在 2018 年 8 月 16 日之前,映像檔版本是使用 Debian 8 建構的,並且缺少作業系統版本代碼,格式如下:

version_major.version_minor.version_sub_minor

0.1 和 0.2

我們在 Cloud Dataproc 1.0 正式發行版之前所推出的 Alpha 版或 Beta 版映像檔,不受 Cloud Dataproc 支援政策的規範。

版本管理的重要注意事項

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataproc 說明文件
需要協助嗎?請前往我們的支援網頁