Dataproc は、イメージを使用して、有用な Google Cloud Platform コネクタと Apache Spark & Apache Hadoop コンポーネントを 1 つのパッケージにまとめ、Dataproc クラスタにデプロイできます。このイメージには、クラスタの基本オペレーティング システム(Debian または Ubuntu)の他に、ジョブの実行に必要な Spark、Hadoop、Hive などのコア コンポーネントとオプション コンポーネントが含まれます。 このイメージは、新しい改善点と機能のために定期的にアップグレードされます。Dataproc のバージョニングを使用すると、クラスタを作成するときにソフトウェア バージョンのセットを選択できます。
バージョニングの仕組み
作成されたイメージには、以下の形式のイメージ バージョン番号が付けられます。
version_major.version_minor.version_sub_minor-os_distribution
現在、次の OS ディストリビューションが維持されています。
OS ディストリビューション コード | OS ディストリビューション |
---|---|
centos8 | CentOS 8 |
debian10 | Debian 10 |
ubuntu18 | Ubuntu 18 |
以前にサポートされていた OS ディストリビューションについては、古いイメージ バージョンをご覧ください。
本番環境の場合や、特定のコンポーネントとの互換性が重要な場合は、major.minor
イメージ バージョンを指定することをおすすめします。サブマイナーと OS ディストリビューションは、最新の週次リリースに自動的に設定されます。
バージョンの選択
新しい Dataproc クラスタを作成すると、デフォルトで最新のDebianイメージ バージョンが使用されます。クラスタの作成時に CentOS、Debian、または Ubuntu イメージ バージョンか Ubuntu イメージ バージョンのどちらかを選択できます(Dataproc のイメージ バージョン リストをご覧ください)。Debian ベースのイメージを指定する場合、OS ディストリビューション コードの接尾辞を省略できます。たとえば、1.3-debian9
イメージを選択するには「1.3」と指定します。CentOS または Ubuntu ベースのイメージを選択する場合は、OS 接尾辞の使用が必要です。たとえば、「1.4-ubuntu18」と指定します。
gcloud コマンド
gcloud dataproc clusters create
コマンドを使用する場合、--image-version
引数を使用して新しいクラスタのイメージ バージョンを指定できます。
Debian イメージの例:
gcloud dataproc clusters create cluster-name \ --image-version=1.4 \ --region=region
Ubuntu イメージの例:
gcloud dataproc clusters create cluster-name \ --image-version=1.3-ubuntu18 \ --region=region
最新のサブマイナー バージョンが使用されるように、サブマイナー バージョンの指定を省略することをおすすめします。ただし、必要に応じてサブマイナー バージョンを指定することもできます(例: 1.2.67)。
gcloud
コマンドライン ツールで現在のバージョンを確認できます。
gcloud dataproc clusters describe cluster-name \ --region=region
REST API
cluster.create API リクエストの一部として、SoftwareConfig
imageVersion フィールドを指定できます。
例
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "1.3" } } }
Console
Dataproc の [クラスタの作成] ページを開きます。[クラスターを設定] パネルが選択されています。[バージョニング] セクションの [イメージの種類とバージョン] フィールドに、クラスタの作成時に使用されるイメージが表示されます。画像のリリース日も表示されます。最初は、洗濯されたデフォルトのイメージ(利用可能な最新の Debian バージョン)が表示されます。 [変更] をクリックすると、使用可能なイメージのリストが表示されます。クラスタで使用する標準イメージまたはカスタム イメージを選択できます。
新しいバージョンを作成する場合
次の 1 つ以上を組み込むために新しいメジャー バージョンが定期的に作成されます。
- 次のもののメジャー リリース:
- Spark、Hadoop、その他のビッグデータ コンポーネント
- Google Cloud コネクタ
- Dataproc 機能に対するメジャー変更や更新
次の 1 つ以上を組み込むために新しいマイナー バージョンが定期的に作成されます。
- 次のもののマイナー リリースと更新:
- Spark、Hadoop、その他のビッグデータ コンポーネント
- Google Cloud コネクタ
- Cloud Dataproc 機能に対するマイナー変更や更新
新しいマイナー バージョンが作成されると、その Debian イメージがメジャー バージョンのデフォルトとなり、メジャー バージョンの最新リリースになります。
新しいサブマイナー バージョンが定期的に作成され、以下の 1 つ以上が組み込まれます。
- イメージに含まれるコンポーネントのパッチやフィックス
イメージ バージョンと Dataproc のサポート
メジャーとマイナーのイメージ バージョンは、リリース後の一定期間にサポートされます。この期間中、そのイメージ バージョンを使用するクラスタがサポートの対象になります。サポート期間が終了すると、イメージ バージョンを使用するクラスタはサポートの対象ではなくなります。
イメージ バージョンの最初のリリースからの月数 | このイメージ バージョンでクラスタを作成できるか | このイメージ バージョンを使用するクラスタはサポート対象か |
---|---|---|
0~12 | ○ | ○ |
12~24 | ○ | × |
24+ | × | × |
サブマイナー バージョンではライフタイムやサポートが保証されません。
古いイメージ バージョン
以前サポートされていた OS ディストリビューション
以前サポートされていた OS ディストリビューションは次のとおりです。
OS ディストリビューション コード | OS ディストリビューション | 最終パッチ(サポート終了) |
---|---|---|
debian9 | Debian 9 | 2020 年 7 月 10 日 |
deb8 | Debian 8 | 2018 年 10 月 26 日 |
明示的な OS ディストリビューションがないイメージ バージョン
2018 年 8 月 16 日より前のイメージ バージョンはすべて Debian 8 でビルドされ、OS ディストリビューション コードが省略されています。次の形式で指定されています。
version_major.version_minor.version_sub_minor
0.1 と 0.2
一般提供になった Dataproc バージョン 1.0
より前にアルファ版またはベータ版としてリリースされたイメージ バージョンは、Dataproc サポート ポリシーの対象になりません。