Dataproc コンポーネント

Dataproc クラスタには、次のタイプのコンポーネントがあります。

  • インストール済みのコンポーネント: イメージにインストールされ、クラスタの作成時に有効になるコンポーネント。

  • オプション コンポーネント: クラスタの作成時にクラスタにインストールして使用するために選択するコンポーネント。Dataproc は、クラスタ イメージ バージョンに応じて、次のようにオプション コンポーネントをインストールして有効にします。

    • 2.2 以前のイメージ バージョン: オプション コンポーネントが自動的にインストールされます。選択したオプション コンポーネントは有効になり、選択しなかったオプション コンポーネントはクラスタの作成時にアンインストールされます。

    • 2.3 以降のイメージ バージョン: Jupyter、Iceberg、Delta Lake のオプション コンポーネントを除くすべてのオプション コンポーネントは、クラスタの作成時にインストールされます。Jupyter、Iceberg、Delta Lake のオプション コンポーネントは、2.3 以降のイメージ バージョンにプリインストールされています。2.3 以降のイメージ バージョンのクラスタでは、クラスタの作成時に有効になっていない場合、プリインストールされたオプション コンポーネントは削除されます。詳細については、Dataproc 2.2.x リリース バージョンをご覧ください。

  • 初期化アクション コンポーネント: クラスタの作成時に指定する初期化アクションの一部としてクラスタにインストールされるコンポーネント。

オプション コンポーネントは、クラスタで初期化アクションが実行される前にクラスタにインストールされます。

Dataproc イメージ バージョン ページには、最新の Dataproc イメージ リリースで使用可能なコンポーネントとコンポーネント タイプが一覧表示されています。

オプション コンポーネントには、コンポーネントのインストールに使用される初期化アクションよりも次の利点があります。

  • オプション コンポーネントは、特定の Dataproc バージョンとの互換性がテストされています。
  • オプション コンポーネントはクラスタ作成パラメータで有効になります。初期化アクションにはスクリプトが必要です。

利用可能なオプション コンポーネント

オプション コンポーネント Google Cloud CLI コマンドと API リクエストのコンポーネント名
イメージ バージョン リリースのステージ
Delta Lake DELTA 2.2.46 以降 GA
Docker DOCKER 1.5 以降 GA
Flink FLINK 1.5 以降 GA
HBase HBASE 1.5 以降
2.1 以降では利用できません)
非推奨
Hive WebHCat HIVE_WEBHCAT 1.3 以降 GA
Hudi HUDI 1.5 以降 GA
Iceberg ICEBERG 2.2 以降 GA
Jupyter ノートブック JUPYTER 1.3 以降 GA
Pig PIG 1.5* 以降 GA
Presto PRESTO 1.3 以降
2.1 以降では利用できません)
GA
Ranger RANGER 1.3 以降 GA
Solr SOLR 1.3 以降 GA
Trino TRINO 2.1 以降 GA
Zeppelin ノートブック ZEPPELIN 1.3 以降 GA
Zookeeper ZOOKEEPER 1.0 以降 GA

注:

  • Apache Pig は、イメージ バージョン 2.3 以降のオプション コンポーネントです。2.2 以前のイメージ バージョンではプリインストールされていました。

オプション コンポーネントを追加する

コンソール

  1. Google Cloud コンソールで、Dataproc の [クラスタの作成] ページに移動します。

    [クラスタの作成] に移動

    [クラスタの設定] パネルが選択されています。

  2. [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールするコンポーネントを 1 つ以上選択します。

Google Cloud CLI

Dataproc クラスタを作成し、1 つ以上のオプション コンポーネントをクラスタにインストールするには、--optional-components フラグを指定した gcloud beta dataproc clusters create cluster-name コマンドを使用します。

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Dataproc API でオプション コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。