Dataproc クラスタには、次のタイプのコンポーネントがあります。
インストール済みのコンポーネント: イメージにインストールされ、クラスタの作成時に有効になるコンポーネント。
オプション コンポーネント: クラスタの作成時にクラスタにインストールして使用するために選択するコンポーネント。Dataproc は、クラスタ イメージ バージョンに応じて、次のようにオプション コンポーネントをインストールして有効にします。
2.2
以前のイメージ バージョン: オプション コンポーネントが自動的にインストールされます。選択したオプション コンポーネントは有効になり、選択しなかったオプション コンポーネントはクラスタの作成時にアンインストールされます。2.3
以降のイメージ バージョン: Jupyter、Iceberg、Delta Lake のオプション コンポーネントを除くすべてのオプション コンポーネントは、クラスタの作成時にインストールされます。Jupyter、Iceberg、Delta Lake のオプション コンポーネントは、2.3
以降のイメージ バージョンにプリインストールされています。2.3
以降のイメージ バージョンのクラスタでは、クラスタの作成時に有効になっていない場合、プリインストールされたオプション コンポーネントは削除されます。詳細については、Dataproc 2.2.x リリース バージョンをご覧ください。
初期化アクション コンポーネント: クラスタの作成時に指定する初期化アクションの一部としてクラスタにインストールされるコンポーネント。
オプション コンポーネントは、クラスタで初期化アクションが実行される前にクラスタにインストールされます。
Dataproc イメージ バージョン ページには、最新の Dataproc イメージ リリースで使用可能なコンポーネントとコンポーネント タイプが一覧表示されています。
オプション コンポーネントには、コンポーネントのインストールに使用される初期化アクションよりも次の利点があります。
- オプション コンポーネントは、特定の Dataproc バージョンとの互換性がテストされています。
- オプション コンポーネントはクラスタ作成パラメータで有効になります。初期化アクションにはスクリプトが必要です。
利用可能なオプション コンポーネント
オプション コンポーネント | Google Cloud CLI コマンドと API リクエストのコンポーネント名 |
イメージ バージョン | リリースのステージ |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 以降 | GA |
Docker | DOCKER | 1.5 以降 | GA |
Flink | FLINK | 1.5 以降 | GA |
HBase | HBASE | 1.5 以降 (2.1 以降では利用できません) |
非推奨 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 以降 | GA |
Hudi | HUDI | 1.5 以降 | GA |
Iceberg | ICEBERG | 2.2 以降 | GA |
Jupyter ノートブック | JUPYTER | 1.3 以降 | GA |
Pig | PIG | 1.5* 以降 | GA |
Presto | PRESTO | 1.3 以降 (2.1 以降では利用できません) |
GA |
Ranger | RANGER | 1.3 以降 | GA |
Solr | SOLR | 1.3 以降 | GA |
Trino | TRINO | 2.1 以降 | GA |
Zeppelin ノートブック | ZEPPELIN | 1.3 以降 | GA |
Zookeeper | ZOOKEEPER | 1.0 以降 | GA |
注:
- Apache Pig は、イメージ バージョン 2.3 以降のオプション コンポーネントです。
2.2
以前のイメージ バージョンではプリインストールされていました。
オプション コンポーネントを追加する
コンソール
- Google Cloud コンソールで、Dataproc の [クラスタの作成] ページに移動します。
[クラスタの設定] パネルが選択されています。
- [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールするコンポーネントを 1 つ以上選択します。
Google Cloud CLI
Dataproc クラスタを作成し、1 つ以上のオプション コンポーネントをクラスタにインストールするには、--optional-components
フラグを指定した gcloud beta dataproc clusters create cluster-name
コマンドを使用します。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
Dataproc API でオプション コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。