Dataproc コンポーネント

クラスタを作成すると、標準の Apache Hadoop エコシステム コンポーネントが自動的にクラスタにインストールされます(Dataproc バージョン リストをご覧ください)。 クラスタを作成する際に、「オプション コンポーネント」と呼ばれる追加コンポーネントをクラスタにインストールすることもできます。 クラスタへのオプション コンポーネントの追加は、初期化アクションを使用したコンポーネントの追加と似ていますが、以下のメリットがあります。

  • クラスタの起動時間の高速化
  • 特定の Dataproc バージョンとテスト済みの互換性
  • 初期化アクション スクリプトの代わりにクラスタ パラメータを使用
  • オプション コンポーネントと他の Dataproc コンポーネントとの統合。 たとえば、1 つのクラスタに Anaconda と Zeppelin をインストールするときに、Zeppelin では Anaconda の Python インタープリタとライブラリが利用されます。

利用可能なオプション コンポーネント

オプション コンポーネント COMPONENT_NAME
(gcloud コマンドと API リクエストで使用するコンポーネント名)
イメージ バージョン リリースの段階
Anaconda ANACONDA 1.3 以降
2.0 以降では利用できません)
GA
Docker DOCKER 1.5 以降 GA
Flink FLINK 1.5 以降 GA
HBase HBASE 1.5 以降
2.1 以降では利用できません)
ベータ
Hive WebHCat HIVE_WEBHCAT 1.3 以降 GA
Hudi Hudi 1.5 以降 GA
Jupyter ノートブック JUPYTER 1.3 以降 GA
Presto PRESTO 1.3 以降
2.1 以降では利用できません)
GA
Ranger RANGER 1.3 以降 GA
Solr SOLR 1.3 以降 GA
Trino Trino 2.1 以降 GA
Zeppelin ノートブック ZEPPELIN 1.3 以降 GA
Zookeeper ZOOKEEPER 1.0 以降 GA

オプション コンポーネントを追加する

gcloud コマンド

Dataproc クラスタを作成し、1 つ以上のオプション コンポーネントをクラスタにインストールするには、--optional-components フラグを指定した gcloud beta dataproc clusters create cluster-name コマンドを使用します。

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Dataproc API でオプション コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。

コンソール

Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスターを設定] パネルが選択されています。 [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールする 1 つ以上のコンポーネントを選択します。