Dataproc コンポーネント

クラスタを作成すると、標準の Apache Hadoop エコシステム コンポーネントが自動的にクラスタにインストールされます(Dataproc バージョン リストをご覧ください)。 クラスタを作成する際に、「オプション コンポーネント」と呼ばれる追加コンポーネントをクラスタにインストールすることもできます。 クラスタへのオプション コンポーネントの追加は、初期化アクションを使用したコンポーネントの追加と似ていますが、以下のメリットがあります。

  • クラスタの起動時間の高速化
  • 特定の Dataproc バージョンとテスト済みの互換性
  • 初期化アクション スクリプトの代わりにクラスタ パラメータを使用
  • オプション コンポーネントと他の Dataproc コンポーネントとの統合。 たとえば、1 つのクラスタに Anaconda と Zeppelin をインストールするときに、Zeppelin では Anaconda の Python インタープリタとライブラリが利用されます。

オプション コンポーネントは、Dataproc バージョン 1.3 以降で作成されたクラスタに追加できます。

利用可能なオプション コンポーネント

オプション コンポーネント COMPONENT_NAME
(gcloud コマンドと API リクエストで使用するコンポーネント名)
イメージ バージョン リリースの段階
Anaconda ANACONDA 1.3 以降
2.0 以降では利用できません)
GA
Docker DOCKER 1.5 以降 GA
Druid DRUID 1.3 以降 アルファ
Flink FLINK 1.5 以降 GA
HBase HBASE 1.5 以降 ベータ
Hive WebHCat HIVE_WEBHCAT 1.3 以降 GA
Jupyter ノートブック JUPYTER 1.3 以降 GA
Presto PRESTO 1.3 以降 GA
Ranger RANGER 1.3 以降 GA
Solr SOLR 1.3 以降 GA
Zeppelin ノートブック ZEPPELIN 1.3 以降 GA
Zookeeper ZOOKEEPER 1.0 以降 GA

オプション コンポーネントを追加する

gcloud コマンド

Dataproc クラスタを作成し、1 つ以上のオプション コンポーネントをクラスタにインストールするには、--optional-components フラグを指定した gcloud beta dataproc clusters create cluster-name コマンドを使用します。

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Dataproc API でオプション コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。

Console

Cloud Console で、Dataproc の [クラスタの作成] ページを開きます。[クラスターを設定] パネルが選択されています。 [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールする 1 つ以上のコンポーネントを選択します。