Dataproc Anaconda コンポーネント

Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、追加コンポーネントをインストールできます。このページでは Anaconda コンポーネントについて説明します。

Anaconda コンポーネントは Python ディストリビューションの 1 つであり、1,000 件を超える一般的なデータ サイエンス パッケージを備えたパッケージ マネージャーでもあります。コンポーネントは、すべてのクラスタノード上の /opt/conda/anaconda にインストールされ、デフォルトの Python インタープリタになります。

コンポーネントをインストールする

Dataproc クラスタの作成時にコンポーネントをインストールします。 Dataproc バージョン 1.3 以降で作成されたクラスタには、コンポーネントを追加できます。

Dataproc イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされる Dataproc バージョンをご覧ください。

gcloud コマンド

Anaconda コンポーネントを含む Dataproc クラスタを作成するには、--optional-componentsフラグを指定した gcloud dataproc clusters create cluster-name コマンドを使用します。

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

REST API

Dataproc API を使用して Anaconda コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。

コンソール

Cloud Console で、Dataproc の [クラスタの作成] ページを開きます。ページ下部にある [詳細オプション] をクリックして [オプション コンポーネント] セクションを表示します。

[コンポーネントを選択] をクリックして [オプション コンポーネント] 選択パネルを開きます。クラスタにインストールするコンポーネントを 1 つ以上選択します。