Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、Anaconda などの追加コンポーネントをインストールできます。このページでは Anaconda コンポーネントについて説明します。
Anaconda コンポーネントは Python ディストリビューションの 1 つであり、1,000 件を超える一般的なデータ サイエンス パッケージを備えたパッケージ マネージャーでもあります。インストールの詳細については、Dataproc Python 環境の構成をご覧ください。
コンポーネントをインストールする
Dataproc クラスタの作成時にコンポーネントをインストールします。 Dataproc イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされる Dataproc バージョンをご覧ください。
gcloud コマンド
Anaconda コンポーネントを含む Dataproc クラスタを作成するには、--optional-components
フラグを指定した gcloud dataproc clusters create cluster-name コマンドを使用します。
gcloud dataproc clusters create cluster-name \ --region=region \ --optional-components=ANACONDA \ ... other args
REST API
Dataproc API を使用して Anaconda コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。Console
- コンポーネントを有効にします。
- Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスターを設定] パネルが選択されています。
- [コンポーネント] セクションで次の設定を行います。
- [オプション コンポーネント] で、クラスタにインストールする Anaconda やその他のオプション コンポーネントを選択します。