Dataproc Jupyter コンポーネント

Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、追加コンポーネントをインストールできます。このページでは Jupyter コンポーネントについて説明します。

Jupyter コンポーネントは、インタラクティブなデータ分析を行うためのウェブベースのノートブックで、JupyterLab ウェブ UI をサポートしています。Jupyter ウェブ UI は、クラスタの最初のマスターノードのポート 8123 で利用できます。

Jupyter ノートブックには、Spark コードを実行する Python カーネルと、PySpark カーネルが用意されています。デフォルトでは、ノートブックは Dataproc ステージング バケット内の Cloud Storage に保存されます。保存先バケットは、クラスタの作成時にユーザーが指定するか、自動作成されます。この場所は、クラスタの作成時に dataproc:jupyter.notebook.gcs.dir プロパティを使用して変更できます。

Jupyter をインストールする

Dataproc クラスタの作成時にコンポーネントをインストールします。 Dataproc バージョン 1.3 以降で作成されたクラスタには、コンポーネントを追加できます。プレビュー 2.0 イメージ以外の Dataproc イメージ バージョンでは、Jupyter コンポーネントに Anaconda コンポーネントのインストールが必要です(プレビュー 2.0 イメージを使用している場合、Anaconda コンポーネントのインストールは不要であるか、利用できません)。

Dataproc イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされる Dataproc バージョンをご覧ください。

gcloud コマンド

Jupyter コンポーネントを含む Dataproc クラスタを作成するには、--optional-components フラグを指定した gcloud dataproc clusters create cluster-nameコマンドを使用します。 次の例では、Jupyter と Anaconda の両方のコンポーネントをインストールします(プレビュー 2.0 イメージを使用している場合、Anaconda コンポーネントのインストールは不要であるか、利用できません)。

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Dataproc API を使用して Jupyter コンポーネントと Anaconda コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。(プレビュー 2.0 イメージを使用している場合、Anaconda コンポーネントのインストールは不要であるか、利用できません)。

Console

  1. コンポーネントを有効にします。
    • Cloud Console で、Dataproc の [クラスタの作成] ページを開きます。ページ下部にある [詳細オプション] をクリックして [オプション コンポーネント] セクションを表示します。

    • [コンポーネントを選択] をクリックして [オプション コンポーネント] 選択パネルを開きます。プレビュー 2.0 イメージを使用する場合を除き、「Anaconda」、「Jupyter ノートブック」、およびクラスタにインストールする他のオプション コンポーネントを選択します(プレビュー 2.0 イメージを使用している場合、Anaconda コンポーネントのインストールは不要であるか、利用できません)。
  2. Google Cloud Console から Jupyter ノートブックやその他のコンポーネントのウェブ インターフェースに簡単にアクセスできるようにするには、コンポーネント ゲートウェイ(イメージ バージョン 1.3.29 以降が必要)を有効にしてください(コンポーネント ゲートウェイの URL を表示してアクセスするをご覧ください)。
    • [クラスタの作成] フォームで [コンポーネント ゲートウェイ] チェックボックスをオンにします。

Jupyter と JupyterLab の UI を開く

Cloud Console コンポーネント ゲートウェイのリンクをクリックして、クラスタのマスターノードで実行されている Jupyter ノートブックと JupyterLab UI をローカルブラウザで開きます。

マスターノードまたはワーカーノードへの GPU の接続

Jupyter ノートブックを使用する際、クラスタのマスターノードとワーカーノードに GPU を追加できます。

  1. Spark でデータを前処理して、DataFrame をマスターに集め、TensorFlow を実行する
  2. Spark を使用して TensorFlow の実行を並列にオーケストレートする
  3. Tensorflow-on-YARN を実行する
  4. GPU を使用するその他の機械学習シナリオで使用する