Dataproc Jupyter コンポーネント

Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、追加コンポーネントをインストールできます。このページでは Jupyter コンポーネントについて説明します。

Jupyter コンポーネントは、インタラクティブなデータ分析を行うためのウェブベースのノートブックで、JupyterLab ウェブ UI をサポートしています。Jupyter ウェブ UI は、クラスタの最初のマスターノードのポート 8123 で利用できます。

Jupyter ノートブックには、Spark コードを実行する Python カーネルと、PySpark カーネルが用意されています。デフォルトでは、ノートブックは Dataproc ステージング バケット内の Cloud Storage に保存されます。保存先バケットは、クラスタの作成時にユーザーが指定するか、自動作成されます。この場所は、クラスタの作成時に dataproc:jupyter.notebook.gcs.dir プロパティを使用して変更できます。

Jupyter と Anaconda をインストールする

Dataproc クラスタの作成時にコンポーネントをインストールします。 Dataproc バージョン 1.3 以降で作成されたクラスタには、コンポーネントを追加できます。Jupyter コンポーネントには、(下記の gcloud コマンドライン ツールの例に示されているように)Anaconda コンポーネントがインストールされている必要があります。

Dataproc イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされる Dataproc バージョンをご覧ください。

gcloud コマンド

Jupyter コンポーネントを含む Dataproc クラスタを作成するには、--optional-components フラグを指定した gcloud dataproc clusters create cluster-nameコマンドを使用します。

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Dataproc API を使用して Jupyter コンポーネントと Anaconda コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。

コンソール

  1. コンポーネントを有効にします。
    • Cloud Console で、Dataproc の [クラスタの作成] ページを開きます。ページ下部にある [詳細オプション] をクリックして [オプション コンポーネント] セクションを表示します。

    • [コンポーネントを選択] をクリックして [オプション コンポーネント] 選択パネルを開きます。[Anaconda]、[Jupyter ノートブック] とクラスタにインストールする他のオプション コンポーネントを選択します。

  2. Google Cloud Console から Jupyter ノートブックやその他のコンポーネントのウェブ インターフェースに簡単にアクセスできるようにするには、コンポーネント ゲートウェイ(イメージ バージョン 1.3.29 以降が必要)を有効にしてください(コンポーネント ゲートウェイの URL を表示してアクセスするをご覧ください)。
    • [クラスタの作成] フォームで [コンポーネント ゲートウェイ] チェックボックスをオンにします。

Jupyter と JupyterLab の UI を開く

Cloud Console コンポーネント ゲートウェイのリンクをクリックして、クラスタのマスターノードで実行されている Jupyter ノートブックと JupyterLab UI をローカルブラウザで開きます。

マスターノードまたはワーカーノードへの GPU の接続

Jupyter ノートブックを使用する際、クラスタのマスターノードとワーカーノードに GPU を追加できます。

  1. Spark でデータを前処理して、DataFrame をマスターに集め、TensorFlow を実行する
  2. Spark を使用して TensorFlow の実行を並列にオーケストレートする
  3. Tensorflow-on-YARN を実行する
  4. GPU を使用するその他の機械学習シナリオで使用する