Dataproc Jupyter コンポーネント

Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、追加コンポーネントをインストールできます。このページでは Jupyter コンポーネントについて説明します。

Jupyter コンポーネントは、インタラクティブなデータ分析を行うためのウェブベースのノートブックで、JupyterLab ウェブ UI をサポートしています。Jupyter ウェブ UI は、クラスタの最初のマスターノードのポート 8123 で利用できます。

Jupyter ノートブックには、Spark コードを実行する Python カーネルと、PySpark カーネルが用意されています。デフォルトでは、ノートブックは Dataproc ステージング バケット内の Cloud Storage に保存されます。保存先バケットは、クラスタの作成時にユーザーが指定するか、自動作成されます。この場所は、クラスタの作成時に dataproc:jupyter.notebook.gcs.dir プロパティを使用して変更できます。

Jupyter をインストールする

Dataproc クラスタの作成時にコンポーネントをインストールします。 Dataproc バージョン 1.3 以降で作成されたクラスタには、コンポーネントを追加できます。プレビュー 2.0 イメージ以外の Dataproc イメージ バージョンでは、Jupyter コンポーネントに Anaconda コンポーネントのインストールが必要です(2.0 イメージを使用している場合、Anaconda コンポーネントのインストールは不要であるか、利用できません)。

Dataproc イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされる Dataproc バージョンをご覧ください。

gcloud コマンド

Jupyter コンポーネントを含む Dataproc クラスタを作成するには、--optional-components フラグを指定した gcloud dataproc clusters create cluster-nameコマンドを使用します。次の例では、Jupyter と Anaconda の両方のコンポーネントをインストールします(2.0 イメージを使用している場合、Anaconda コンポーネントのインストールは不要であるか、利用できません)。

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Dataproc API を使用して Jupyter コンポーネントと Anaconda コンポーネントを指定するには、clusters.create の一部として SoftwareConfig.Component を使用します。リクエスト(2.0 イメージの使用時に、Anaconda コンポーネントのインストールは不要または利用可能)。

Console

  1. コンポーネントとコンポーネント ゲートウェイを有効にします。
    • Cloud Console で、Dataproc の [クラスタの作成] ページを開きます。[クラスターを設定] パネルが選択されています。
    • [
        コンポーネント] セクションで次の設定を行います。
      • [オプション コンポーネント] で、クラスタにインストールする Anaconda や Jupyter、その他のオプション コンポーネントを選択します。注: 2.0 イメージを使用する場合、Anaconda コンポーネントのインストールは不要、または使用できません。
      • [コンポーネント ゲートウェイ] で [コンポーネント ゲートウェイを有効にする] を選択します(コンポーネント ゲートウェイの URL を表示してアクセスするをご覧ください)。

Jupyter と JupyterLab の UI を開く

Cloud Console コンポーネント ゲートウェイのリンクをクリックして、クラスタのマスターノードで実行されている Jupyter ノートブックと JupyterLab UI をローカルブラウザで開きます。

[GCS] または [ローカル ディスク] を選択して、いずれかの場所に新しい Jupyter Notebook を作成します。

マスターノードまたはワーカーノードへの GPU の接続

Jupyter ノートブックを使用する際、クラスタのマスターノードとワーカーノードに GPU を追加できます。

  1. Spark でデータを前処理して、DataFrame をマスターに集め、TensorFlow を実行する
  2. Spark を使用して TensorFlow の実行を並列にオーケストレートする
  3. Tensorflow-on-YARN を実行する
  4. GPU を使用するその他の機械学習シナリオで使用する