Dataproc クラスタで Jupyter ノートブックをインストールして実行する

目標

このチュートリアルでは、Dataproc Jupyter および Anaconda コンポーネントを新しいクラスタにインストールしてから、Dataproc コンポーネントゲートウェイを使用してローカルブラウザからクラスタで実行されている Jupyter ノートブック UI に接続する方法を説明します。

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

Google Cloud Platform プロジェクトと Cloud Storage バケットをまだ作成していない場合は作成します。

プロジェクトの設定
このチュートリアルで作成するノートブックを格納するプロジェクトに Cloud Storage バケットを作成する。
1. Google Cloud コンソールで、Cloud Storage の [バケット] ページに移動します。
  [バケット] ページに移動
2. [バケットを作成] をクリックします。
3. [バケットの作成] ページでユーザーのバケット情報を入力します。次のステップに進むには、[続行] をクリックします。
  - [バケットに名前を付ける] で、バケット名の要件を満たす名前を入力します。
  - [データの保存場所の選択] で、次の操作を行います。
    - [ロケーションタイプ] オプションを選択します。
    - [ロケーション] オプションを選択します。
  - [データのデフォルトのストレージクラスを選択する] で、ストレージクラスを選択します。
  - [オブジェクトへのアクセスを制御する方法を選択する] で [アクセス制御] オプションを選択します。
  - [詳細設定（省略可）] には、暗号化メソッド、保持ポリシー、またはバケットラベルを指定します。
4. [作成] をクリックします。

クラスタを作成して Jupyter コンポーネントをインストールする

インストール済みの Jupyter コンポーネントでクラスタを作成します。

Jupyter と JupyterLab の UI を開く

Google Cloud コンソールで Google Cloud コンソールコンポーネントゲートウェイのリンクをクリックして、クラスタのマスターノードで実行されている Jupyter ノートブックまたは JupyterLab UI を開きます。

Jupyter インスタンスに表示される最上位ディレクトリは、Cloud Storage バケットとローカルファイルシステムの内容を表示できる仮想ディレクトリです。Cloud Storage の [GCS] リンクをクリックするか、クラスタ内のマスターノードのローカルファイルシステムの [ローカルディスク] をクリックして、いずれかのロケーションを選択できます。

[GCS] リンクをクリックします。Jupyter ノートブックのウェブ UI には、このチュートリアルで作成したノートブックを含め、Cloud Storage バケットに保存されているノートブックが表示されます。

クリーンアップ

チュートリアルが終了したら、作成したリソースをクリーンアップして、割り当ての使用を停止し、課金されないようにできます。次のセクションで、リソースを削除または無効にする方法を説明します。

プロジェクトの削除

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。このドキュメントのタスクで既存のプロジェクトを使用した場合、それを削除すると、そのプロジェクトで行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（たとえば、appspot.com）を保持するには、プロジェクト全体ではなくプロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限を超えないようにすることができます。

Google Cloud コンソールで、[リソースの管理] ページに移動します。
[リソースの管理] に移動
プロジェクトリストで、削除するプロジェクトを選択し、[削除] をクリックします。
ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

クラスタの削除

クラスタを削除するには:

gcloud dataproc clusters delete cluster-name \
    --region=${REGION}

バケットの削除

バケットに保存されているノートブックを含め、始める前にの手順 2 で作成した Cloud Storage バケットを削除するには:
```
gsutil -m rm -r gs://${BUCKET_NAME}
```

次のステップ

Jupyter ノートブック、IPython ノートブックのクイックスタートガイドを見る。