Dataproc クラスタで Jupyter ノートブックをインストールして実行する


目標

このチュートリアルでは、新しいクラスタに Dataproc Jupyter コンポーネントをインストールし、Dataproc コンポーネント ゲートウェイを使用して、ローカルのブラウザからクラスタ上で実行されている Jupyter ノートブックに接続する方法を示します

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

Google Cloud プロジェクトと Cloud Storage バケットをまだ作成していない場合は作成します。

  1. プロジェクトの設定

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. このチュートリアルで作成するノートブックを格納するプロジェクトに Cloud Storage バケットを作成する

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. ノートブックは Cloud Storage の gs://bucket-name/notebooks/jupyter に保存されます。

クラスタを作成して Jupyter コンポーネントをインストールする

インストール済みの Jupyter コンポーネントでクラスタを作成します

Jupyter と JupyterLab の UI を開く

Google Cloud コンソールで Google Cloud コンソール コンポーネント ゲートウェイのリンクをクリックして、クラスタのマスターノードで実行されている Jupyter ノートブックまたは JupyterLab UI を開きます。

Jupyter インスタンスに表示される最上位ディレクトリは、Cloud Storage バケットとローカル ファイル システムの内容を表示できる仮想ディレクトリです。Cloud Storage の [GCS] リンクをクリックするか、クラスタ内のマスターノードのローカル ファイルシステムの [ローカル ディスク] をクリックして、いずれかのロケーションを選択できます。

  1. [GCS] リンクをクリックします。Jupyter ノートブックのウェブ UI には、このチュートリアルで作成したノートブックを含め、Cloud Storage バケットに保存されているノートブックが表示されます。

クリーンアップ

チュートリアルが終了したら、作成したリソースをクリーンアップして、割り当ての使用を停止し、課金されないようにできます。次のセクションで、リソースを削除または無効にする方法を説明します。

プロジェクトの削除

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

クラスタの削除

  • クラスタを削除するには:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

バケットの削除

  • バケットに保存されているノートブックを含め始める前にの手順 2 で作成した Cloud Storage バケットを削除するには:
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

次のステップ