Dataproc クラスタで Jupyter ノートブックをインストールして実行する


目標

このチュートリアルでは、Dataproc Jupyter および Anaconda コンポーネントを新しいクラスタにインストールしてから、Dataproc コンポーネント ゲートウェイを使用してローカル ブラウザからクラスタで実行されている Jupyter ノートブック UI に接続する方法を説明します

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

Google Cloud Platform プロジェクトと Cloud Storage バケットをまだ作成していない場合は作成します。

  1. プロジェクトの設定

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

      プロジェクト セレクタに移動

    3. Google Cloud プロジェクトで課金が有効になっていることを確認します

    4. Dataproc, Compute Engine, and Cloud Storage API を有効にします。

      API を有効にする

    5. Google Cloud CLI をインストールします。
    6. gcloud CLI を初期化するには:

      gcloud init
    7. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

      プロジェクト セレクタに移動

    8. Google Cloud プロジェクトで課金が有効になっていることを確認します

    9. Dataproc, Compute Engine, and Cloud Storage API を有効にします。

      API を有効にする

    10. Google Cloud CLI をインストールします。
    11. gcloud CLI を初期化するには:

      gcloud init

  2. このチュートリアルで作成するノートブックを格納するプロジェクトに Cloud Storage バケットを作成する

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. ノートブックは Cloud Storage の gs://bucket-name/notebooks/jupyter に保存されます。

クラスタを作成して Jupyter コンポーネントをインストールする

インストール済みの Jupyter コンポーネントでクラスタを作成します

Jupyter と JupyterLab の UI を開く

Google Cloud コンソールで Google Cloud コンソール コンポーネント ゲートウェイのリンクをクリックして、クラスタのマスターノードで実行されている Jupyter ノートブックまたは JupyterLab UI を開きます。

Jupyter インスタンスに表示される最上位ディレクトリは、Cloud Storage バケットとローカル ファイル システムの内容を表示できる仮想ディレクトリです。Cloud Storage の [GCS] リンクをクリックするか、クラスタ内のマスターノードのローカル ファイルシステムの [ローカル ディスク] をクリックして、いずれかのロケーションを選択できます。

  1. [GCS] リンクをクリックします。Jupyter ノートブックのウェブ UI には、このチュートリアルで作成したノートブックを含め、Cloud Storage バケットに保存されているノートブックが表示されます。

クリーンアップ

チュートリアルが終了したら、作成したリソースをクリーンアップして、割り当ての使用を停止し、課金されないようにできます。次のセクションで、リソースを削除または無効にする方法を説明します。

プロジェクトの削除

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

クラスタの削除

  • クラスタを削除するには:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

バケットの削除

  • バケットに保存されているノートブックを含め始める前にの手順 2 で作成した Cloud Storage バケットを削除するには:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

次のステップ