Dataproc クラスタでマネージド ノートブック インスタンスを実行する

このページでは、Dataproc クラスタでマネージド ノートブック インスタンスのノートブック ファイルを実行する方法について説明します。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  8. まだ作成していない場合は、マネージド ノートブック インスタンスを作成します。

必要なロール

Dataproc サーバーレス クラスタでノートブック ファイルを実行するために必要な権限がサービス アカウントに付与されるようにするには、サービス アカウントに次の IAM ロールを付与するように管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、Dataproc サーバーレス クラスタでノートブック ファイルを実行するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

Dataproc サーバーレス クラスタでノートブック ファイルを実行するには、次の権限が必要です。

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

管理者は、サービス アカウントに、カスタムロールや他の事前定義ロールを付与することもできます。

Dataproc クラスタを作成する

マネージド ノートブック インスタンスのノートブック ファイルを Dataproc クラスタで実行するには、クラスタが次の条件を満たしている必要があります。

  • クラスタのコンポーネント ゲートウェイが有効になっている必要があります。

  • クラスタに Jupyter コンポーネントが必要です。

  • クラスタは、マネージド ノートブック インスタンスと同じリージョンに存在する必要があります。

Dataproc クラスタを作成するには、Cloud Shell または Google Cloud CLI がインストールされている別の環境で、次のコマンドを入力します。

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

次のように置き換えます。

  • REGION: マネージド ノートブック インスタンスの Google Cloud のロケーション

  • CLUSTER_NAME: 新しいクラスタの名前。

数分後、Dataproc クラスタを使用できるようになります。Dataproc クラスタの作成に関する詳細をご覧ください。

JupyterLab を開く

  1. まだ作成していない場合は、Dataproc クラスタと同じリージョンにマネージド ノートブック インスタンスを作成します。

  2. Google Cloud コンソールで、[マネージド ノートブック] ページに移動します。

    [マネージド ノートブック] に移動

  3. マネージド ノートブック インスタンス名の横にある [Open JupyterLab] をクリックします。

Dataproc クラスタでノートブック ファイルを実行する

同じプロジェクトとリージョン内のマネージド ノートブック インスタンスから Dataproc クラスタ内のノートブック ファイルを実行できます。

新しいノートブック ファイルを実行する

  1. マネージド ノートブック インスタンスの JupyterLab インターフェースで、[File] > [New] > [Notebook] の順に選択します。

  2. Dataproc クラスタの使用可能なカーネルが [Select kernel] メニューに表示されます。使用するカーネルを選択して [Select] をクリックします。

    新しいノートブック ファイルが開きます。

  3. 新しいノートブック ファイルにコードを追加し、コードを実行します。

ノートブック ファイルの作成後に使用するカーネルを変更するには、次のセクションをご覧ください。

既存のノートブック ファイルを実行する

  1. マネージド ノートブック インスタンスの JupyterLab インターフェースで、[File Browser] ボタンをクリックし、実行するノートブック ファイルに移動して開きます。

  2. [Select kernel] ダイアログを開くには、ノートブック ファイルのカーネル名(例: Python (Local))をクリックします。

  3. Dataproc クラスタからカーネルを選択するには、末尾にクラスタ名を含むカーネル名を選択します。たとえば、mycluster という名前の Dataproc クラスタの PySpark カーネルは、PySpark on mycluster という名前になります。

  4. [Select] をクリックしてダイアログを閉じます。

    これで、ノートブック ファイルのコードを Dataproc クラスタで実行できます。

次のステップ