Dataproc クラスタでマネージド ノートブック インスタンスを実行する

このページでは、Dataproc クラスタでマネージド ノートブック インスタンスのノートブック ファイルを実行する方法について説明します。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Google Cloud プロジェクトで課金が有効になっていることを確認します

  4. Notebooks and Dataproc API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Google Cloud プロジェクトで課金が有効になっていることを確認します

  7. Notebooks and Dataproc API を有効にします。

    API を有効にする

  8. まだ作成していない場合は、マネージド ノートブック インスタンスを作成します。

必要なロール

Dataproc サーバーレス クラスタでノートブック ファイルを実行するために必要な権限がサービス アカウントに付与されるようにするには、サービス アカウントに次の IAM ロールを付与するように管理者に依頼してください。

ロールの付与の詳細については、アクセスの管理をご覧ください。

これらの事前定義ロールには、Dataproc サーバーレス クラスタでノートブック ファイルを実行するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

Dataproc サーバーレス クラスタでノートブック ファイルを実行するには、次の権限が必要です。

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

管理者は、サービス アカウントに、カスタムロールや他の事前定義ロールを付与することもできます。

Dataproc クラスタを作成する

マネージド ノートブック インスタンスのノートブック ファイルを Dataproc クラスタで実行するには、クラスタが次の条件を満たしている必要があります。

  • クラスタのコンポーネント ゲートウェイが有効になっている必要があります。

  • クラスタに Jupyter コンポーネントが必要です。

  • クラスタは、マネージド ノートブック インスタンスと同じリージョンに存在する必要があります。

Dataproc クラスタを作成するには、Cloud Shell または Google Cloud CLI がインストールされている別の環境で、次のコマンドを入力します。

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

次のように置き換えます。

  • REGION: マネージド ノートブック インスタンスの Google Cloud のロケーション

  • CLUSTER_NAME: 新しいクラスタの名前。

数分後、Dataproc クラスタを使用できるようになります。Dataproc クラスタの作成に関する詳細をご覧ください。

JupyterLab を開く

  1. まだ作成していない場合は、Dataproc クラスタと同じリージョンにマネージド ノートブック インスタンスを作成します。

  2. Google Cloud コンソールで、[マネージド ノートブック] ページに移動します。

    [マネージド ノートブック] に移動

  3. マネージド ノートブック インスタンス名の横にある [Open JupyterLab] をクリックします。

Dataproc クラスタでノートブック ファイルを実行する

同じプロジェクトとリージョン内のマネージド ノートブック インスタンスから Dataproc クラスタ内のノートブック ファイルを実行できます。

新しいノートブック ファイルを実行する

  1. マネージド ノートブック インスタンスの JupyterLab インターフェースで、[File] > [New] > [Notebook] の順に選択します。

  2. Dataproc クラスタの使用可能なカーネルが [Select kernel] メニューに表示されます。使用するカーネルを選択して [Select] をクリックします。

    新しいノートブック ファイルが開きます。

  3. 新しいノートブック ファイルにコードを追加し、コードを実行します。

ノートブック ファイルの作成後に使用するカーネルを変更するには、次のセクションをご覧ください。

既存のノートブック ファイルを実行する

  1. マネージド ノートブック インスタンスの JupyterLab インターフェースで、[File Browser] ボタンをクリックし、実行するノートブック ファイルに移動して開きます。

  2. [Select kernel] ダイアログを開くには、ノートブック ファイルのカーネル名(例: Python (Local))をクリックします。

  3. Dataproc クラスタからカーネルを選択するには、末尾にクラスタ名を含むカーネル名を選択します。たとえば、mycluster という名前の Dataproc クラスタの PySpark カーネルは、PySpark on mycluster という名前になります。

  4. [Select] をクリックしてダイアログを閉じます。

    これで、ノートブック ファイルのコードを Dataproc クラスタで実行できます。

次のステップ