このページは Cloud Translation API によって翻訳されました。

JupyterLab 拡張機能を使用してサーバーレス Spark ワークロードを開発する

このドキュメントでは、Google サービスにアクセスできるマシンまたはセルフマネージド VM に JupyterLab 拡張機能をインストールして使用する方法について説明します。また、サーバーレス Spark ノートブックコードを開発してデプロイする方法についても説明します。

拡張機能を数分でインストールして、次の機能を活用できます。

サーバーレスの Spark ノートブックと BigQuery ノートブックを起動して、コードを迅速に開発する
JupyterLab で BigQuery データセットをブラウジングしてプレビューする
JupyterLab で Cloud Storage ファイルを編集する
Composer でノートブックのスケジュールを設定する

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Install the Google Cloud CLI.

注: すでに gcloud CLI をインストールしている場合は、gcloud components update を実行して、最新バージョンがインストールされていることを確認してください。

外部 ID プロバイダ（IdP）を使用している場合は、まず連携 ID を使用して gcloud CLI にログインする必要があります。

gcloud CLI を初期化するには、次のコマンドを実行します。

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Install the Google Cloud CLI.

外部 ID プロバイダ（IdP）を使用している場合は、まず連携 ID を使用して gcloud CLI にログインする必要があります。

gcloud CLI を初期化するには、次のコマンドを実行します。

gcloud init

JupyterLab 拡張機能をインストールする

ローカルマシンや Compute Engine VM インスタンスなど、Google サービスにアクセスできるマシンまたは VM に JupyterLab 拡張機能をインストールして使用できます。

拡張機能をインストールする手順は次のとおりです。

python.org/downloads から Python バージョン 3.11 以降をダウンロードしてインストールします。
- Python 3.11 以降のインストールを確認します。
```
python3 --version
```
Python 環境を仮想化します。
```
pip3 install pipenv
```
- インストールフォルダを作成します。
```
mkdir jupyter
```
- インストールフォルダに移動します。
```
cd jupyter
```
- 仮想環境を作成します。
```
pipenv shell
```
仮想環境に JupyterLab をインストールします。
```
pipenv install jupyterlab
```
JupyterLab 拡張機能をインストールします。
```
pipenv install bigquery-jupyter-plugin
```
JupyterLab を起動します。
```
jupyter lab
```
1. ブラウザで JupyterLab の [Launcher] ページが開きます。これには、[Dataproc Jobs and Sessions] セクションが含まれています。また、次のものが含まれる場合もあります:プロジェクトで Jupyter のオプションコンポーネントを実行している Dataproc サーバーレスノートブックまたは Dataproc クラスタにアクセスできる場合は、Apache Spark ノートブック向けサーバーレスおよび Dataproc クラスタノートブックのセクションを含めることもできます。
  
  macOS で、Jupyterlab の起動時にターミナルに SSL: CERTIFICATE_VERIFY_FAILED エラーが表示された場合は、Python のインストールパスから Install Certificates.command を実行して Python SSL 証明書を更新します。このファイルは Python のホームディレクトリにあります。
2. デフォルトでは、Apache Spark 向け Serverless のインタラクティブセッションは、始める前にで gcloud init を実行したときに設定したプロジェクトとリージョンで実行されます。セッションのプロジェクトとリージョンの設定は、JupyterLab の [設定] > Google Cloud [設定] > Google Cloud [プロジェクトの設定] で変更できます。
  
  変更を有効にするには、拡張機能を再起動する必要があります。

Apache Spark 向け Serverless ランタイムテンプレートを作成する

Apache Spark 向け Serverless ランタイムテンプレート（セッションテンプレートとも呼ばれます）には、セッションで Spark コードを実行するための構成設定が含まれています。ランタイムテンプレートの作成と管理は、Jupyterlab または gcloud CLI を使用して行うことができます。

JupyterLab

JupyterLab の [ランチャー] ページの [Apache Spark 用 Serverless ノートブック] セクションで New runtime template カードをクリックします。
ランタイムテンプレート フォームに入力します。
- テンプレート情報:
  - 表示名、ランタイム ID、説明: テンプレートの表示名、テンプレートのランタイム ID、テンプレートの説明を受け入れるか、入力します。
- 実行構成: Dataproc サービスアカウント ID ではなくユーザー ID でノートブックを実行するには、[ユーザーアカウント] を選択します。
  - サービスアカウント: サービスアカウントを指定しない場合は、Compute Engine のデフォルトのサービスアカウントが使用されます。
  - ランタイムバージョン: ランタイムバージョンを確認または選択します。
  - カスタムコンテナイメージ: 必要に応じて、カスタムコンテナイメージの URI を指定します。
  - ステージングバケット: Serverless for Apache Spark で使用する Cloud Storage のステージングバケットの名前を必要に応じて指定できます。
  - Python パッケージリポジトリ: デフォルトでは、ユーザーがノートブックで pip インストールコマンドを実行すると、Python パッケージは PyPI プルスルーキャッシュからダウンロードされてインストールされます。組織のプライベートアーティファクトリポジトリを、デフォルトの Python パッケージリポジトリとして使用する Python パッケージ用に指定できます。
- 暗号化: デフォルトの Google-owned and Google-managed encryption key をそのまま使用するか、[顧客管理の暗号鍵（CMEK）] を選択します。CMEK の場合は、鍵情報を選択または指定します。
- ネットワーク構成: プロジェクト内のサブネットワーク、またはホストプロジェクトから共有されたサブネットワークを選択します（プロジェクトは、JupyterLab の [設定] > [ Google Cloud 設定] > [ Google Cloud プロジェクト設定] で変更できます）。指定したネットワークに適用するネットワークタグを指定できます。Apache Spark 用サーバーレスは、指定されたサブネットでプライベート Google アクセス（PGA）を有効にします。ネットワーク接続の要件については、Google Cloud Apache Spark 用サーバーレスネットワーク構成をご覧ください。
- セッションの構成: 必要に応じて、これらのフィールドに入力して、テンプレートで作成されたセッションの期間を制限できます。
  - 最大アイドル時間: セッションが終了するまでの最大アイドル時間。指定できる範囲: 10 分～336 時間（14 日）。
  - 最大セッション時間: セッションが終了するまでのセッションの最大存続時間。指定できる範囲: 10 分～336 時間（14 日）。
- Metastore: セッションで Dataproc Metastore サービスを使用するには、メタストアのプロジェクト ID とサービスを選択します。
- Persistent History Server: 使用可能な Persistent Spark History Server を選択して、セッション中とセッション後にセッションログにアクセスできるようにします。
  PHS は、セッションが実行されるロケーション（リージョン）に設定する必要があります。デフォルトでは、Apache Spark 向け Serverless セッションは gcloud init コマンドで設定されたプロジェクトとリージョンで実行されます。プロジェクトとリージョンの設定は、JupyterLab の [設定] > Google Cloud [設定] > Google Cloud [プロジェクトの設定] で変更できます。
- Spark プロパティ: Spark のリソース割り当て、自動スケーリング、または GPU のプロパティを選択して追加できます。[プロパティを追加] をクリックして、他の Spark プロパティを追加します。詳細については、Spark プロパティをご覧ください。
- ラベル: テンプレートで作成されたセッションに設定する各ラベルの [ラベルを追加] をクリックします。
[保存] をクリックしてテンプレートを作成します。
ランタイムテンプレートを表示または削除します。
1. [設定] > [ Google Cloud 設定] をクリックします。
2. [Dataproc の設定 > サーバーレスランタイムテンプレート] セクションに、ランタイムテンプレートのリストが表示されます。
  - テンプレート名をクリックして、テンプレートの詳細を表示します。
  - テンプレートを削除するには、テンプレートの [操作] メニューを使用します。
JupyterLab の [ランチャー] ページを開いて再読み込みし、JupyterLab の [ランチャー] ページに保存したノートブックテンプレートカードを表示します。

gcloud

ランタイムテンプレート構成を含む YAML ファイルを作成します。

単純な YAML

environmentConfig:
  executionConfig:
    networkUri: default
jupyterSession:
  kernel: PYTHON
  displayName: Team A
labels:
  purpose: testing
description: Team A Development Environment

複雑な YAML

description: Example session template
environmentConfig:
  executionConfig:
    serviceAccount: sa1
    # Choose either networkUri or subnetworkUri
    networkUri:
    subnetworkUri: default
    networkTags:
     - tag1
    kmsKey: key1
    idleTtl: 3600s
    ttl: 14400s
    stagingBucket: staging-bucket
  peripheralsConfig:
    metastoreService: projects/my-project-id/locations/us-central1/services/my-metastore-id
    sparkHistoryServerConfig:
      dataprocCluster: projects/my-project-id/regions/us-central1/clusters/my-cluster-id
jupyterSession:
  kernel: PYTHON
  displayName: Team A
labels:
  purpose: testing
runtimeConfig:
  version: "2.3"
  containerImage: gcr.io/my-project-id/my-image:1.0.1
  properties:
    "p1": "v1"
description: Team A Development Environment

次の gcloud beta dataproc session-templates import コマンドをローカル、または Cloud Shell で実行して、YAML ファイルからセッション（ランタイム）テンプレートを作成します。
```
gcloud beta dataproc session-templates import TEMPLATE_ID \
    --source=YAML_FILE \
    --project=PROJECT_ID \
    --location=REGION
```
- セッションテンプレートを記述、一覧表示、エクスポート、削除するコマンドについては、gcloud beta dataproc session-templates をご覧ください。

ノートブックを起動して管理する

Dataproc JupyterLab 拡張機能をインストールした後、JupyterLab の [ランチャー] ページでテンプレートカードをクリックして、次の操作を行うことができます。

Apache Spark 向け Serverless で Jupyter ノートブックを起動する。
Dataproc on Compute Engine クラスタで Jupyter ノートブックを起動する

Apache Spark 向け Serverless で Jupyter ノートブックを起動する

JupyterLab ランチャーページの [Apache Spark 用サーバーレスノートブック] セクションには、Apache Spark 用サーバーレスランタイムテンプレートにマッピングされるノートブックテンプレートカードが表示されます（Apache Spark 用サーバーレスランタイムテンプレートを作成するを参照してください）。

カードをクリックして Apache Spark 向け Serverless セッションを作成し、ノートブックを起動します。セッションの作成が完了し、ノートブックカーネルが使用可能になると、カーネルのステータスは Starting から Idle (Ready) に変わります。

ノートブックのコードを記述してテストします。

次の PySpark Pi estimation コードをコピーして PySpark ノートブックセルに貼り付け、Shift+Return キーを押してコードを実行します。

import random
    
def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1
    
count = sc.parallelize(range(0, 10000)) .filter(inside).count()
print("Pi is roughly %f" % (4.0 * count / 10000))

ノートブックの結果:

ノートブックを作成して使用した後、[Kernel] タブで [Shut down Kernel] をクリックすると、ノートブックセッションを終了できます。
- セッションを再利用するには、[ファイル>>新規作成] メニューから [ノートブック] を選択して、新しいノートブックを作成します。新しいノートブックが作成されたら、カーネル選択ダイアログで既存のセッションを選択します。新しいノートブックは、セッションを再利用し、以前のノートブックのセッションコンテキストを保持します。
セッションを終了しない場合、セッションのアイドルタイマーが期限切れになると、Dataproc によってセッションが終了します。セッションのアイドル時間を設定するには、ランタイムテンプレートの構成を使用します。デフォルトのセッションアイドル時間は 1 時間です。

Dataproc on Compute Engine クラスタでノートブックを起動する

Compute Engine に Dataproc Jupyter クラスタを作成した場合、JupyterLab の [ランチャー] ページに、事前にインストールしたカーネルカードが表示された [Dataproc クラスタノートブック] セクションが表示されます。

Dataproc on Compute Engine クラスタで Jupyter ノートブックを起動するには:

[Dataproc クラスタノートブック] セクションでカードをクリックします。
カーネルのステータスが Starting から Idle (Ready) に変わったら、ノートブックコードの作成と実行を開始できます。
ノートブックを作成して使用した後、[Kernel] タブで [Shut down Kernel] をクリックすると、ノートブックセッションを終了できます。

Cloud Storage で入出力ファイルを管理する

探索的データの分析と ML モデルの構築には、多くの場合、ファイルベースの入力と出力が含まれます。Apache Spark 向け Serverless は、Cloud Storage 上のこれらのファイルにアクセスします。

Cloud Storage ブラウザにアクセスするには、JupyterLab の [ランチャー] ページのサイドバーで Cloud Storage ブラウザアイコンをクリックし、フォルダをダブルクリックして内容を表示します。
Jupyter でサポートされているファイル形式をクリックして開き、編集できます。ファイルへの変更を保存すると、Cloud Storage に書き込まれます。
新しい Cloud Storage フォルダを作成するには、新しいフォルダアイコンをクリックして、フォルダの名前を入力します。
Cloud Storage バケットまたはフォルダにファイルをアップロードするには、アップロードアイコンをクリックして、アップロードするファイルを選択します。

Spark ノートブックコードを開発する

Dataproc JupyterLab 拡張機能をインストールした後、JupyterLab の [ランチャー] ページから Jupyter ノートブックを起動してアプリケーションコードを開発できます。

PySpark と Python のコード開発

Apache Spark 向け Serverless と Compute Engine 上の Dataproc クラスタは、PySpark カーネルをサポートしています。Dataproc on Compute Engine は Python カーネルもサポートしています。

JupyterLab の [ランチャー] ページの [Serverless for Apache Spark Notebooks] セクションまたは [Dataproc クラスタノートブック] セクションの PySpark カードをクリックして、PySpark ノートブックを開きます。
JupyterLab の [ランチャー] ページの [Dataproc クラスタノートブック] セクションで Python カーネルカードをクリックして、Python ノートブックを開きます。

SQL のコード開発

SQL コードを記述して実行する PySpark ノートブックを開くには、JupyterLab の [ランチャー] ページの [Apache Spark ノートブック用サーバーレス] セクションまたは [Dataproc クラスタノートブック] セクションで、PySpark カーネルカードをクリックします。

Spark SQL マジック: Serverless for Apache Spark ノートブックを起動する PySpark カーネルは、Spark SQL マジックがプリロードされています。SQL ステートメントでラップするには、spark.sql('SQL STATEMENT').show() を使用する代わりに、セルの先頭に「%%sparksql magic」と入力し、セルに SQL ステートメントを入力します。

BigQuery SQL: BigQuery Spark コネクタを使用すると、ノートブックコードで BigQuery テーブルからデータを読み込み、Spark で分析を実行して、結果を BigQuery テーブルに書き込むことができます。

Apache Spark 用サーバーレス 2.2 以降のランタイムには、BigQuery Spark コネクタが含まれています。以前のランタイムを使用して Apache Spark 用 Serverless ノートブックを起動する場合は、次の Spark プロパティを Apache Spark 用 Serverless ランタイムテンプレートに追加して、Spark BigQuery コネクタをインストールできます。

spark.jars: gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.25.2.jar

Scala のコード開発

イメージバージョン 2.0 以降で作成された Dataproc on Compute Engine クラスタには、Apache Toree（Spark へのインタラクティブなアクセスを可能にする Jupyter ノートブックプラットフォーム用の Scala カーネル）が含まれています。

JupyterLab の [ランチャー] ページの [Dataproc クラスタノートブック] セクションの Apache Toree カードをクリックして、Scala コード開発用のノートブックを開きます。

図 1. JupyterLab の [Launcher] ページの Apache Toree カーネルカード。

Visual Studio Code 拡張機能を使用してコードを開発する

Google Cloud Visual Studio Code（VS Code）拡張機能を使用すると、次のことができます。

Apache Spark 向け Serverless ノートブックで Spark コードを開発して実行します。
Apache Spark 向け Serverless ランタイム（セッション）テンプレート、インタラクティブセッション、バッチワークロードを作成して管理します。

Visual Studio Code 拡張機能は無料ですが、使用するGoogle Cloud サービス（Dataproc、Apache Spark 用 Serverless、Cloud Storage リソースなど）の料金が発生します。

BigQuery で VS Code を使用する: BigQuery で VS Code を使用すると、次のこともできます。

BigQuery ノートブックを開発して実行する。
BigQuery データセットをブラウジング、検査、プレビューする。

始める前に

VS Code をダウンロードしてインストールします。
VS Code を開き、アクティビティバーで [Extensions] をクリックします。
検索バーを使用して Jupyter 拡張機能を見つけ、[Install] をクリックします。Microsoft の Jupyter 拡張機能は必須の依存関係です。

Google Cloud 拡張機能をインストールする

VS Code を開き、アクティビティバーで [Extensions] をクリックします。
検索バーを使用して Google Cloud Code 拡張機能を見つけ、[Install] をクリックします。
プロンプトが表示されたら、VS Code を再起動します。

VS Code のアクティビティバーに Google Cloud Code アイコンが表示されます。

拡張機能の設定

VS Code を開き、アクティビティバーで [Google Cloud Code] をクリックします。
[Dataproc] セクションを開きます。
[Login to Google Cloud] をクリックします。認証情報を使用してログインするようにリダイレクトされます。
最上位のアプリケーションタスクバーを使用して、[Code] > [Settings] > [Settings] > [Extensions] に移動します。
[Google Cloud Code] を見つけ、[Manage] アイコンをクリックしてメニューを開きます。
[設定] を選択します。
[プロジェクト] フィールドと [Dataproc リージョン] フィールドに、ノートブックの開発と Serverless for Apache Spark リソースの管理に使用する Google Cloud プロジェクトとリージョンの名前を入力します。

Apache Spark 向け Serverless ノートブックを開発する

VS Code を開き、アクティビティバーで [Google Cloud Code] をクリックします。
[ノートブック] セクションを開き、[新しいサーバーレス Spark ノートブック] をクリックします。
ノートブックセッションで使用する新しいランタイム（セッション）テンプレートを選択または作成します。
サンプルコードを含む新しい .ipynb ファイルが作成され、エディタで開きます。

これで、Apache Spark 向け Serverless ノートブックでコードを記述して実行できるようになりました。

Apache Spark 向け Serverless リソースを作成して管理する

VS Code を開き、アクティビティバーで [Google Cloud Code] をクリックします。
[Dataproc] セクションを開き、次のリソース名をクリックします。
- クラスタ: クラスタとジョブを作成して管理します。
- サーバーレス: バッチワークロードとインタラクティブセッションを作成して管理します。
- Spark ランタイムテンプレート: セッションテンプレートを作成して管理します。

データセットエクスプローラ

JupyterLab データセットエクスプローラを使用して、BigLake metastore データセットを表示します。

JupyterLab データセットエクスプローラを開くには、サイドバーのアイコンをクリックします。

データベース、テーブル、列は、データセットエクスプローラで検索できます。データベース、テーブル、列の名前をクリックして、関連するメタデータを表示します。

コードをデプロイする

Dataproc JupyterLab 拡張機能をインストールした後、JupyterLab を使用して次のことができます。

Google Cloud Apache Spark 向け Serverless インフラストラクチャでノートブックコードを実行する
Cloud Composer でノートブックの実行をスケジュールする
Google Cloud Apache Spark 用 Serverless インフラストラクチャまたは Dataproc on Compute Engine クラスタにバッチジョブを送信します。

Cloud Composer でノートブックの実行をスケジュールする

Cloud Composer でノートブックコードをスケジュールして、Serverless for Apache Spark または Dataproc on Compute Engine クラスタでバッチジョブとして実行するには、次の操作を行います。

Cloud Composer 環境を作成します。
ノートブックの右上にある [ジョブスケジューラ] ボタンをクリックします。
[Create A Scheduled Job] フォームに次の情報を入力します。
- ノートブック実行ジョブの一意の名前
- ノートブックのデプロイに使用する Cloud Composer 環境
- ノートブックがパラメータ化されている場合は入力パラメータ
- ノートブックの実行に使用する Dataproc クラスタまたはサーバーレスランタイムテンプレート
  - クラスタが選択されている場合、クラスタでノートブックの実行が完了した後にクラスタを停止するかどうか
- ノートブックの実行が初回で失敗した場合の再試行回数と再試行遅延（分単位）
- 送信する実行通知と受信者リスト。通知は Airflow の SMTP 構成を使用して送信されます。
- ノートブックの実行スケジュール
[作成] をクリックします。
ノートブックのスケジュールが正常に設定されると、ジョブ名が Cloud Composer 環境のスケジュールされたジョブのリストに表示されます。

Google Cloud Apache Spark 向け Serverless にバッチジョブを送信する

JupyterLab の [ランチャー] ページの [Dataproc のジョブとセッション] セクションにある [サーバーレス] カードをクリックします。
[バッチ] タブをクリックし、[バッチを作成] をクリックして [バッチ情報] フィールドに入力します。
[送信] をクリックしてジョブを送信します。

Dataproc on Compute Engine クラスタにバッチジョブを送信する

JupyterLab の [ランチャー] ページの [Dataproc のジョブとセッション] セクションで [クラスタ] カードをクリックします。
[ジョブ] タブをクリックし、[ジョブを送信] をクリックします。
[クラスタ] を選択し、[ジョブ] フィールドに入力します。
[送信] をクリックしてジョブを送信します。

リソースを表示して管理する

Dataproc JupyterLab 拡張機能をインストールしたら、JupyterLab の [ランチャー] ページの [Dataproc のジョブとセッション] セクションで、 Google Cloud Serverless for Apache Spark と Dataproc on Compute Engine を表示して管理できます。

[Dataproc のジョブとセッション] セクションをクリックして、[クラスタ] カードと [サーバーレス] カードを表示します。

Google Cloud Apache Spark 用サーバーレスセッションを表示して管理するには:

[Serverless] カードをクリックします。
[セッション] タブをクリックしてから、セッション ID をクリックして [セッションの詳細] ページを開き、セッションプロパティを表示し、ログエクスプローラで Google Cloud ログを表示して、セッションを終了します。注: 各 Google Cloud Apache Spark 向け Serverless ノートブックを起動するための一意の Google Cloud Apache Spark 向け Serverless セッションが作成されます。

Google Cloud Apache Spark 用サーバーレスバッチを表示して管理するには:

[バッチ] タブをクリックすると、現在のプロジェクトとリージョンの Google Cloud Serverless for Apache Spark バッチのリストが表示されます。バッチ ID をクリックして、バッチの詳細を表示します。

Dataproc on Compute Engine クラスタを表示して管理するには:

[クラスタ] カードをクリックします。[クラスタ] タブが選択され、現在のプロジェクトとリージョン内のアクティブな Dataproc on Compute Engine クラスタが一覧表示されます。[アクション] 列のアイコンをクリックして、クラスタを起動、停止、再起動できます。クラスタ名をクリックして、クラスタの詳細を表示します。[アクション] 列のアイコンをクリックして、ジョブのクローン作成、停止、削除を行えます。

Dataproc on Compute Engine ジョブを表示して管理するには:

[ジョブ] カードをクリックして、現在のプロジェクトに存在するジョブのリストを表示します。ジョブの詳細を表示するには、ジョブ ID をクリックします。

JupyterLab 拡張機能を使用してサーバーレス Spark ワークロードを開発する

始める前に

JupyterLab 拡張機能をインストールする

Apache Spark 向け Serverless ランタイム テンプレートを作成する

JupyterLab

gcloud

単純な YAML

複雑な YAML

ノートブックを起動して管理する

Apache Spark 向け Serverless で Jupyter ノートブックを起動する

Dataproc on Compute Engine クラスタ でノートブックを起動する

Cloud Storage で入出力ファイルを管理する

Spark ノートブック コードを開発する

PySpark と Python のコード開発

SQL のコード開発

Scala のコード開発

Visual Studio Code 拡張機能を使用してコードを開発する

始める前に

Google Cloud 拡張機能をインストールする

拡張機能の設定

Apache Spark 向け Serverless ノートブックを開発する

Apache Spark 向け Serverless リソースを作成して管理する

データセット エクスプローラ

コードをデプロイする

Cloud Composer でノートブックの実行をスケジュールする

Google Cloud Apache Spark 向け Serverless にバッチジョブを送信する

Dataproc on Compute Engine クラスタにバッチジョブを送信する

リソースを表示して管理する

Apache Spark 向け Serverless ランタイムテンプレートを作成する

Dataproc on Compute Engine クラスタでノートブックを起動する

Spark ノートブックコードを開発する

データセットエクスプローラ