このページでは、インラインの Google API Explorer テンプレートを使用して、既存の Dataproc クラスタで簡単な Spark ジョブを実行する方法について説明します。同じタスクを、Google Cloud Console を使用して行う方法については Console を使用したクイックスタートで、コマンドラインを使用して行う方法については gcloud コマンドライン ツールを使用したクイックスタートでそれぞれ説明しています。
始める前に
Dataproc ジョブを実行する前に、そのジョブを実行する仮想マシン(VM)のクラスタを作成する必要があります。クラスタを作成するには、API Explorer、Google Cloud Console、または Cloud SDK の gcloud コマンドライン ツールを使用します。ジョブの送信
pi のおおよその値を計算するサンプルの Apache Spark ジョブを送信するには、次のように API Explorer テンプレートに入力して実行します。
- [
projectID
] 項目にプロジェクト ID(プロジェクト名)を入力します。 - 次の項目は自動的に入力されます。
region
= "us-central1"。別のリージョンでクラスタを作成した場合は、「us-central1」をクラスタのリージョン名に置き換えます(API Explorer - クラスタの作成を参照)。- リクエストの本文の
job.placement.clusterName
= "example-cluster"。これは、ジョブが実行される Dataproc クラスタの名前です(前のクイックスタートで作成されています。API Explorer - クラスタの作成を参照)。名前が異なる場合は、作成したクラスタの名前でこの名前を置き換えます。 - リクエストの本文
job.sparkJob
:args
= "1000"。タスクの数。jarFileUris
= "file:///usr/lib/spark/examples/jars/spark-examples.jar"。クラスタ内のマスター VM インスタンス上にプリインストールされている jar ファイルの場所。Spark Scala ジョブ コードが含まれます。mainClass
= "org.apache.spark.examples.SparkPi"。ジョブが Scala アプリケーションの pi 計算で主に使用するメソッド。
[実行] をクリックします。ダイアログが開き、デフォルトの
https://www.googleapis.com/auth/cloud-platform
スコープを確認するように求められます。ダイアログの [許可] をクリックして、リクエストをサービスに送信します。すぐに(通常、1 秒もかかりません)、example-cluster が保留中であることを示す JSON レスポンスが、テンプレートの下に表示されます。
Cloud Console の [クラスタ] に移動し、ジョブ ID のリンクをクリックすることで、ジョブの出力を調べることができます(行が右端を越えている場合は、[行の折り返し] ボックスを選択して行を見えるようにします)。

これで Google API Explorer を使用した Dataproc クラスタへの Apache Spark ジョブの送信が完了しました。