このページは Cloud Translation API によって翻訳されました。

Google Cloud コンソールを使用して Dataproc クラスタを作成する

このページでは、Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。

このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

始める前に

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Enable the API

クラスタの作成

Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。

クラスタに移動
[作成] をクリックします。
[Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。
[クラスタ名] フィールドに「example-cluster」と入力します。
[リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

リージョン（us-east1 や europe-west1 など）を選択して、リージョン内で、仮想マシン（VM）インスタンスや、Cloud Storage などのリソースと Dataproc が使用するメタデータの保存場所などのリソースを分離します。詳細については、利用可能なリージョンとゾーンおよびリージョンエンドポイントをご覧ください。
他のすべてのオプションについては、デフォルト設定を使用します。
クラスタを作成するには、[作成] をクリックします。

新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかることがあります。

Spark ジョブの送信

円周率の値を計算する Spark ジョブを送信します。

Dataproc のナビゲーションメニューで [ジョブ] をクリックします。
[ジョブ] ページで [ジョブを送信] をクリックし、次の操作を行います。
1. [クラスタ] フィールドで、[参照] をクリックします。
2. example-cluster の行で [選択] をクリックします。
3. [ジョブ ID] フィールドで、デフォルト設定を使用するか、Google Cloud プロジェクトに固有の ID を指定します。
4. [ジョブタイプ] には、[Spark] を選択します。
5. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
6. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
7. [引数] フィールドに「1000」と入力して、タスクの数を設定します。
  
  注: Spark ジョブでは、モンテカルロ法を使用して Pi を推定します。これによって、単位正方形で囲まれた円をモデル化した座標平面上に x 点と y 点が生成されます。入力引数（1000）は、生成する x、y ペアの数を決定します。生成するペアが多いほど、推定の精度が向上します。この推定では、Dataproc ワーカーノードを使用して計算が並列化されます。詳細については、モンテカルロ法を使用した Pi の推定と、GitHub の JavaSparkPi.java をご覧ください。
8. [送信] をクリックします。
  
  ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [完了] に変わります。
  
  出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。
```
Pi is roughly 3.1416759514167594
```
  ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタの更新

ワーカーインスタンスの数を変更してクラスタを更新します。

ナビゲーションメニューで [クラスタ] をクリックします。
クラスタのリストで、[example-cluster] をクリックします。
[クラスタの詳細] ページで [構成] タブをクリックします。

クラスタの設定が表示されます。
[編集] をクリックします。
[ワーカーノード] フィールドに「5」と入力します。
[保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

[example-cluster] の [クラスタの詳細] ページで、 [削除] をクリックしてクラスタを削除します。
クラスタの削除を確定するには、[削除] をクリックします。

次のステップ

他のツールを使用して、このクイックスタートを試す。
- API Explorer を使用する。
- Google Cloud CLI を使用する。
プロジェクトの作成時に堅牢なファイアウォールルールを作成する方法を確認する。
Spark Scala ジョブを記述して実行する方法を学習する。