このページでは、Google Cloud Console を使用して Dataproc クラスタを作成し、クラスタで単純な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。
API Explorer を使用したクイックスタートと gcloud コマンドライン ツールを使用したクイックスタートで、同じタスクを行うそれぞれの方法を確認できます。
準備
- Google アカウントにログインします。
Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Cloud プロジェクトに対して課金が有効になっていることを確認します。プロジェクトに対して課金が有効になっていることを確認する方法を学習する。
- Dataproc API を有効にします。
クラスタの作成
- Cloud Console の [Cloud Dataproc クラスタ] ページに移動します。
- [クラスタを作成] をクリックします。
- [名前] フィールドに「
example-cluster
」と入力します。 - [リージョン] および [ゾーン] プルダウン メニューから、クラスタのリージョンとゾーンを選択します。また、個別のリージョン(
us-east1
やeurope-west1
など)を複数指定することで、Dataproc によって利用されるリソース(VM インスタンス、Cloud Storage など)とメタデータの保存場所を指定したリージョンごとに分離できます。個別のリージョンを選択した場合は、ゾーンとして [指定しない] を選択することで、選択したリージョン内のゾーンが Dataproc により選択されるようにできます(Dataproc の自動ゾーン プレースメントをご覧ください)。ユーザー指定の Compute Engine ゾーンにインスタンスをデプロイできる特別なマルチリージョンのエンドポイントであるglobal
リージョンを選択することもできます(グローバル リージョンを選択する場合は、ゾーンを選択する必要があります)。グローバル エンドポイントとリージョン エンドポイントの違いについては、リージョン エンドポイントをご覧ください。リージョンとゾーンの選択については、利用可能なリージョンとゾーンをご覧ください。gcloud compute regions list
コマンドを実行して、利用可能なリージョンのリストを表示することもできます。 - 他のすべてのオプションには、指定されたデフォルトを使用します。
- [作成] をクリックしてクラスタを作成します。
新しいクラスタが [クラスタ] リストに表示されます。クラスタ ステータスは、クラスタが使用できるようになるまでは [プロビジョニング] と表示され、その後 [実行中] に変わります。
ジョブの送信
サンプルの Spark ジョブを実行するには:
- 左側のナビゲーション メニューで [ジョブ] を選択して、Dataproc ジョブの表示に切り替えます。
- [ジョブを送信] をクリックします。
- [ジョブ ID] を承諾ことも、独自のジョブ ID を指定することもできます。プロジェクト内で一意の値を指定する必要があります。
- 新しい example-cluster の [リージョン] を選択します。
- [クラスタ] プルダウン メニューから [example-cluster] を選択します。
- [ジョブタイプ] メニューから [Spark] を選択します。
- [メインクラスまたは JAR] 項目に「
org.apache.spark.examples.SparkPi
」と入力します。 - [JAR ファイル] フィールドに「
file:///usr/lib/spark/examples/jars/spark-examples.jar
」と入力します。 - [引数] 項目に「
1000
」と入力して、タスクの数を設定します。
- [送信] をクリックします。
ジョブが [ジョブ] リストに表示されます。リストには、プロジェクトのジョブがクラスタ、タイプ、現在のステータスとともに表示されます。ジョブ ステータスは、[実行中] と表示され、その後ジョブが完了すると [完了] になります。完了したジョブの出力を表示するには、次の手順に従います。
- [ジョブ] リストのジョブ ID をクリックします。
- スクロールしなくてもよいように [行の折り返し] を選択します。
pi のおおよその値が正しく計算されたことが示されます。
クラスタの更新
クラスタのワーカー インスタンスの数を変更するには:
- 左側のナビゲーション ペインで [クラスタ] を選択し、Cloud Dataproc クラスタの表示に戻ります。
- [クラスタ] リストで [example-cluster] をクリックします。デフォルトでは、クラスタの CPU 使用率の概要がページに表示されます。
- [構成] をクリックし、クラスタの現在の設定を表示します。
- [編集] をクリックします。ここでワーカーノードの数を編集できます。
- [ワーカーノード] 項目に「
5
」と入力します。 - [保存] をクリックします。
クラスタが更新されました。同じ手順に従ってワーカーノードの数を元の値に減らすことができます。
クリーンアップ
このクイックスタートで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。
- example-cluster の [クラスタ] ページで、[削除] をクリックしてクラスタを削除します。 クラスタの削除を確認するメッセージが表示されます。[OK] をクリックします。
- また、次のコマンドを実行して、クラスタによって作成された Cloud Storage バケットを削除する必要もあります。
gsutil rm gs://bucket/subdir/**
次のステップ
- Scala ジョブを記述して実行する方法を学習する。
- Jupyter ノートブックをインストールして実行する方法を学習する。