Google Cloud コンソールを使用して Dataproc クラスタを作成する
このページでは、Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。
このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
クラスタの作成
Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。
[作成] をクリックします。
[Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。
[クラスタ名] フィールドに「
example-cluster
」と入力します。[リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。
リージョン(
us-east1
やeurope-west1
など)を選択して、リージョン内で、仮想マシン(VM)インスタンスや、Cloud Storage などのリソースと Dataproc が使用するメタデータの保存場所などのリソースを分離します。詳細については、利用可能なリージョンとゾーンおよびリージョン エンドポイントをご覧ください。他のすべてのオプションについては、デフォルト設定を使用します。
クラスタを作成するには、[作成] をクリックします。
新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかる場合があります。
Spark ジョブの送信
円周率の値を計算する Spark ジョブを送信します。
- Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
[ジョブ] ページで、
[ジョブを送信] をクリックし、次の操作を行います。- [クラスタ] フィールドで、[参照] をクリックします。
example-cluster
の行で [選択] をクリックします。- [ジョブ ID] フィールドで、デフォルト設定を使用するか、Google Cloud プロジェクトに固有の ID を指定します。
- [ジョブタイプ] には、[Spark] を選択します。
- [メインクラスまたは JAR] フィールドに「
org.apache.spark.examples.SparkPi
」と入力します。 - [JAR ファイル] フィールドに「
file:///usr/lib/spark/examples/jars/spark-examples.jar
」と入力します。 [引数] フィールドに「
1000
」と入力して、タスクの数を設定します。[送信] をクリックします。
ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [完了] に変わります。
出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。
Pi is roughly 3.1416759514167594
ジョブの詳細を表示するには、[構成] タブをクリックします。
クラスタの更新
ワーカー インスタンスの数を変更してクラスタを更新します。
- ナビゲーション メニューで [クラスタ] をクリックします。
- クラスタのリストで、[
example-cluster
] をクリックします。 [クラスタの詳細] ページで [構成] タブをクリックします。
クラスタの設定が表示されます。
[
編集] をクリックします。[ワーカーノード] フィールドに「
5
」と入力します。[保存] をクリックします。
クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。
- [
example-cluster
] の [クラスタの詳細] ページで、 [削除] をクリックしてクラスタを削除します。 - クラスタの削除を確定するには、[削除] をクリックします。
次のステップ
- 他のツールを使用して、このクイックスタートを試す。
- プロジェクトの作成時に堅牢なファイアウォール ルールを作成する方法を確認する。
- Spark Scala ジョブを記述して実行する方法を学習する。