gcloud CLI を使用して Dataproc クラスタを作成する
このページでは、Google Cloud CLI の gcloud コマンドライン ツールを使用して Google Cloud Dataproc クラスタを作成し、クラスタでシンプルな Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。
API Explorer を使用したクイックスタートと同じまたは類似のタスクを行う方法は、Google Cloud コンソールはGoogle Cloud コンソールを使用して Dataproc クラスタを作成するを、クライアント ライブラリを使用する場合はクライアント ライブラリを使用して Dataproc クラスタを作成するをご覧ください。
準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
クラスタの作成
次のコマンドを実行して、example-cluster
という名前のクラスタを作成します。
リージョンを選択する方法については、利用可能なリージョンとゾーンをご覧ください(gcloud compute regions list
コマンドを実行して、使用可能なリージョンのリストを表示することもできます)。また、リージョン エンドポイントの詳細については、リージョン エンドポイントをご覧ください。
gcloud dataproc clusters create example-cluster --region=region
クラスタの作成は、コマンド出力で確認できます。
... Waiting for cluster creation operation...done. Created [... example-cluster]
ジョブの送信
pi のおおよその値を計算するサンプルの Spark ジョブを送信するには、次のコマンドを実行します。
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
このコマンドは次の内容を指定します。
- 指定したリージョンの
example-cluster
クラスタでspark
ジョブを実行すること - ジョブの pi 計算アプリケーションの主なメソッドが含まれる
class
- ジョブのコードが含まれる jar ファイルの場所
- ジョブに渡すパラメータ - この場合はタスクの数(
1000
)
ジョブの実行中の出力と最終出力がターミナル ウィンドウに表示されます。
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
クラスタの更新
クラスタ内のワーカーの数を変更するには、次のコマンドを実行します。
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
クラスタの内容の詳細がコマンドの出力に表示されます。
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
同じコマンドを使用して、ワーカーノードの数を元の値に減らすことができます。
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。
clusters delete
を実行し、クラスタ例を削除します。 クラスタの削除を確認するメッセージが表示されます。 「gcloud dataproc clusters delete example-cluster \ --region=region
y
」と入力して、削除を完了します。
次のステップ
- Scala ジョブを記述して実行する方法を学習する。