gcloud CLI を使用して Dataproc クラスタを作成する

このページでは、Google Cloud CLI の gcloud コマンドライン ツールを使用して Google Cloud Dataproc クラスタを作成し、クラスタでシンプルな Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。

API Explorer を使用したクイックスタートと同じまたは類似のタスクを行う方法は、Google Cloud コンソールはGoogle Cloud コンソールを使用して Dataproc クラスタを作成するを、クライアント ライブラリを使用する場合はクライアント ライブラリを使用して Dataproc クラスタを作成するをご覧ください。

準備

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

クラスタの作成

次のコマンドを実行して、example-cluster という名前のクラスタを作成します。 リージョンを選択する方法については、利用可能なリージョンとゾーンをご覧ください(gcloud compute regions list コマンドを実行して、使用可能なリージョンのリストを表示することもできます)。また、リージョン エンドポイントの詳細については、リージョン エンドポイントをご覧ください。

gcloud dataproc clusters create example-cluster --region=region

クラスタの作成は、コマンド出力で確認できます。

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

ジョブの送信

pi のおおよその値を計算するサンプルの Spark ジョブを送信するには、次のコマンドを実行します。

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

このコマンドは次の内容を指定します。

  • 指定したリージョンの example-cluster クラスタで spark ジョブを実行すること
  • ジョブの pi 計算アプリケーションの主なメソッドが含まれる class
  • ジョブのコードが含まれる jar ファイルの場所
  • ジョブに渡すパラメータ - この場合はタスクの数(1000

ジョブの実行中の出力と最終出力がターミナル ウィンドウに表示されます。

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

クラスタの更新

クラスタ内のワーカーの数を変更するには、次のコマンドを実行します。

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

クラスタの内容の詳細がコマンドの出力に表示されます。

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

同じコマンドを使用して、ワーカーノードの数を元の値に減らすことができます。

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  • clusters delete を実行し、クラスタ例を削除します。
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    クラスタの削除を確認するメッセージが表示されます。 「y」と入力して、削除を完了します。

次のステップ