gcloud CLI を使用して Dataproc クラスタを作成する

このページでは、Google Cloud CLI の gcloud コマンドライン ツールを使用して Google Cloud Dataproc クラスタを作成し、クラスタでシンプルな Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。

API Explorer を使用したクイックスタートと同じまたは類似のタスクを行う方法は、Google Cloud コンソールはGoogle Cloud コンソールを使用して Dataproc クラスタを作成するを、クライアント ライブラリを使用する場合はクライアント ライブラリを使用して Dataproc クラスタを作成するをご覧ください。

準備

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Google Cloud プロジェクトで課金が有効になっていることを確認します

  4. Dataproc API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Google Cloud プロジェクトで課金が有効になっていることを確認します

  7. Dataproc API を有効にします。

    API を有効にする

クラスタの作成

次のコマンドを実行して、example-cluster という名前のクラスタを作成します。 リージョンを選択する方法については、利用可能なリージョンとゾーンをご覧ください(gcloud compute regions list コマンドを実行して、使用可能なリージョンのリストを表示することもできます)。また、リージョン エンドポイントの詳細については、リージョン エンドポイントをご覧ください。

gcloud dataproc clusters create example-cluster --region=region

クラスタの作成は、コマンド出力で確認できます。

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

ジョブの送信

pi のおおよその値を計算するサンプルの Spark ジョブを送信するには、次のコマンドを実行します。

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

このコマンドは次の内容を指定します。

  • 指定したリージョンの example-cluster クラスタで spark ジョブを実行すること
  • ジョブの pi 計算アプリケーションの主なメソッドが含まれる class
  • ジョブのコードが含まれる jar ファイルの場所
  • ジョブに渡すパラメータ - この場合はタスクの数(1000

ジョブの実行中の出力と最終出力がターミナル ウィンドウに表示されます。

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

クラスタの更新

クラスタ内のワーカーの数を変更するには、次のコマンドを実行します。

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

クラスタの内容の詳細がコマンドの出力に表示されます。

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

同じコマンドを使用して、ワーカーノードの数を元の値に減らすことができます。

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  • clusters delete を実行し、クラスタ例を削除します。
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    クラスタの削除を確認するメッセージが表示されます。「y」と入力して、削除を完了します。

次のステップ