クイックスタート: gcloud CLI を使用して Dataproc クラスタを作成する

gcloud CLI を使用して Dataproc クラスタを作成する

このページでは、Google Cloud CLI の gcloud コマンドライン ツールを使用して Google Cloud Dataproc クラスタを作成し、クラスタでシンプルな Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。

同じアプリケーションや類似のタスクをAPI Explorer を使用したクイックスタート、Google Cloud Console のCloud Console を使用して Dataproc クラスタを作成するクライアント ライブラリのクライアント ライブラリを使用して Dataproc クラスタを作成する

準備

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。

  4. Dataproc API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。

  7. Dataproc API を有効にします。

    API を有効にする

クラスタの作成

次のコマンドを実行して、example-cluster という名前のクラスタを作成します。 リージョンを選択する方法については、利用可能なリージョンとゾーンをご覧ください(gcloud compute regions list コマンドを実行して、使用可能なリージョンのリストを表示することもできます)。また、global エンドポイントとリージョン エンドポイントの違いについては、リージョン エンドポイントをご覧ください。

gcloud dataproc clusters create example-cluster --region=region

クラスタの作成は、コマンド出力で確認できます。

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

ジョブの送信

pi のおおよその値を計算するサンプルの Spark ジョブを送信するには、次のコマンドを実行します。

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

このコマンドは次の内容を指定します。

  • 指定したリージョンの example-cluster クラスタで spark ジョブを実行すること
  • ジョブの pi 計算アプリケーションの主なメソッドが含まれる class
  • ジョブのコードが含まれる jar ファイルの場所
  • ジョブに渡すパラメータ - この場合はタスクの数(1000

ジョブの実行中の出力と最終出力が端末ウィンドウに表示されます。

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

クラスタの作成

クラスタ内のワーカーの数を変更するには、次のコマンドを実行します。

gcloud dataproc clusters create example-cluster \
    --region=region \
    --num-workers 5

クラスタの内容の詳細がコマンドの出力に表示されます。

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

同じコマンドを使用して、ワーカーノードの数を元の値に減らすことができます。

gcloud dataproc clusters create example-cluster \
    --region=region \
    --num-workers 2

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  • clusters delete を実行し、クラスタ例を削除します。
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    クラスタの削除を確認するメッセージが表示されます。「y」と入力して、削除を完了します。

次のステップ