コンソールを使用したクイックスタート

このページでは、Google Cloud Console を使用して Dataproc クラスタを作成し、クラスタで単純な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。

API Explorer を使用したクイックスタートgcloud コマンドライン ツールを使用したクイックスタートで、同じタスクを行うそれぞれの方法を確認できます。

準備

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud プロジェクトに対して課金が有効になっていることを確認します。プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  4. Dataproc API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Cloud プロジェクトに対して課金が有効になっていることを確認します。プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  7. Dataproc API を有効にします。

    API を有効にする

クラスタの作成

  1. Cloud Console の [Cloud Dataproc クラスタ] ページに移動します。
  2. [クラスタを作成] をクリックします。
  3. [名前] フィールドに「example-cluster」と入力します。
  4. [リージョン] および [ゾーン] プルダウン メニューから、クラスタのリージョンとゾーンを選択します。また、個別のリージョン(us-east1europe-west1 など)を複数指定することで、Dataproc によって利用されるリソース(VM インスタンス、Cloud Storage など)とメタデータの保存場所を指定したリージョンごとに分離できます。また、global リージョンを選択することもできます。これは特別なマルチリージョンのエンドポイントで、ユーザーが指定した任意の Compute Engine ゾーンにインスタンスをデプロイできます。グローバル エンドポイントとリージョン エンドポイントの違いについては、リージョン エンドポイントをご覧ください。リージョンとゾーンの選択については、利用可能なリージョンとゾーンをご覧ください。
  5. 他のすべてのオプションには、指定されたデフォルトを使用します。
  6. [作成] をクリックしてクラスタを作成します。

新しいクラスタが [クラスタ] リストに表示されます。クラスタ ステータスは、クラスタが使用できるようになるまでは [プロビジョニング] と表示され、その後 [実行中] に変わります。

ジョブの送信

サンプルの Spark ジョブを実行するには:

  1. 左側のナビゲーション メニューで [ジョブ] を選択して、Dataproc ジョブの表示に切り替えます。
  2. [ジョブを送信] をクリックします。
  3. [ジョブ ID] を承諾ことも、独自のジョブ ID を指定することもできます。プロジェクト内で一意の値を指定する必要があります。
  4. 新しい example-cluster の [リージョン] を選択します。
  5. [クラスタ] プルダウン メニューから [example-cluster] を選択します。
  6. [ジョブタイプ] メニューから [Spark] を選択します。
  7. [メインクラスまたは JAR] 項目に「org.apache.spark.examples.SparkPi」と入力します。
  8. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
  9. [引数] 項目に「1000」と入力して、タスクの数を設定します。
  10. [送信] をクリックします。

ジョブが [ジョブ] リストに表示されます。リストには、プロジェクトのジョブがクラスタ、タイプ、現在のステータスとともに表示されます。ジョブ ステータスは、[実行中] と表示され、その後ジョブが完了すると [完了] になります。完了したジョブの出力を表示するには、次の手順に従います。

  1. [ジョブ] リストのジョブ ID をクリックします。
  2. スクロールしなくてもよいように [行の折り返し] を選択します。

pi のおおよその値が正しく計算されたことが示されます。

クラスタの更新

クラスタのワーカー インスタンスの数を変更するには:

  1. 左側のナビゲーション ペインで [クラスタ] を選択し、Cloud Dataproc クラスタの表示に戻ります。
  2. [クラスタ] リストで [example-cluster] をクリックします。デフォルトでは、クラスタの CPU 使用率の概要がページに表示されます。
  3. [構成] をクリックし、クラスタの現在の設定を表示します。
  4. [編集] をクリックします。ここでワーカーノードの数を編集できます。
  5. [ワーカーノード] 項目に「5」と入力します。
  6. [保存] をクリックします。

クラスタが更新されました。同じ手順に従ってワーカーノードの数を元の値に減らすことができます。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. example-cluster の [クラスタ] ページで、[削除] をクリックしてクラスタを削除します。 クラスタの削除を確認するメッセージが表示されます。[OK] をクリックします。

次のステップ