コンソールを使用したクイックスタート

このページでは、Google Cloud Console を使用して Dataproc クラスタを作成し、クラスタで単純な Apache Spark ジョブを実行し、クラスタ内のワーカーの数を変更する方法について説明します。

API Explorer を使用したクイックスタートgcloud コマンドライン ツールを使用したクイックスタートで、同じタスクを行うそれぞれの方法を確認できます。

始める前に

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. Cloud Console のプロジェクト セレクタページで、Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタのページに移動

  3. Google Cloud プロジェクトに対して課金が有効になっていることを確認します。 プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  4. Dataproc API を有効にします。

    API を有効にする

クラスタの作成

  1. Cloud Console の [Cloud Dataproc クラスタ] ページに移動します。
  2. [クラスタを作成] をクリックします。
  3. [Name] 欄に「example-cluster」と入力します。
  4. [リージョン] および [ゾーン] プルダウン メニューから、クラスタのリージョンとゾーンを選択します。また、個別のリージョン(us-east1europe-west1 など)を複数指定することで、Dataproc によって利用されるリソース(VM インスタンス、Cloud Storage など)とメタデータの保存場所を指定したリージョンごとに分離できます。個別のリージョンを選択した場合は、ゾーンとして [指定しない] を選択することで、選択したリージョン内のゾーンが Dataproc により選択されるようにできます(Dataproc の自動ゾーン プレースメントをご覧ください)。ユーザー指定の Compute Engine ゾーンにインスタンスをデプロイできる特別なマルチリージョンのエンドポイントである global リージョンを選択することもできます(グローバル リージョンを選択する場合は、ゾーンを選択する必要があります)。グローバル エンドポイントとリージョン エンドポイントの違いについて詳しくは、リージョン エンドポイントをご覧ください。リージョンとゾーンの選択については、利用可能なリージョンとゾーンをご覧ください。gcloud compute regions list コマンドを使用して、利用可能なリージョンのリストを表示することもできます。
  5. 他のすべてのオプションには、指定されたデフォルトを使用します。

  6. [作成] をクリックしてクラスタを作成します。

新しいクラスタが [クラスタ] リストに表示されます。クラスタ ステータスは、クラスタが使用できるようになるまでは [プロビジョニング] と表示され、その後 [実行中] に変わります。

ジョブの送信

サンプルの Spark ジョブを実行するには:

  1. 左側のナビゲーション メニューで [ジョブ] を選択して、Dataproc ジョブの表示に切り替えます。
  2. [ジョブを送信] をクリックします。
  3. [クラスタ] プルダウン メニューから新しいクラスタ [example-cluster] を選択します。
  4. [ジョブタイプ] メニューから [Spark] を選択します。
  5. [Jar ファイル] 項目に「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
  6. [メインクラスまたは JAR] 項目に「org.apache.spark.examples.SparkPi」と入力します。
  7. [引数] 項目に「1000」と入力して、タスクの数を設定します。
  1. [送信] をクリック

ジョブが [ジョブ] リストに表示されます。リストには、プロジェクトのジョブがクラスタ、タイプ、現在のステータスとともに表示されます。ジョブ ステータスは、[実行中] と表示され、その後ジョブが完了すると [完了] になります。完了したジョブの出力を表示する手順は次のとおりです。

  1. [ジョブ] リストのジョブ ID をクリックします。
  2. スクロールしなくてもよいように [行の折り返し] を選択します。

pi のおおよその値が正しく計算されたことが示されます。

クラスタの更新

クラスタのワーカー インスタンスの数を変更するには:

  1. 左側のナビゲーション ペインで [クラスタ] を選択し、Cloud Dataproc クラスタの表示に戻ります。
  2. [クラスタ] リストで [example-cluster] をクリックします。デフォルトでは、クラスタの CPU 使用率の概要がページに表示されます。
  3. [設定] をクリックし、クラスタの現在の設定を表示します。
  4. [編集] をクリックします。ここでワーカーノードの数を編集できます。
  5. [ワーカーノード] 項目に「5」と入力します。
  6. [保存] をクリックします。

クラスタが更新されました。同じ手順に従ってワーカーノードの数を元の値に減らすことができます。

クリーンアップ

このクイックスタートで使用したリソースについて、Google Cloud アカウントに課金されないようにするには:

  1. example-cluster の [クラスタ] ページで、[削除] をクリックしてクラスタを削除します。 クラスタの削除を確認するメッセージが表示されます。[OK] をクリックします。
  2. また、次のコマンドを実行して、クラスタによって作成された Cloud Storage バケットを削除する必要もあります。
        gsutil rm gs://bucket/subdir/**
        

次のステップ