Google Cloud コンソールを使用して Dataproc クラスタを作成する

このページでは、 Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。


このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

クラスタの作成

  1. Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。

    [クラスタ] に移動

  2. [作成] をクリックします。

  3. [Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。

  4. [クラスタ名] フィールドに「example-cluster」と入力します。

  5. [リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

    リージョン(us-east1europe-west1 など)を選択して、リージョン内で、仮想マシン(VM)インスタンスや、Cloud Storage などのリソースと Dataproc が使用するメタデータの保存場所などのリソースを分離します。詳細については、利用可能なリージョンとゾーンおよびリージョン エンドポイントをご覧ください。

  6. 他のすべてのオプションについては、デフォルト設定を使用します。

  7. クラスタを作成するには、[作成] をクリックします。

    新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかることがあります。

Spark ジョブの送信

円周率の値を計算する Spark ジョブを送信します。

  1. Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
  2. [ジョブ] ページで [ジョブを送信] をクリックし、次の操作を行います。

    1. [クラスタ] フィールドで、[参照] をクリックします。
    2. example-cluster の行で [選択] をクリックします。
    3. [Job ID] フィールドで、デフォルト設定を使用するか、 Google Cloud プロジェクトに固有の ID を指定します。
    4. [ジョブタイプ] には、[Spark] を選択します。
    5. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
    6. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
    7. [引数] フィールドに「1000」と入力して、タスクの数を設定します。

    8. [送信] をクリックします。

      ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [完了] に変わります。

      出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。

      Pi is roughly 3.1416759514167594
      

      ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタの更新

ワーカー インスタンスの数を変更してクラスタを更新します。

  1. ナビゲーション メニューで [クラスタ] をクリックします。
  2. クラスタのリストで、[example-cluster] をクリックします。
  3. [クラスタの詳細] ページで [構成] タブをクリックします。

    クラスタの設定が表示されます。

  4. [編集] をクリックします。

  5. [ワーカーノード] フィールドに「5」と入力します。

  6. [保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の操作を行います。

  1. [example-cluster] の [クラスタの詳細] ページで、 [削除] をクリックしてクラスタを削除します。
  2. クラスタの削除を確定するには、[削除] をクリックします。

次のステップ