Google Cloud コンソールを使用して Dataproc クラスタを作成する

このページでは、Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。


このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Google Cloud プロジェクトで課金が有効になっていることを確認します

  4. Dataproc API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Google Cloud プロジェクトで課金が有効になっていることを確認します

  7. Dataproc API を有効にします。

    API を有効にする

クラスタの作成

  1. Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。

    クラスタに移動

  2. [作成] をクリックします。

  3. [Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。

  4. [クラスタ名] フィールドに「example-cluster」と入力します。

  5. [リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

    リージョン(us-east1europe-west1 など)を選択して、リージョン内で、仮想マシン(VM)インスタンスや、Cloud Storage などのリソースと Dataproc が使用するメタデータの保存場所などのリソースを分離します。詳細については、利用可能なリージョンとゾーンおよびリージョン エンドポイントをご覧ください。

  6. 他のすべてのオプションについては、デフォルト設定を使用します。

  7. クラスタを作成するには、[作成] をクリックします。

    新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかる場合があります。

Spark ジョブの送信

円周率の値を計算する Spark ジョブを送信します。

  1. Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
  2. [ジョブ] ページで、 [ジョブを送信] をクリックして、次の操作を行います。

    1. [クラスタ] フィールドで、[参照] をクリックします。
    2. example-cluster の行で、[選択] をクリックします。
    3. [ジョブ ID] フィールドで、デフォルトの設定を使用するか、Google Cloud プロジェクトに固有の ID を指定します。
    4. [ジョブタイプ] には、[Spark] を選択します。
    5. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
    6. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
    7. [引数] フィールドに「1000」と入力して、タスクの数を設定します。

    8. [送信] をクリックします。

      ジョブが [ジョブの詳細] ページに表示されます。ジョブ ステータスは、[実行中] または [開始中] で、送信後 [完了] に変わります。

      出力のスクロールを回避するには、[折り返し: オフ] をクリックします。出力は次のようになります。

      Pi is roughly 3.1416759514167594
      

      ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタの更新

ワーカー インスタンスの数を変更してクラスタを更新します。

  1. ナビゲーション メニューで、[クラスタ] をクリックします。
  2. クラスタのリストで、[example-cluster] をクリックします。
  3. [クラスタの詳細] ページで [構成] タブをクリックします。

    クラスタ設定が表示されます。

  4. [編集] をクリックします。

  5. [ワーカーノード] フィールドに「5」と入力します。

  6. [保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. [example-cluster] の [クラスタの詳細] ページで、 [削除] をクリックしてクラスタを削除します。
  2. クラスタの削除を確定するには、[削除] をクリックします。

次のステップ