クイックスタート: Cloud Console を使用して Dataproc クラスタを作成する

Cloud Console を使用して Dataproc クラスタを作成する

このページでは、Google Cloud Console を使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行して、クラスタ内のワーカーの数を変更する方法について説明します。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。

  4. Dataproc API を有効にします。

    API を有効にする

  5. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  6. Cloud プロジェクトに対して課金が有効になっていることを確認します。詳しくは、プロジェクトで課金が有効になっているかどうかを確認する方法をご覧ください。

  7. Dataproc API を有効にします。

    API を有効にする

クラスタの作成

  1. Cloud Console で、Dataproc の [クラスタ] ページに移動します。

    クラスタに移動

  2. [作成] をクリックします。

  3. [Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。

  4. [クラスタ名] フィールドに「example-cluster」と入力します。

  5. [リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

    特定のリージョン(us-east1europe-west1 など)を選択して、指定したリージョンで Dataproc が使用する仮想マシン(VM)インスタンスや、Cloud Storage とメタデータの保存場所などのリソースを分離できます。また、global を選択することもできます。これは、特別なマルチリージョンのエンドポイントであり、ユーザー指定の Compute Engine ゾーンにインスタンスをデプロイできます。詳細については、利用可能なリージョンとゾーンおよびリージョン エンドポイントをご覧ください。

  6. 他のすべてのオプションについては、デフォルト設定を使用します。

  7. クラスタを作成するには、[作成] をクリックします。

    新しいクラスタが [クラスタ] ページのリストに表示されます。ステータスは、クラスタが使用できるようになるまで [プロビジョニング] と表示され、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかる場合があります。

Spark ジョブの送信

円周率の値を計算する Spark ジョブを送信します。

  1. Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
  2. [ジョブ] ページで、 [ジョブを送信] をクリックし、次の操作を行います。

    1. [クラスタ] フィールドで、[参照] をクリックします。
    2. example-cluster の行で、[選択] をクリックします。
    3. [ジョブ ID] フィールドで、デフォルトの設定を使用するか、Google Cloud プロジェクトに固有の ID を指定します。
    4. [ジョブタイプ] には、[Spark] を選択します。
    5. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
    6. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
    7. [引数] フィールドに「1000」と入力してタスクの数を設定します。

    8. [送信] をクリックします。

      ジョブが [ジョブの詳細] ページに表示されます。ジョブ ステータスは [実行中] または [開始中] で、送信後は [完了] に変わります。

      出力のスクロールを回避するには、[行の折り返し: オフ] をクリックします。出力は次のようになります。

      Pi is roughly 3.1416759514167594
      

      ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタの更新

ワーカー インスタンスの数を変更して、クラスタを更新します。

  1. ナビゲーション メニューで、[クラスタ] をクリックします。
  2. クラスタのリストで、[example-cluster] をクリックします。
  3. [クラスタの詳細] ページで [構成] タブをクリックします。

    クラスタの設定が表示されます。

  4. [編集] をクリックします。

  5. [ワーカーノード] フィールドに「5」と入力します。

  6. [保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. [example-cluster] の [クラスタの詳細] ページで、 [削除] をクリックしてクラスタを削除します。
  2. クラスタの削除を確定するには、[削除] をクリックします。

次のステップ