コンソールを使用したクイックスタート

このページでは、Google Cloud Platform Console を使用して、Cloud Dataproc クラスタを作成し、クラスタで簡単な Apache Spark ジョブを実行し、クラスタ内のワーカーの数を変更する方法を示します。

API Explorer を使用したクイックスタートgcloud コマンドライン ツールを使用したクイックスタートで、同じタスクを行うそれぞれの方法を確認できます。

始める前に

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. GCP プロジェクトを選択または作成します。

    [リソースの管理] ページに移動

  3. プロジェクトに対して課金が有効になっていることを確認します。

    課金を有効にする方法について

  4. Cloud Dataproc API を有効にします。

    APIを有効にする

クラスタの作成

  1. GCP Console の [Cloud Dataproc クラスタ] ページに移動します。
  2. [クラスタを作成] をクリックします。
  3. [名前] フィールドに「example-cluster」と入力します。
  4. [リージョン] および [ゾーン] プルダウン メニューから、クラスタのリージョンとゾーンを選択します(以下では global リージョンと us-central1-a ゾーンが選択されています)。デフォルトは global リージョンです。これは特別なマルチリージョンのエンドポイントであり、ユーザー指定の Compute Engine ゾーンに対してインスタンスをデプロイできます。また、異なるリージョン(us-east1europe-west1 など)を指定することで、Cloud Dataproc によって利用されるリソース(VM インスタンスや Cloud Storage など)やメタデータのストレージのロケーションをリージョンごとに分離することもできます。グローバル エンドポイントとリージョン エンドポイントの違いについては、リージョン エンドポイントをご覧ください。リージョンの選択については、利用可能なリージョンとゾーンをご覧ください。また、gcloud compute regions list コマンドを実行して、利用可能なリージョンのリストを表示することもできます。
  5. 他のすべてのオプションには、指定されたデフォルトを使用します。

  6. [作成] をクリックしてクラスタを作成します。

新しいクラスタが [クラスタ] リストに表示されます。クラスタ ステータスは、クラスタが使用できるようになるまでは [プロビジョニング] と表示され、その後 [実行中] に変わります。

ジョブの送信

サンプルの Spark ジョブを実行するには:

  1. 左側のナビゲーション メニューで [ジョブ] を選択して、Dataproc ジョブの表示に切り替えます。
  2. [ジョブを送信] をクリックします。
  3. [クラスタ] メニューから新しいクラスタ [example-cluster] を選択します。
  4. [ジョブタイプ] メニューから [Spark] を選択します。
  5. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
  6. org.apache.spark.examples.SparkPi」と、[メインクラスまたは JAR] フィールドに入力します。
  7. [引数] フィールドに「1000」と入力してタスクの数を設定します。
  1. [送信] をクリックします。

ジョブが [ジョブ] リストに表示されます。リストには、プロジェクトのジョブがクラスタ、タイプ、現在のステータスとともに表示されます。ジョブ ステータスは、[実行中] と表示され、その後ジョブが完了すると [完了] になります。完了したジョブの出力を表示するには、次の手順に従います。

  1. [ジョブ] リストのジョブ ID をクリックします。
  2. スクロールしなくてもよいように [行の折り返し] を選択します。

pi のおおよその値が正しく計算されたことが示されます。

クラスタの更新

クラスタのワーカー インスタンスの数を変更するには:

  1. 左側のナビゲーション ペインで [クラスタ] を選択し、Cloud Dataproc クラスタの表示に戻ります。
  2. [クラスタ] リストで [example-cluster] をクリックします。デフォルトでは、クラスタの CPU 使用率の概要がページに表示されます。
  3. [構成] をクリックし、クラスタの現在の設定を表示します。
  4. [編集] をクリックします。ここでワーカーノードの数を編集できます。
  5. [ワーカーノード] フィールドに「5」と入力します。
  6. [保存] をクリックします。

クラスタが更新されました。同じ手順に従ってワーカーノードの数を元の値に減らすことができます。

クリーンアップ

このチュートリアルで使用したリソースについて GCP アカウントに課金されないようにする手順は次のとおりです。

  1. example-cluster の [クラスタ] ページで、[削除] をクリックしてクラスタを削除します。クラスタの削除を確認するメッセージが表示されます。[OK] をクリックします。
  2. また、次のコマンドを実行して、クラスタによって作成された Cloud Storage バケットを削除する必要もあります。
    gsutil rm gs://bucket/subdir/**
    

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Dataproc ドキュメント
ご不明な点がありましたら、Google のサポートページをご覧ください。