Dataproc セカンダリワーカー

Dataproc クラスタは、標準的な Compute Engine VM を Dataproc ワーカー（「プライマリ」ワーカーと呼びます）として使用するだけでなく、secondary ワーカーも使用できます。

次のルールは、Dataproc クラスタ内のすべてのセカンダリワーカーに適用されます。

処理のみ - セカンダリワーカーはデータを保存しません。これらは、処理ノードとしてのみ機能します。そのため、セカンダリワーカーを使用すると、ストレージをスケールすることなく、コンピューティングをスケールできます。
セカンダリワーカーのみのクラスタはゼロ: クラスタにはプライマリワーカーが必要です。クラスタを作成し、プライマリワーカーの数を指定しない場合、Dataproc によって 2 個のプライマリワーカーがクラスタに追加されます。
マシンタイプ - デフォルトでは、セカンダリワーカーはクラスタのプライマリワーカーのマシンタイプを使用します。たとえば、n1-standard-4 マシンタイプを使用するプライマリワーカーでクラスタを作成した場合、デフォルトでは、クラスタに追加したすべてのセカンダリワーカーも n1-standard-4 マシンタイプを使用します。

セカンダリワーカーにデフォルトのプライマリワーカーマシンタイプを使用する代わりに、セカンダリワーカーに 1 つ以上のランク付けされたマシンタイプリストを指定できます。詳細については、Dataproc フレキシブル VM をご覧ください。
永続ディスクサイズ: デフォルトとして、すべてのセカンダリワーカーは 1,000 GB またはプライマリワーカーのブートディスクサイズのいずれか小さい方で作成されます。このディスク容量は、データをローカルのキャッシュに保存するために使用され、HDFS では使用できません。クラスタ作成時に gcloud dataproc clusters create --secondary-worker-boot-disk-size コマンドを使用して、デフォルトのディスクサイズをオーバーライドできます。このフラグは、クラスタの作成時にセカンダリワーカーが割り当てられなかった場合でも指定できます。
非同期作成 - クラスタの作成またはスケーリングによってセカンダリワーカーを追加する場合、セカンダリワーカーは、作成または更新のオペレーションが完了するまでプロビジョニングされません。これは、Dataproc はプロビジョニングが可能になり次第 VM を非同期に作成し、マネージドインスタンスグループ（MIG）を使用してセカンダリワーカーを管理するためです（マネージドインスタンスのステータスの確認をご覧ください）。

プリエンプティブルと非プリエンプティブルセカンダリワーカー

セカンダリワーカーには、Spot VM、標準プリエンプティブル VM、非プリエンプティブル VM の 3 種類があります。デフォルトの Dataproc セカンダリワーカーのタイプは、標準プリエンプティブル VM です。Spot と非プリエンプティブルセカンダリワーカーの組み合わせを指定できます。

例: クラスタを作成するときに 3 つのセカンダリワーカーを選択した場合は、3 つの Spot VM、3 つのプリエンプティブル VM、3 つの非プリエンプティブル VM、または Spot ワーカーと非プリエンプティブルワーカーの組み合わせを指定できます。

プリエンプティブルワーカー

プリエンプティブルワーカーの削除の可能性はジョブの安定性に影響を及ぼす可能性がありますが、プリエンプティブルインスタンスを使用して、重要性の低いデータ処理の 1 時間あたりの計算費用の削減や、非常に大規模なクラスタの低総費用での作成ができます（Google Cloud 料金計算ツールを使用して費用を見積もることができます）。
最適な結果を得るには、クラスタ内のプリエンプティブルワーカーの数を、クラスタ内のワーカー数の合計（プライマリワーカーとすべてのセカンダリワーカー）の 50% 未満にする必要があります。
プリエンプティブルワーカーを使用する場合は、非プリエンプティブルワーカーで実行されるジョブと比較して、ジョブの一時的な単一ワーカータスクの失敗が多くなります。低レベルのタスクの失敗に対するジョブの許容度を上げるには、クラスタの自動スケーリングで使用されるデフォルトのプロパティ値と同様のクラスタプロパティ値を設定して、タスクの再試行の最大回数を増やし、ジョブの失敗を回避することが可能です。

ヒント: Spark でプリエンプティブル VM を使用している場合は、高度な柔軟性モードの使用を検討してください。
コスト節減の検討事項: プリエンプティブル VM を使用しても、プリエンプションによってジョブの実行時間が長くなり、ジョブの費用が高くなる可能性があるため、必ずしもコスト削減につながるわけではありません。プリエンプティブル VM で高度な柔軟性モード（EFM）を使用すると、この影響を軽減できますが、プリエンプティブル VM の全体的なコスト削減はユースケースによって異なります。一般的に、有効期間が短いジョブの方が、ジョブ実行中のプリエンプションの可能性が低いため、プリエンプティブル VM の使用に適しています。非プリエンプティブル VM や EFM を使用するプリエンプティブル VM など、さまざまなジョブオプションを試して、費用の見積もりを行い、最適なソリューションを見つけてください。

非プリエンプティブルワーカー

非プリエンプティブルのセカンダリワーカーを持つクラスタを作成すると、ジョブの安定性を損なうことなくコンピューティングをスケールできます。これを行うには、セカンダリワーカーのタイプとして non-preemptible を指定します。非プリエンプティブルと Spot セカンダリワーカーを混在させることができます。

セカンダリワーカーを選択する

Google Cloud コンソール、gcloud CLI、または Dataproc API を使用してクラスタを作成するときに、セカンダリワーカーの数とタイプを指定できます。

Spot と非プリエンプティブルセカンダリワーカーを混在させることができます。
作成後にクラスタを更新して、クラスタ内のセカンダリワーカーの数を変更できますが、セカンダリワーカーのタイプは変更できません。
ラベルの更新は、24 時間以内にすべてのプリエンプティブルセカンダリワーカーに反映されます。ラベルの更新はプリエンプティブルでない既存のセカンダリワーカーには反映されません。ラベルの更新は、ラベル更新の後にクラスタに追加されたすべてのワーカーに伝搬されます。たとえば、クラスタをスケールアップすると、すべての新しいプライマリワーカーとセカンダリワーカーに新しいラベルが付けられます。

コンソール

Google Cloud コンソールから Dataproc クラスタを作成する際に、セカンダリワーカーの数を指定できます。クラスタを作成したら、Google Cloud コンソールからクラスタ構成を編集して、セカンダリワーカーの追加や削除を行います。

セカンダリワーカーを含むクラスタを作成する

Google Cloud コンソールで Dataproc の [クラスタの作成] ページの [ノードの構成] パネルにある [セカンダリワーカーノード] セクションから、新しいクラスタに適用するセカンダリワーカーの数とタイプを設定します。[セカンダリワーカーノード] と [プリエンプティブル] フィールドに、セカンダリワーカーの数とタイプをそれぞれ指定します。

セカンダリインスタンスを使用してクラスタを更新する

クラスタ内のセカンダリワーカー数を更新するには、 Google Cloud コンソールの [クラスタ] ページでクラスタ名をクリックします。[クラスタの詳細] ページで[**構成**] タブをクリックし、[編集] をクリックして [セカンダリワーカーノード] フィールドの番号を更新します。

クラスタからすべてのプリエンプティブルインスタンスを削除する

クラスタからすべてのセカンダリワーカーを削除するには、[セカンダリワーカーノード] フィールドに 0 を指定して、先ほどの説明のとおりにクラスタ構成を更新します。

Google Cloud CLI コマンド

gcloud dataproc clusters create コマンドを使用して、クラスタの作成時にセカンダリワーカーをクラスタに追加します。クラスタの作成後に、gcloud dataproc clusters update コマンド（更新できるセカンダリワーカーのタイプではなく、数値）を使用して、セカンダリワーカーをクラスタから追加または削除できます。

セカンダリワーカーを含むクラスタを作成する

セカンダリワーカーを持つクラスタを作成するには、--num-secondary-workers 引数を持つ gcloud dataproc clusters create コマンドを使用します。セカンダリワーカーは、デフォルトでは標準プリエンプティブル VM です。クラスタの作成時に、--secondary-worker-type フラグを `non-preemptible` または `spot` に設定すると、非プリエンプティブルまたは Spot のセカンダリワーカーを指定できます。次の例は、各セカンダリワーカータイプ（`preemptible`（デフォルト）、Spot（プリエンプティブル）、非プリエンプティブル）を使用してクラスタを作成する方法を示しています。追加のフラグを使用して、Spot と非プリエンプティブルセカンダリワーカーを混在させることができます。

例 1

次のコマンドは、2 つの標準プリエンプティブル（デフォルトタイプ）セカンダリワーカーを持つ「cluster1」を作成します。

gcloud dataproc clusters create cluster1 \
    --num-secondary-workers=2 \
    --region=us-central1

例 2

次のコマンドは、secondary-worker-type フラグを使用して 2 つの Spot（プリエンプティブル）セカンダリワーカーを持つ「cluster2」を作成します。

gcloud dataproc clusters create cluster2 \
    --num-secondary-workers=2 \
    --secondary-worker-type=spot \
    --region=us-central1

例 3

次のコマンドは、secondary-worker-type フラグを使用して 2 つの非プリエンプティブルセカンダリワーカーを持つ「cluster3」を作成します。

gcloud dataproc clusters create cluster3 \
    --num-secondary-workers=2 \
    --secondary-worker-type=non-preemptible \
    --region=us-central1

セカンダリワーカーのブートディスクのサイズを変更します。デフォルトでは、すべてのセカンダリワーカーが 1,000 GB またはプライマリワーカーのブートディスクサイズのいずれか小さいほうで作成されます。このディスク容量は、データをローカルのキャッシュに保存するために使用され、HDFS では使用できません。クラスタ作成時に gcloud dataproc clusters create --secondary-worker-boot-disk-size コマンドを使用して、デフォルトのディスクサイズをオーバーライドできます。このフラグは、クラスタの作成時にセカンダリワーカーが割り当てられなかった場合でも指定できます。 Google Cloud コンソールにクラスタ作成リクエストを作成させる:Dataproc の [クラスタの作成] ページの左パネルの下部にある [ 同等の REST またはコマンドライン] リンクをクリックすると、 Google Cloud コンソールにより同等の API REST リクエストまたは gcloud ツールコマンドが作成されます。

セカンダリワーカーを含むクラスタを更新する

セカンダリワーカーを追加または削除するクラスタを更新するには、--num-secondary-workers フラグを指定して gcloud dataproc clusters update コマンドを使用します。

例

次のコマンドは、4 つのセカンダリワーカー（デフォルトタイプまたはクラスタ作成時に指定したタイプ）を使用するように example-cluster を更新します。

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=4 \
    --region=us-central1

クラスタからすべてのセカンダリワーカーを削除する

クラスタからすべてのセカンダリワーカーを削除するには、--num-secondary-workers を 0 に設定して gcloud dataproc clusters update コマンドを使用します。

例

次のコマンドは、example-cluster からすべてのセカンダリワーカーを削除します。

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=0 \
    --region=us-central1

REST API

セカンダリワーカーを含むクラスタを作成する

Dataproc clusters.create API を使用して、クラスタの作成時にセカンダリワーカーをクラスタに追加します。次の例は、各セカンダリワーカータイプ（preemptible（デフォルト）、spot（プリエンプティブル）、non-preemptible）を使用してクラスタを作成する方法を示しています。追加のフィールドを使用して、Spot と非プリエンプティブルのセカンダリワーカーを混在させることができます。

例 1

次の POST リクエストは、2 つの標準プリエンプティブル（デフォルトタイプ）VM ワーカーを持つ cluster1 を作成します。


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster1",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2
    }
  }
}

例 2

次の POST リクエストは、2 つの Spot（プリエンプティブル）VM ワーカーを持つ cluster2 を作成します。


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster2",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "SPOT"
    }
  }
}

例 3

次の POST リクエストは、2 つの非プリエンプティブル セカンダリワーカーを持つ cluster3 を作成します。


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster3",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "NON_PREEMPTIBLE"
    }
  }
}

セカンダリワーカーを含むクラスタを更新する

Dataproc clusters.patch API を使用して、セカンダリワーカーを追加および削除します。

例

次の PATCH リクエストは、4 つのセカンダリワーカー（デフォルトタイプまたはクラスタ作成時に指定したタイプ）を持つようにクラスタを更新します。


PATCH /v1/projects/project-id/regions/region/clusters/cluster-name?updateMask=config.secondary_worker_config.num_instances
{
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 4
    }
  }
}

Google Cloud コンソールにクラスタ作成リクエストを作成させる:Dataproc の [クラスタの作成] ページの左パネルの下部にある [ 同等の REST またはコマンドライン] リンクをクリックすると、 Google Cloud コンソールにより同等の API REST リクエストまたは gcloud CLI コマンドが作成されます。

セカンダリワーカーのトラブルシューティング

サービスアカウントの権限に関する問題: セカンダリワーカーはマネージドインスタンスグループを介して作成されます。権限の問題がある場合、Dataproc ログにはセカンダリワーカーの作成失敗は報告されませんが、失敗したワーカーはGoogle Cloud コンソールの [クラスタの詳細] ページの [VM インスタンス] タブで緑色のチェックマークがない状態で表示されます。リストを表示するには、Dataproc の [クラスタ] ページを開き、クラスタ名をクリックして、クラスタの [クラスタの詳細] ページを開きます。
マネージドインスタンスグループの権限の問題: マネージドインスタンスグループの権限に問題があるかどうかを確認するには:
1. マネージドインスタンスグループの名前（instanceGroupManagerName）を見つけます。
  コンソール
  1. Dataproc の [クラスタ] ページを開き、クラスタ名をクリックして、クラスタの [クラスタの詳細] ページを開きます。
  2. ページの下部にある [同等の REST] をクリックし、config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName 値を確認します。
  Google Cloud CLI
  --format フラグを指定して gcloud dataproc clusters describe コマンドを実行し、instanceGroupManagerName を表示します。
  gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION \ --format='value(config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName)'
  REST API
  clusters.get リクエストを送信して、config.secondaryWorkerConfig.managedGroupConfig.instanceGroupManagerName の値を返します。
2. ログエクスプローラでログを表示します。
- Google Compute Engine Instance Group リソースタイプを選択し、マネージドインスタンスグループ名でフィルタします。
- または、resource.type="gce_instance_group" と resource.labels.instance_group_name=INSTANCE_GROUP_MANAGER_NAME のロギングフィルタを適用することもできます。

Spot と非プリエンプティブルセカンダリワーカーを混在させる

Dataproc クラスタの作成時に、Sopt と非プリエンプティブルのセカンダリワーカーを組み合わせて指定できます。

Spot と非プリエンプティブルセカンダリワーカーを混在させるセカンダリワーカーの設定

Dataproc クラスタを作成するときに次のセカンダリワーカー設定を使用すると、Spot VM が使用可能なときに容量を増やすことができる最小レベルのセカンダリワーカー容量を取得できます。

セカンダリワーカー数: プロビジョニングするセカンダリワーカーの合計数。
セカンダリワーカータイプ: Spot と非プリエンプティブルセカンダリワーカーを混在させる場合、spot はセカンダリワーカータイプです。
standardCapacityBase: プロビジョニングする非プリエンプティブル（標準）セカンダリワーカーの数。非プリエンプティブルセカンダリワーカーは、他のタイプのセカンダリワーカーよりも先にプロビジョニングされます。
standardCapacityPercentAboveBase: standardCapacityBase 個のセカンダリワーカーが満たされた後、リクエストされたセカンダリワーカーの合計数を満たすために必要な残りのセカンダリワーカーの数は、次のように非プリエンプティブル VM と Spot VM の組み合わせで満たされます。
- standardCapacityPercentAboveBase: 残りのセカンダリワーカーのうち、プリエンプティブルでない VM で埋める割合。
- リクエストされたセカンダリワーカーの合計数を満たすために必要な残りの数は、Spot VM で埋められます。

例:

セカンダリワーカーの数: 15
standardCapacityBase: 5
standardCapacityPercentAboveBase 30%

結果:

非プリエンプティブル: 8 = 5（standardCapacityBase）+ 3（残りの 10 の 30%）
Spot: 7（残りの 10 の 70%）
Total = 15

Spot セカンダリワーカーと非プリエンプティブルセカンダリワーカーを組み合わせてクラスタを作成する

クラスタの作成時に、gcloud CLI または Dataproc API を使用して、Spot と非プリエンプティブルセカンダリワーカーを混在させることができます。

gcloud

ローカルまたは Cloud Shell で次のコマンドを実行して、Spot と非プリエンプティブルセカンダリワーカーが混在するクラスタを作成します。

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --secondary-worker-type=spot \
    --num-secondary-workers=NUMBER_SECONDARY_WORKERS \
    --secondary-worker-standard-capacity-base=STANDARD_CAPACITY_BASE \
    --secondary-worker-standard-capacity-percent-above-base=STANDARD_CAPACITY_PERCENT_ABOVE_BASE \
    OTHER_FLAGS_AS_NEEDED

注:

CLUSTER_NAME: 新しいクラスタの名前。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。プロジェクト ID は、 Google Cloud コンソールのダッシュボードの [プロジェクト情報] セクションに表示されます。
REGION: ワークロードを実行できる利用可能な Compute Engine リージョン。
--secondary-worker-type: Spot セカンダリワーカーと非プリエンプティブルセカンダリワーカーを混在させる場合は、セカンダリワーカーのタイプを spot として指定します。
STANDARD_CAPACITY_BASE と STANDARD_CAPACITY_PERCENT_ABOVE_BASE: Spot と非プリエンプティブルセカンダリワーカーを混在させるセカンダリワーカーの設定をご覧ください。
OTHER_FLAGS_AS_NEEDED: gcloud dataproc clusters create をご覧ください。

API

Spot と非プリエンプティブルのセカンダリワーカーを混在させるには、次の JSON サンプルに示すように、cluster.create リクエストの一部として Dataproc preemptibility、standardCapacityBase、standardCapacityPercentAboveBase API フィールドを設定します。

{
  "clusterName": "CLUSTER_NAME",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 15,
      "preemptibility": "spot",
      "instanceFlexibilityPolicy": {
        "provisioningModelMix": {
          "standardCapacityBase": STANDARD_CAPACITY_BASE
          "standardCapacityPercentAboveBase": STANDARD_CAPACITY_PERCENT_ABOVE_BASE
        }
      }
    }
  }
}

注:

CLUSTER_NAME: 新しいクラスタの名前。
preemptibility: Spot セカンダリワーカーと非プリエンプティブルセカンダリワーカーを混在させる場合は、spot を指定します。
STANDARD_CAPACITY_BASE と STANDARD_CAPACITY_PERCENT_ABOVE_BASE: Spot と非プリエンプティブルセカンダリワーカーを混在させるセカンダリワーカーの設定をご覧ください。

セカンダリワーカーの混在とフレキシブル VM を組み合わせる

クラスタの作成時に、Spot と非プリエンプティブルのセカンダリワーカーを混在させ、セカンダリワーカーにフレキシブル VM シェイプを指定できます。

gcloud CLI の例:

gcloud dataproc clusters create cluster-name \
    --project=project-id \
    --region=us-central1 \
    --secondary-worker-type=spot \
    --num-secondary-workers=15 \
    --secondary-worker-standard-capacity-base=5 \
    --secondary-worker-standard-capacity-percent-above-base=30 \
    --secondary-worker-machine-types="type=n2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=e2-standard-8,type=t2d-standard-8,rank=1"
    ...other flags as needed

セカンダリワーカーの混在の特性

このセクションでは、Spot セカンダリワーカーと非プリエンプティブルセカンダリワーカーを混在させることに関連する動作と特性について説明します。

セカンダリワーカーの設定

Dataproc は、セカンダリワーカーでアプリケーションをスケジュールするときに、Spot VM と非プリエンプティブル VM のどちらかを優先することはありません。

セカンダリワーカーのスケーリング

セカンダリワーカーが自動スケーリングまたは手動スケーリングによってスケーリングされる場合、Dataproc はセカンダリワーカーを追加するときに、リクエストされた Spot と非プリエンプティブルの比率を維持します。

セカンダリワーカーの混在設定を更新する

Spot セカンダリワーカーと非プリエンプティブルセカンダリワーカーの組み合わせは、Dataproc クラスタの作成時に指定します。クラスタの作成後にセカンダリワーカーの組み合わせ設定を変更することはできません。

Spot セカンダリワーカーのプリエンプション

Dataproc は、Spot VM のプリエンプションのタイミングを制御しません（Spot VM のプリエンプションをご覧ください）。
Spot のプリエンプションが発生すると、Compute Engine がプリエンプトされた VM を再プロビジョニングするまで、セカンダリワーカーグループは容量を減らして一時的に実行できます。
Dataproc は、グループの初期設定を超える容量をセカンダリワーカーグループに追加しません。

Dataproc セカンダリ ワーカー コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

プリエンプティブルと非プリエンプティブル セカンダリ ワーカー

プリエンプティブル ワーカー

非プリエンプティブル ワーカー

セカンダリ ワーカーを選択する

コンソール

セカンダリ ワーカーを含むクラスタを作成する

セカンダリ インスタンスを使用してクラスタを更新する

クラスタからすべてのプリエンプティブル インスタンスを削除する

Google Cloud CLI コマンド

セカンダリ ワーカーを含むクラスタを作成する

セカンダリ ワーカーを含むクラスタを更新する

クラスタからすべてのセカンダリ ワーカーを削除する

REST API

セカンダリ ワーカーを含むクラスタを作成する

セカンダリ ワーカーを含むクラスタを更新する

セカンダリ ワーカーのトラブルシューティング

コンソール

Google Cloud CLI

REST API

Spot と非プリエンプティブル セカンダリ ワーカーを混在させる

Spot と非プリエンプティブル セカンダリ ワーカーを混在させるセカンダリ ワーカーの設定

Spot セカンダリ ワーカーと非プリエンプティブル セカンダリ ワーカーを組み合わせてクラスタを作成する

gcloud

API

セカンダリ ワーカーの混在とフレキシブル VM を組み合わせる

セカンダリ ワーカーの混在の特性

セカンダリ ワーカーの設定

セカンダリ ワーカーのスケーリング

セカンダリ ワーカーの混在設定を更新する

Spot セカンダリ ワーカーのプリエンプション

Dataproc セカンダリワーカー

プリエンプティブルと非プリエンプティブルセカンダリワーカー

プリエンプティブルワーカー

非プリエンプティブルワーカー

セカンダリワーカーを選択する

セカンダリワーカーを含むクラスタを作成する

セカンダリインスタンスを使用してクラスタを更新する

クラスタからすべてのプリエンプティブルインスタンスを削除する

セカンダリワーカーを含むクラスタを作成する

セカンダリワーカーを含むクラスタを更新する

クラスタからすべてのセカンダリワーカーを削除する

セカンダリワーカーを含むクラスタを作成する

セカンダリワーカーを含むクラスタを更新する

セカンダリワーカーのトラブルシューティング

Spot と非プリエンプティブルセカンダリワーカーを混在させる

Spot と非プリエンプティブルセカンダリワーカーを混在させるセカンダリワーカーの設定

Spot セカンダリワーカーと非プリエンプティブルセカンダリワーカーを組み合わせてクラスタを作成する

セカンダリワーカーの混在とフレキシブル VM を組み合わせる

セカンダリワーカーの混在の特性

セカンダリワーカーの設定

セカンダリワーカーのスケーリング

セカンダリワーカーの混在設定を更新する

Spot セカンダリワーカーのプリエンプション