Dataproc セカンダリワーカー

Dataproc クラスタは、標準的な Compute Engine VM を Dataproc ワーカー（「プライマリ」ワーカーと呼びます）として使用するだけでなく、secondary ワーカーも使用できます。

次のルールは、Dataproc クラスタ内のすべてのセカンダリワーカーに適用されます。

処理のみ - セカンダリワーカーはデータを保存しません。これらは、処理ノードとしてのみ機能します。そのため、セカンダリワーカーを使用すると、ストレージをスケールすることなく、コンピューティングをスケールできます。
セカンダリワーカーのみのクラスタはゼロ: クラスタにはプライマリワーカーが必要です。クラスタを作成し、プライマリワーカーの数を指定しない場合、Dataproc によって 2 つのプライマリワーカーがクラスタに追加されます。
マシンタイプ - デフォルトでは、セカンダリワーカーはクラスタのプライマリワーカーのマシンタイプを使用します。たとえば、n1-standard-4 マシンタイプを使用するプライマリワーカーでクラスタを作成した場合、クラスタに追加したすべてのセカンダリワーカーも n1-standard-4 マシンタイプを使用します。

セカンダリワーカーにデフォルトのプライマリワーカーマシンタイプを使用する代わりに、セカンダリワーカーに 1 つ以上のマシンタイプのランク付けされたリストを指定できます。詳細については、Dataproc フレキシブル VM をご覧ください。
永続ディスクサイズ: デフォルトとして、すべてのセカンダリワーカーは 100GB またはプライマリワーカーのブートディスクサイズのいずれか小さい方で作成されます。このディスク容量は、データをローカルのキャッシュに保存するために使用され、HDFS では使用できません。クラスタ作成時に gcloud dataproc clusters create --secondary-worker-boot-disk-size コマンドを使用して、デフォルトのディスクサイズをオーバーライドできます。このフラグは、クラスタの作成時にセカンダリワーカーが割り当てられなかった場合でも指定できます。
非同期作成 - クラスタの作成またはスケーリングによってセカンダリワーカーを追加する場合、セカンダリワーカーは、作成または更新のオペレーションが完了するまでプロビジョニングされません。これは、Dataproc はプロビジョニングが可能になり次第 VM を非同期に作成し、マネージドインスタンスグループ（MIG）を使用してセカンダリワーカーを管理するためです（マネージドインスタンスのステータスの確認をご覧ください）。

プリエンプティブルと非プリエンプティブルセカンダリワーカー

セカンダリワーカーには、Spot VM、標準プリエンプティブル VM、非プリエンプティブル VM の 3 種類があります。クラスタのセカンダリワーカーを指定する場合は、同じタイプにする必要があります。デフォルトの Dataproc セカンダリワーカーのタイプは、標準プリエンプティブル VM です。

例: クラスタを作成するときに 3 つのセカンダリワーカーを選択した場合は、3 つすべてを Spot VM にするか、3 つすべてを（標準）プリエンプティブル VM にするか、3 つすべてを非プリエンプティブル VM にするように指定できますが、それぞれ異なるタイプを指定することはできません。

Spot VM は、Compute Engine プリエンプティブル VM の最新のタイプです。料金モデルは低コストの標準プリエンプティブル VM と共通ですが、最長存続期間が 24 時間の標準プリエンプティブル VM とは異なり、Spot VM には最長存続期間がありません。Spot VM と標準プリエンプティブル VM ワーカーは、他のタスクで Google Cloud が必要とする場合に再利用され、Dataproc クラスタから削除されます。

プリエンプティブルワーカー

プリエンプティブルワーカーの削除の可能性はジョブの安定性に影響を及ぼす可能性がありますが、プリエンプティブルインスタンスを使用して、重要性の低いデータ処理の 1 時間あたりの計算費用の削減や、非常に大規模なクラスタの低総費用での作成ができます（Google Cloud 料金計算ツールを使用して費用を見積もることができます）。
最適な結果を得るには、クラスタ内のプリエンプティブルワーカーの数を、クラスタ内のワーカー数の合計（プライマリワーカーとすべてのセカンダリワーカー）の 50% 未満にする必要があります。
プリエンプティブルワーカーを使用する場合は、非プリエンプティブルワーカーで実行されるジョブと比較して、ジョブの一時的な単一ワーカータスクの失敗が多くなります。低レベルのタスクの失敗に対するジョブの許容度を上げるには、クラスタの自動スケーリングで使用されるデフォルトのプロパティ値と同様のクラスタプロパティ値を設定して、タスクの再試行の最大回数を増やし、ジョブの失敗を回避することが可能です。
Spark でプリエンプティブル VM を使用している場合は、高度な柔軟性モードの使用を検討してください。
コスト節減の検討事項: プリエンプティブル VM を使用しても、プリエンプションによってジョブの実行時間が長くなり、ジョブの費用が高くなる可能性があるため、必ずしもコスト削減につながるわけではありません。プリエンプティブル VM で高度な柔軟性モード（EFM）を使用すると、この影響を軽減できますが、プリエンプティブル VM の全体的なコスト削減はユースケースによって異なります。一般的に、有効期間が短いジョブの方が、ジョブ実行中のプリエンプションの可能性が低いため、プリエンプティブル VM の使用に適しています。非プリエンプティブル VM や EFM を使用するプリエンプティブル VM など、さまざまなジョブオプションを試して、費用の見積もりを行い、最適なソリューションを見つけてください。

非プリエンプティブルワーカー

非プリエンプティブルのセカンダリワーカーを持つクラスタを作成すると、ジョブの安定性を損なうことなくコンピューティングをスケールできます。これを行うには、セカンダリワーカーのタイプとして「非プリエンプティブル」を指定します。

セカンダリワーカーを使用する

Google Cloud Console、gcloud CLI、または Dataproc API を使用してクラスタを作成するときに、セカンダリワーカーの数とタイプを指定できます。

セカンダリワーカーは同じタイプでなければなりません。
作成後にクラスタを更新して、クラスタ内のセカンダリワーカーの数を変更できますが、セカンダリワーカーのタイプは変更できません。
ラベルの更新は、24 時間以内にすべてのプリエンプティブルセカンダリワーカーに反映されます。ラベルの更新はプリエンプティブルでない既存のセカンダリワーカーには反映されません。ラベルの更新は、ラベル更新の後にクラスタに追加されたすべてのワーカーに伝搬されます。たとえば、クラスタをスケールアップすると、すべての新しいプライマリワーカーとセカンダリワーカーに新しいラベルが付けられます。

後でクラスタにセカンダリワーカーを追加する場合。クラスタの作成時に 0 個のセカンダリワーカー（gcloud コマンドフラグの例: --num-secondary-workers=0）を指定し、後でクラスタを更新して、セカンダリワーカーの正の数とタイプを指定できます。後でクラスタを更新してセカンダリワーカーを含める予定がある場合、クラスタの作成時に「secondary-worker-type」を指定する必要があります。

Console

Google Cloud コンソールから Dataproc クラスタを作成する際に、セカンダリワーカーの数を指定できます。クラスタを作成したら、Google Cloud コンソールからクラスタ構成を編集して、セカンダリワーカーの追加や削除を行います。

セカンダリワーカーを持つクラスタを作成する

Google Cloud コンソールの Dataproc [クラスタの作成] ページの [セカンダリワーカーノード] セクションから、新しいクラスタに適用するセカンダリワーカーの数とタイプを設定します。[セカンダリワーカーノード] と [プリエンプティブル] フィールドに、セカンダリワーカーの数とタイプをそれぞれ指定します。

セカンダリインスタンスでのクラスタの更新

クラスタ内のセカンダリワーカー数を更新するには、Google Cloud コンソールの [クラスタ] ページでクラスタ名をクリックします。[クラスタの詳細] ページで、[構成] タブをクリックし、[編集] をクリックして [セカンダリワーカーノード] フィールドの番号を更新します。

クラスタからすべてのプリエンプティブルインスタンスを削除する

クラスタからすべてのセカンダリワーカーを削除するには、[セカンダリワーカーノード] フィールドに 0 を指定して、先ほどの説明のとおりにクラスタ構成を更新します。

gcloud コマンド

gcloud dataproc clusters create コマンドを使用して、クラスタの作成時にセカンダリワーカーをクラスタに追加します。クラスタの作成後に、gcloud dataproc clusters update コマンド（更新できるセカンダリワーカーのタイプではなく、数値）を使用して、セカンダリワーカーをクラスタから追加または削除できます。

セカンダリワーカーを持つクラスタを作成する

セカンダリワーカーを持つクラスタを作成するには、--num-secondary-workers 引数を持つ gcloud dataproc clusters create コマンドを使用します。セカンダリワーカーは、デフォルトでは標準プリエンプティブル VM です。クラスタの作成時に --secondary-worker-type=non-preemptible を設定すると、非プリエンプティブルセカンダリワーカーを指定できます（セカンダリワーカーのタイプを指定する際に、dataproc:secondary-workers.is-preemptible.override プロパティを使用することはなくなりました）。

例 1

次のコマンドは、2 つの標準プリエンプティブル（デフォルトタイプ）セカンダリワーカーを持つ「cluster1」を作成します。

gcloud dataproc clusters create cluster1 \
    --num-secondary-workers=2 \
    --region=us-central1

例 2

次のコマンドは、secondary-worker-type フラグを使用して 2 つの Spot（プリエンプティブル）セカンダリワーカーを持つ「cluster2」を作成します。

gcloud dataproc clusters create cluster2 \
    --num-secondary-workers=2 \
    --secondary-worker-type=spot \
    --region=us-central1

例 3

次のコマンドは、secondary-worker-type フラグを使用して 2 つの非プリエンプティブルセカンダリワーカーを持つ「cluster3」を作成します。

gcloud dataproc clusters create cluster3 \
    --num-secondary-workers=2 \
    --secondary-worker-type=non-preemptible \
    --region=us-central1

セカンダリワーカーを持つクラスタの更新

セカンダリワーカーを追加または削除するクラスタを更新するには、--num-secondary-workers 引数を指定して gcloud dataproc clusters update コマンドを使用します。

例

次のコマンドは、4 つのセカンダリワーカー（デフォルトタイプまたはクラスタ作成時に指定したタイプ）を使用するように「example-cluster」を更新します。

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=4 \
    --region=us-central1

クラスタからすべてのセカンダリワーカーを削除する

クラスタからすべてのセカンダリワーカーを削除するには、--num-secondary-workers を 0 に設定して gcloud dataproc clusters update コマンドを使用します。

例

次のコマンドは、「example-cluster」からすべてのセカンダリワーカーを削除します。

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=0 \
    --region=us-central1

REST API

セカンダリワーカーを持つクラスタを作成する

Dataproc clusters.create API を使用して、クラスタの作成時にセカンダリワーカーをクラスタに追加します。セカンダリワーカーは、デフォルトでは標準プリエンプティブル VM です。

例 1

次の POST リクエストは、2 つの標準プリエンプティブル（デフォルトタイプ）VM ワーカーを持つ「cluster1」を作成します。


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster1",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2
    }
  }
}

例 2

次の POST リクエストは、2 つの Spot（プリエンプティブル）VM ワーカーを持つ「cluster2」を作成します。


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster2",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "SPOT"
    }
  }
}

例 3

次の POST リクエストは、2 つの非プリエンプティブル セカンダリワーカーを持つ「cluster3」を作成します。


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster3",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "NON_PREEMPTIBLE"
    }
  }
}

セカンダリワーカーを持つクラスタの更新

Dataproc clusters.patch API を使用して、セカンダリワーカーを追加および削除します。

例

次の PATCH リクエストは、4 つのセカンダリワーカー（デフォルトタイプまたはクラスタ作成時に指定したタイプ）を持つようにクラスタを更新します。


PATCH /v1/projects/project-id/regions/region/clusters/cluster-name?updateMask=config.secondary_worker_config.num_instances
{
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 4
    }
  }
}

セカンダリワーカーのトラブルシューティング

サービスアカウントの権限に関する問題: セカンダリワーカーはマネージドインスタンスグループを介して作成され、Compute Engine はプロジェクトの Google API サービスエージェントのサービスアカウントを使用してマネージドインスタンスグループのオペレーションを実行します。このサービスアカウント名は project-id@cloudservices.gserviceaccount.com の形式です。

このサービスアカウントに権限の問題がある場合は、Dataproc ログはセカンダリワーカーの作成失敗を報告しませんが、失敗したワーカーが Google Cloud Console 内の [クラスタの詳細] ページの [VM インスタンス] タブに緑のチェックマークなしで一覧表示されます（Dataproc の [クラスタ] ページを開いてから、クラスタ名をクリックして [クラスタの詳細] ページを開きます）。

マネージドインスタンスグループの権限の問題: マネージドインスタンスグループの権限に問題があるかどうかを確認するには、「Google Compute Engine Instance Group」リソースタイプのために、Google Compute Engine のログエクスプローラでログを表示し、対応するインスタンスグループ ID でフィルタリングします。インスタンスグループ ID フィルタには、dataproc-CLUSTER NAME-sw の形式でインスタンスグループ名が表示され、インスタンスグループ ID がロギングクエリに自動的に入力されます。プルダウンフィルタを使用する代わりに、resource.type="gce_instance_group" と resource.labels.instance_group_name="dataproc-CLUSTER NAME-sw" のためにロギングフィルタを適用することもできます。
カスタムイメージの権限の問題: Dataproc クラスタ VM が、別のプロジェクトから取得されるカスタムイメージで作成される場合には、Compute Image User ロールはプロジェクトの project-id@cloudservices.gserviceaccount.com サービスアカウントに割り当てる必要があります（マネージドインスタンスグループにイメージへのアクセス権限を付与するをご覧ください）。正しいロールが割り当てられていない場合は、ログに Required 'compute.images.useReadOnly' permission for 'projects/[IMAGE PROJECT]/global/images/[IMAGE NAME] のエラーメッセージが表示されます。

Dataproc セカンダリ ワーカー

プリエンプティブルと非プリエンプティブル セカンダリ ワーカー

プリエンプティブル ワーカー

非プリエンプティブル ワーカー

セカンダリ ワーカーを使用する

Console

セカンダリ ワーカーを持つクラスタを作成する

セカンダリ インスタンスでのクラスタの更新

クラスタからすべてのプリエンプティブル インスタンスを削除する

gcloud コマンド

セカンダリ ワーカーを持つクラスタを作成する

セカンダリ ワーカーを持つクラスタの更新

クラスタからすべてのセカンダリ ワーカーを削除する

REST API

セカンダリ ワーカーを持つクラスタを作成する

セカンダリ ワーカーを持つクラスタの更新

セカンダリ ワーカーのトラブルシューティング

Dataproc セカンダリワーカー

プリエンプティブルと非プリエンプティブルセカンダリワーカー

プリエンプティブルワーカー

非プリエンプティブルワーカー

セカンダリワーカーを使用する

セカンダリワーカーを持つクラスタを作成する

セカンダリインスタンスでのクラスタの更新

クラスタからすべてのプリエンプティブルインスタンスを削除する

セカンダリワーカーを持つクラスタを作成する

セカンダリワーカーを持つクラスタの更新

クラスタからすべてのセカンダリワーカーを削除する

セカンダリワーカーを持つクラスタを作成する

セカンダリワーカーを持つクラスタの更新

セカンダリワーカーのトラブルシューティング