ジョブの作成と実行の概要

このドキュメントでは、ジョブの実行プロセスと作成のオプションについて説明します。 Batch ジョブを使用すると、Google Cloudでバッチ処理ワークロードを実行できます。ジョブのコンポーネントと Batch を使用するための前提条件については、Batch を使ってみるをご覧ください。

ジョブの作成と実行の仕組み

Batch を使用するには、ワークロードとその要件を指定するジョブを作成すると、Batch が自動的に実行されます。

ジョブの作成と実行の仕組みの詳細については、次のセクションで説明します。

ジョブのライフサイクル: 作成から削除まで、ジョブが遷移する状態を理解します。
ジョブのキューイングとスケジューリング: ジョブの実行開始までの時間に影響する要因を理解します。
ジョブの実行: 実行中にジョブのタスクがリソースでどのように実行されるかを理解します。

ジョブのライフサイクル:

このセクションでは、ジョブとそのタスクのライフサイクルのその作成から削除までについて説明します。

Batch で実行するワークロードごとに、次の基本プロセスを行います。

ジョブを作成する: ジョブの実行可能ファイル、タスク、その他の要件を指定して、実行するワークロードを定義します。ジョブの作成の詳細については、このドキュメントのジョブ作成オプションをご覧ください。
ジョブのモニタリングとトラブルシューティング: ジョブの作成が完了すると、ジョブは自動的にキューに入れられ、スケジュールが設定され、指定したリソースで実行されます。作成したジョブまたはそのタスクの詳細を表示して、現在の状態を確認できます。必要に応じて、ジョブをキャンセル（プレビュー）して停止したり、実行を防いだりできます。ジョブの実行中または完了後に、ログを使用してジョブをモニタリングおよび分析することもできます。ジョブが失敗した場合は、ジョブを再作成する前に、エラーメッセージ、ステータスイベント、ログを使用してトラブルシューティングできます。
ジョブの削除またはエクスポート: Batch のジョブの情報は、ユーザーまたは Google Cloud が削除するまで使用できます。 Google Cloud は、ジョブの完了から 60 日後にジョブを自動的に削除します。その前に、必要に応じてジョブを自分で削除できます。また、情報を保持する必要がある場合は、ジョブが削除される前に Batch でジョブの情報をエクスポートすることもできます。ジョブが削除されても、別の保持ポリシーが設定されていても、他の Google Cloud サービスに保存されているジョブの情報は影響を受けません。たとえば、ジョブのログは、Cloud Logging の保持ポリシーに従って自動的に保持および削除されます。

ジョブを作成すると、次の状態を遷移します。

キューに格納済み（QUEUED）: ジョブリクエストが承諾され、キューで待機しています。必要なリソースが使用可能になり、その前のジョブが評価されるまで、ジョブはキュー内に留まります。
スケジュール済み（SCHEDULED）: ジョブが実行のためにキューから選択され、リソースが割り当てられます。
実行（RUNNING）: ジョブのリソースが正常に作成され、そのタスクの実行が開始できます。

ジョブの実行中、各タスクは次の状態を遷移します。
1. 保留中（PENDING）: タスクは実行する VM を待機しています。
2. 割り当て済み（ASSIGNED）: タスクに実行する VM が割り当てられています。
3. 実行（RUNNING）:タスクが VM で実行されています。
4. タスクは次のいずれかの状態で終了します。
  - 正常終了（SUCCEEDED）: 各実行可能ファイルが次のいずれかの条件を満たしたため、タスクは正常終了しました。
    - 実行可能ファイルは正常終了しました（ゼロの終了コードが返された）。
    - 実行可能ファイルは失敗（ゼロ以外の終了コードが返された）したが、重要でない実行可能ファイルでした（実行可能ファイルの ignoreExitStatus フィールドが有効にされていた）。
    - 実行可能ファイルは完了しなかったが、バックグラウンド実行可能ファイルでした（実行可能ファイルの background フィールドが有効にされていた）。
  - 失敗（FAILED）: 少なくとも 1 つの実行可能ファイルが前述の条件を満たさなかったため、タスクが失敗し、実行が停止しました。
ジョブのリソースは、ジョブが完了する前に削除されます。
ジョブは次のいずれかの状態で終了します。
- 正常終了（SUCCEEDED）: すべてのタスクが成功したため、ジョブは正常終了しました。
- 失敗（FAILED）: 少なくとも 1 つのタスクが失敗したため、ジョブは失敗し、実行が停止しました。
- キャンセル済み（CANCELLED）: ジョブが成功または失敗する前に、ユーザーがジョブをキャンセルしました（プレビュー版）。

詳細については、リファレンスドキュメントのジョブの状態とタスクの状態をご覧ください。

ジョブのキューイングとスケジューリング

一般的に、ジョブが小さく、少量の共通リソースのみを必要とする、ジョブはより早く実行され、完了する可能性が高くなります。Batch ドキュメント内のサンプルジョブは、通常は非常に小さく、最小限のリソースしか使用しないので、数分で完了する場合があります。

具体的には、ジョブのキューイングとスケジューリングが完了するまでにかかる時間は、ジョブによって、また次の要因に基づく時間によって異なります。

ユーザー指定のジョブの前提条件: ジョブをスケジュールする前に満たす必要がある前提条件。

デフォルトでは、ジョブに前提条件はありません。必要に応じて、1 つ以上の既存のジョブが成功または失敗するまでジョブをスケジュールできないように指定できます。詳細については、依存関係のあるジョブをスケジュールする（プレビュー版）をご覧ください。
ジョブの優先度: プロジェクト内の他のジョブの優先度と比較したジョブの優先度。

必要に応じて、gcloud CLI の --priority フラグまたは priority JSON フィールドを指定して、ジョブの優先度を指定できます。ジョブの優先度は、0（最も低い優先度）から 99（最も高い優先度）の間の数値で定義できます。ジョブの優先度を高く設定すると、プロジェクト内の優先度の低いジョブよりも早く実行されます。

ジョブの優先度を設定しない場合、デフォルトで最も低い優先度 0 が使用されます。キュー内の 2 つのジョブの優先度が同じ場合は、最初に作成されたジョブの方が優先度が高くなります。
ジョブリソースの可用性: 許可されたロケーション内のジョブに必要なリソースの可用性。

まず、そのロケーションで提供されていないリソースを指定すると、ジョブは実行できません。この場合、ジョブは失敗し、ゾーンの可用性エラーが発生します。

2 つ目は、リソースの可用性エラーにより、必要なリソースのいずれかが現在の需要に比べて容量が少ない場合、ジョブが遅延または失敗する可能性が高くなります。そのため、より少量でより共通のリソースを必要とし、リージョン内のどのゾーンでもジョブの実行を制限しない場合、ジョブはより早く実行される可能性があります。

ジョブのリソースの詳細については、このドキュメントのジョブの実行をご覧ください。バッチジョブとそのリソースに指定できるロケーションの詳細については、ロケーションページをご覧ください。
割り当てと上限: プロジェクトの Google Cloud リソースとリクエストに対するしきい値。

必要なリソースまたはリクエストの上限またはプロジェクトの割り当てを超えると、ジョブは実行できません。この場合、Batch はジョブを遅らせて後で再試行するか、ジョブを失敗させて関連するエラーを表示します。

関連するすべての上限に準拠するジョブを作成し、プロジェクトに十分な関連する割り当てがあることを確認して、ジョブの遅延やエラーを防ぐことができます。詳細については、Batch　の割り当てと上限をご覧ください。

ジョブの実行

ジョブの実行時間は、タスクのスケジューリングとジョブのリソースによって異なります。

タスクのスケジュール設定

ジョブの実行時に、タスクはスケジューリングポリシー（schedulingPolicy）フィールドに従ってスケジュールされます。このフィールドでは、次のいずれかのオプションを指定できます。

できるだけ早く（AS_SOON_AS_POSSIBLE）（デフォルト）: タスクはリソースが利用可能になるとすぐに実行され、並行して実行できます。一度に実行されるタスクの数は、このドキュメントのジョブリソースで説明されているように、ジョブのリソースと他の構成オプションで許可される VM あたりの並列タスク数によって異なります。
順序付き（IN_ORDER）: タスクはインデックス順に1 つずつ実行されます。

ジョブリソース

各バッチジョブは、リージョンマネージドインスタンスグループ（MIG）で実行されます。MIG は、含まれるゾーンの 1 つにある、1 つ以上の一致する Compute Engine 仮想マシン（VM）インスタンスのグループです。各 VM には、ジョブのパフォーマンスに影響を与える CPU コア（特に仮想 CPU（vCPU））、およびジョブを実行するためのオペレーティングシステム（OS）イメージと手順を保存するブートディスク用の専用ハードウェアがあります。

ジョブの実行中に、Batch は仕様を満たすリソースを自動的に作成して削除します。ジョブを作成するときに、次の値を指定してリソースを構成します。

タスクあたりのコンピューティングリソース: デフォルト値で十分でない限り、各タスクの実行に必要なコンピューティングリソース（vCPU、メモリ、必要に応じて追加のブートディスクストレージ）を指定する必要があります。詳細については、タスクあたりのコンピューティングリソース（computeResource）フィールドをご覧ください。
VM リソース: 必要に応じて、VM リソースポリシー（instances[].policy）フィールドまたは代替の instances[].instanceTemplate フィールドを使用して、ジョブの VM（マシンタイプや OS など）やその他のリソース（GPU やストレージボリュームなど）を指定することもできます。これらのフィールドを未定義のままにすると（Google Cloud コンソールを使用してジョブを作成する場合は不可能です）、Batch が自動的に互換性のある VM の選択を試み、その他のリソースは追加されません。
重要: ジョブの VM リソース（任意の instances[].policy または instances[].instanceTemplate フィールド）を指定する場合は、これらのフィールドが相互に、およびジョブと互換性があることを確認する必要があります。たとえば、次の操作をすべて行います。
- 指定したすべての VM リソースが、ジョブの VM のロケーションで使用可能であることを確認します。詳細については、ロケーションページをご覧ください。
- ジョブの VM のマシンタイプを指定する場合は、マシンタイプにジョブのタスク要件（各タスクに必要な vCPU とメモリ（cpuMilli と memoryMib フィールド）および VM あたりの優先最大並列タスク数（taskCountPerNode フィールド））に十分な vCPU とメモリがあることを確認します。

各 VM で同時に実行できる VM の数とタスクの数は、タスクのスケジューリングと指定されたハードウェア要件に基づいた各ジョブよって異なります。ジョブのタスクに IN_ORDER を実行するように指定すると、ジョブには VM が 1 で、一度に 1 つのタスクしか実行されません。それ以外の場合は、ジョブのタスクが AS_SOON_AS_POSSIBLE で実行される場合、次の式を使用して、VM の数と同時タスクの数を見積もることができます。

\[{vmsPerJob}=\frac{taskCount}{parallelTasksPerVm}\]

この数式には次の値が含まれます。

\({vmsPerJob}\): ジョブ用の VM の最大数。ジョブ用に作成される VM の実際の量は、これより少なくなる場合があります。たとえば、Batch が、より多くのリソースを待つよりも、少ないリソースでジョブを実行する方が高速であると判断される場合です。この値は、ジョブあたりの同時 VM 数の上限によっても制限されます。
\({taskCount}\): ジョブのタスクの合計数。タスク数（taskCount）フィールドを使用して定義します。
\({parallelTasksPerVM}\): VM で同時に実行できるタスクの最大数。

この値は、次のすべての条件によって決まります。
- 最小値は 1 タスクです。
- 最大値は 20 タスクとジョブあたりの最大並列タスク数（parallelism）フィールドの値（定義されている場合）のうち小さい方です。
- VM あたりの最大並列タスク数（taskCountPerNode）フィールドが定義されている場合、その値が使用されます。
  
  taskCountPerNode が未定義の場合、Batch は VM あたりのコンピューティングリソース（特に vCPU）の合計数を各タスクに必要な量で割って値を決定します。
  
  \[{parallelTasksPerVm}=\frac{vcpusPerVm}{vcpusPerTask}\]
  
  この数式には次の値が含まれます。
  - \({vcpusPerVm}\): VM あたりの vCPU の合計数。ジョブの VM のマシンタイプによって決まります。
  - \({vcpusPerTask}\): タスクあたりの vCPU の数。タスクあたりの vCPU（cpuMilli）フィールドの単位を変換することによって決定されます。

ジョブの作成オプション

基本的なジョブの作成と実行では、スクリプトまたはコンテナイメージを使用して実行可能ファイルを定義する方法や、事前定義された環境変数またはカスタム環境変数を構成する方法などの基本事項について説明します。

ジョブ作成の基本を理解したら、次の追加構成オプションの 1 つ以上を使用するジョブの作成を検討してください。

ジョブへのアクセス制御:
- カスタムサービスアカウントを使用してジョブのアクセスを制御するでは、ジョブの VM がアクセスできるリソースとアプリケーションに影響を与える、ジョブのサービスアカウントを指定する方法について説明します。カスタムサービスアカウントを指定しない場合、ジョブはデフォルトで Compute Engine のデフォルトのサービスアカウントを使用します。
- ネットワーキングの概要では、ジョブのネットワークの指定、外部接続のブロック、データとリソースの保護など、ジョブのネットワーク構成をカスタマイズする条件と方法の概要について説明します。
- Secret Manager を使用して機密データを保護するでは、ジョブの作成時に Secret Manager のシークレットを使用して暗号化された情報を指定することで、カスタム環境変数やログイン認証情報などの機密データを安全に定義する方法について説明します。
ジョブの追加のオプションを構成します。
- MPI ライブラリを使用してタスク通信を構成するでは、Message Passing Interface（MPI）ライブラリを使用して異なる VM 間で相互に通信する相互依存タスクでジョブを構成する方法について説明します。MPI の一般的なユースケースは、密結合のハイパフォーマンスコンピューティング（HPC）ワークロードです。
- ジョブを実行するリソースをカスタマイズします。
  - VM インスタンステンプレートを使用してジョブリソースを定義するでは、ジョブの作成時に Compute Engine VM テンプレートを指定してジョブのリソースを定義する方法について説明します。これは、instances[].policy フィールドを使用してジョブのリソースを直接指定する方法の代替手段です。
  - ジョブに GPU を使用するでは、1 つ以上の画像処理装置（GPU）を使用するジョブを定義する方法について説明します。GPU を使用するジョブの一般的なユースケースには、集中的なデータ処理や機械学習（ML）のワークロードが含まれています。
  - ジョブにストレージボリュームを使用するでは、1 つ以上の外部ストレージボリュームにアクセスできるジョブを定義する方法について説明します。ストレージオプションには、新規または既存の永続ディスク、新しいローカル SSD、既存の Cloud Storage バケット、Filestore ファイル共有などの既存のネットワークファイルシステム（NFS）があります。
  - VM OS 環境の概要では、ジョブの VM オペレーティングシステム（OS）環境（ジョブの VM OS イメージとブートディスクなど）をいつどのようにカスタマイズできるかの概要を説明します。
- ジョブのさまざまな側面を最適化します。
  - モニタリングと分析を改善する:
    - タスクログの書き込みでは、タスクログを書き込むようにジョブの実行可能ファイルを構成する方法について説明します。タスクログを書き込むと、Cloud Logging にカスタム情報を表示できます。これにより、ジョブの分析とトラブルシューティングが容易になります。
    - カスタムステータスイベントの構成では、ジョブの実行可能ファイルのカスタムステータスイベントを構成する方法について説明します。カスタムステータスイベントを使用すると、実行可能ファイルで発生する重要なイベントを記述し、ジョブのステータスイベントの履歴を表示する際に表示されます。これにより、ジョブの分析とトラブルシューティングが容易になります。
    - ステータス通知を有効にするでは、ステータスに関する Pub/Sub 通知を送信するようにジョブを構成する方法について説明します。これにより、必要に応じて BigQuery テーブルに格納し、クエリできます。このドキュメントを読む前に、Pub/Sub 通知と BigQuery を使用してジョブのステータスをモニタリングするようにプロジェクトを構成します。
    - Ops エージェントの指標を有効にするでは、Ops エージェントを自動的にインストールするようにジョブを構成する方法について説明します。Ops エージェントは、ジョブのリソースのパフォーマンスと使用率に関する追加の指標を収集します。リソース指標の表示と使用の詳細については、指標を表示してジョブリソースをモニタリングして最適化するをご覧ください。
  - 依存関係のあるジョブをスケジュールする（プレビュー版）では、1 つ以上の既存の依存ジョブが成功または失敗するまで実行されないジョブを指定する方法について説明します。リソース要件が異なるワークロードがある場合は、需要の少ないオペレーション（データ準備など）とコンピューティング負荷の高いオペレーション（データ処理など）に使用する VM のタイプを分離することで、費用と割り当ての使用量を削減できます。
  - タスクの再試行を自動化するでは、すべてまたは指定した失敗後にジョブのタスクを自動的に再試行する方法を説明します。自動再試行によって、トラブルシューティングの摩擦や、一時的なエラーが発生するジョブに必要な全体的な実行時間を短縮できます。たとえば、Spot VM 上で実行されるジョブに対して自動再試行を使用します。これにより、大幅な割引がディスカウントが提供されますが、常に利用可能であるとは限らず、いつでもプリエンプトされます。
  - タイムアウトを使用して実行時間を制限するでは、タスクまたは実行可能ファイルの実行が許可される時間を制限する方法について説明します。実行時間が長くならないようにすることで、予期しない費用や遅延を減らすことができます。
  - VM 予約を使用してリソースの可用性を確保するでは、予約済み VM で実行できるジョブを構成する方法について説明します。予約済み VM を使用すると、ジョブのスケジューリング時間を最小限に抑え、リソースの可用性エラーを防ぎ、費用を最適化できます。
  - レイテンシの短縮:
    - VM を同じ場所に配置してレイテンシを減らすでは、VM を物理的に近い場所に配置することで、ジョブの VM 間のネットワークレイテンシを短縮する方法について説明します。このパフォーマンス上のメリットは、MPI ライブラリを使用して通信するタスクなど、VM 間で頻繁にネットワーク通信を行うジョブにおいて特に有効です。
    - イメージストリーミングを使用するでは、Artifact Registry からコンテナイメージをストリーミングしてジョブの起動時間を改善する方法について説明します。
追加のサービスを使用してジョブを作成して実行する:
- Workflows を使用したジョブのオーケストレーションでは、Workflows の構文を使用して定義した順序で、Workflows を使用しジョブのタスクを実行する方法を説明します。
- Nextflow を使用したジョブのオーケストレーションでは、Nextflow パイプラインを介して Batch ジョブを実行する方法を説明します。このパイプラインは、バイオインフォマティクスワークフローのオーケストレーションに使用できます。
- dsub を使用したジョブのオーケストレーションでは、dsub パイプラインを介して Batch ジョブを実行する方法を説明します。このパイプラインは、 Google Cloud サービスでのバッチ処理ワークフローのオーケストレーションに使用できます。
- Terraform と Cloud Scheduler を使用して Batch ジョブを作成して実行するでは、バッチBatch ジョブを Terraform に組み込む方法について説明しています。 Terraform により、構成ファイルで優先状態を指定することでインフラストラクチャをプロビジョニングして管理できます。この状態は、コードとして扱われ、GitHub のようなバージョン管理システムに保存できます。

次のステップ

ジョブ作成の基本を学習する。
1. オプション: サンプルジョブを作成して実行する。
2. 基本ジョブを作成して実行します。