ホスト メンテナンス イベントを手動で開始する

このページでは、サポートされている TPU VM でホスト メンテナンス イベントを手動で開始する方法について説明します。これは、パフォーマンスの低下やダウンタイムの影響を受ける可能性のあるワークロードに役立ちます。このようなワークロードでは、メンテナンスの時間枠を特定の時間に開始する必要があります。

メンテナンス イベントを手動で開始すると、ホスト メンテナンス イベントはすぐに開始されます。メンテナンス イベントの開始日時を指定することはできません。この機能を使用しない場合、メンテナンス イベントは予定されているメンテナンスの通知に示されている時間に発生します。

GKE で TPU のメンテナンスを手動で開始する方法については、GPU と TPU の GKE ノードの中断を管理するをご覧ください。

制限事項

TPU v6e VM のホスト メンテナンス イベントを手動で開始できるのは、次の構成の場合のみです。

  • 2x4 トポロジ構成(Cloud TPU API でアクセラレータ タイプ フィールドを使用している場合は v6e-8)以上の TPU v6e VM
  • 2x4 以上の TPU v6e VM を使用する GKE マルチホスト ノードプール

大規模なスライスに対してホスト メンテナンスをすぐに開始すると、スライスが最大で数時間使用できなくなる可能性があります。通常、ホスト メンテナンス イベントが発生すると、スライスはできるだけ早く別の対象ホストセットに再スケジュールされますが、大規模なホスト メンテナンス イベント リクエストの場合、スライスをすぐに再スケジュールするのに十分な容量がない場合があり、待ち時間が長くなる可能性があります。

また、Cloud TPU スライスのメンテナンス開始により、基盤となるすべての TPU VM のメンテナンスが開始されます。Instances API を使用してインスタンスの 1 つで直接メンテナンスを行うと、Cloud TPU スライス内のすべてのインスタンスがメンテナンスに入ります。代わりに、queued-resources Cloud TPU API を使用して、メンテナンスを行うノードを指定する。

ホスト メンテナンス イベントを手動で開始する

メンテナンス通知を使用すると、TPU でメンテナンス イベントを手動で開始できるタイミングを判断できます。

通知情報を確認する

今後のメンテナンス イベントの通知を確認するには、Cloud TPU API を使用するか、VM のメタデータ サーバーにクエリを実行します。詳細については、メンテナンス通知を表示するをご覧ください。

TPU に今後のホストメンテナンス通知がある場合は、事前にメンテナンス イベントを開始できます。メンテナンス イベントを事前に開始するには、今後のホスト メンテナンス通知で canRescheduletrue に、maintenanceStatusPENDING に設定する必要があります。

メンテナンス イベントを開始する

ホスト メンテナンス イベントを開始するには、perform-maintenance コマンドを使用して Cloud TPU API を使用します。

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

オペレーションが完了すると、windowEndTime フィールドと windowStartTime フィールドはメンテナンス イベントを開始した時刻に変わり、maintenanceStatus フィールドは ONGOING に変わります。その後すぐにホスト メンテナンス イベントが開始されます。

gcloud alpha compute tpus tpu-vm describe コマンドを使用して、メンテナンス イベントのステータスを確認します。

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

出力には、次のようなセクションが含まれます。

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

TPU VM の状態が READY になり、gcloud alpha compute tpus tpu-vm describe コマンドの出力に upcomingMaintenance メタデータ フィールドが含まれなくなったら、メンテナンスは完了です。

マルチスライス環境では、次のコマンドを使用して、特定のスライスでホスト メンテナンス イベントを手動で開始できます。

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES は、キューに登録されているリソース内のスライス(ノード)のカンマ区切りリストです。このリストのホスト メンテナンス イベントを開始します。たとえば、キューに登録されているリソースに my-qr-0, my-qr-1 という名前のノードと my-qr-2 という名前のノードがある場合、perform-maintenance コマンドの有効な入力は --node-names=my-qr-0,my-qr-1 です。

次のステップ