ホスト メンテナンス イベントを手動で開始する
このページでは、サポートされている TPU VM でホスト メンテナンス イベントを手動で開始する方法について説明します。これは、パフォーマンスの低下やダウンタイムの影響を受ける可能性のあるワークロードに役立ちます。このようなワークロードでは、メンテナンスの時間枠を特定の時間に開始する必要があります。
メンテナンス イベントを手動で開始すると、ホスト メンテナンス イベントはすぐに開始されます。メンテナンス イベントの開始日時を指定することはできません。この機能を使用しない場合、メンテナンス イベントは予定されているメンテナンスの通知に示されている時間に発生します。
GKE で TPU のメンテナンスを手動で開始する方法については、GPU と TPU の GKE ノードの中断を管理するをご覧ください。
制限事項
TPU v6e VM のホスト メンテナンス イベントを手動で開始できるのは、次の構成の場合のみです。
2x4
トポロジ構成(Cloud TPU API でアクセラレータ タイプ フィールドを使用している場合はv6e-8
)以上の TPU v6e VM2x4
以上の TPU v6e VM を使用する GKE マルチホスト ノードプール
大規模なスライスに対してホスト メンテナンスをすぐに開始すると、スライスが最大で数時間使用できなくなる可能性があります。通常、ホスト メンテナンス イベントが発生すると、スライスはできるだけ早く別の対象ホストセットに再スケジュールされますが、大規模なホスト メンテナンス イベント リクエストの場合、スライスをすぐに再スケジュールするのに十分な容量がない場合があり、待ち時間が長くなる可能性があります。
また、Cloud TPU スライスのメンテナンス開始により、基盤となるすべての TPU VM のメンテナンスが開始されます。Instances API を使用してインスタンスの 1 つで直接メンテナンスを行うと、Cloud TPU スライス内のすべてのインスタンスがメンテナンスに入ります。代わりに、queued-resources
Cloud TPU API を使用して、メンテナンスを行うノードを指定する。
ホスト メンテナンス イベントを手動で開始する
メンテナンス通知を使用すると、TPU でメンテナンス イベントを手動で開始できるタイミングを判断できます。
通知情報を確認する
今後のメンテナンス イベントの通知を確認するには、Cloud TPU API を使用するか、VM のメタデータ サーバーにクエリを実行します。詳細については、メンテナンス通知を表示するをご覧ください。
TPU に今後のホストメンテナンス通知がある場合は、事前にメンテナンス イベントを開始できます。メンテナンス イベントを事前に開始するには、今後のホスト メンテナンス通知で canReschedule
を true
に、maintenanceStatus
を PENDING
に設定する必要があります。
メンテナンス イベントを開始する
ホスト メンテナンス イベントを開始するには、perform-maintenance
コマンドを使用して Cloud TPU API を使用します。
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
オペレーションが完了すると、windowEndTime
フィールドと windowStartTime
フィールドはメンテナンス イベントを開始した時刻に変わり、maintenanceStatus
フィールドは ONGOING
に変わります。その後すぐにホスト メンテナンス イベントが開始されます。
gcloud alpha compute tpus tpu-vm describe
コマンドを使用して、メンテナンス イベントのステータスを確認します。
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
出力には、次のようなセクションが含まれます。
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
TPU VM の状態が READY
になり、gcloud alpha compute tpus tpu-vm describe
コマンドの出力に upcomingMaintenance
メタデータ フィールドが含まれなくなったら、メンテナンスは完了です。
マルチスライス環境では、次のコマンドを使用して、特定のスライスでホスト メンテナンス イベントを手動で開始できます。
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
は、キューに登録されているリソース内のスライス(ノード)のカンマ区切りリストです。このリストのホスト メンテナンス イベントを開始します。たとえば、キューに登録されているリソースに my-qr-0, my-qr-1
という名前のノードと my-qr-2
という名前のノードがある場合、perform-maintenance
コマンドの有効な入力は --node-names=my-qr-0,my-qr-1
です。