GPU ホスト メンテナンス イベントの処理

GPU インスタンスのライブ マイグレーションはできません。ホスト メンテナンス イベントの際は終了するように GPU インスタンスを設定する必要があります。必要に応じて、終了したインスタンスをメンテナンス イベントの完了後に自動的に再起動するように設定できます。これらのメンテナンス イベントは、通常、月に 1 回実行しますが、必要に応じて頻繁に実行することもできます。

メンテナンス イベント中のワークロードの中断を最小限に抑えるために、インスタンスのメンテナンス スケジュールをモニタリングし、システムの再起動でワークロードを移行する準備を整えることができます。

ホスト メンテナンス イベントについて事前に通知を受け取るようにするには、/computeMetadata/v1/instance/maintenance-event メタデータ値をモニタリングします。メタデータ サーバーに対するリクエストが NONE を返す場合、インスタンスは終了するようにスケジュールされていません。たとえば、インスタンス内から次のコマンドを実行します。

    curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

    NONE

メタデータ サーバーから TERMINATE_ON_HOST_MAINTENANCE が返された場合、インスタンスの終了スケジュールが設定されています。Compute Engine は GPU インスタンスに 1 時間の終了通知を送信します。一方、通常のインスタンスは 60 秒の通知のみを受け取ります。メンテナンス イベントを通じて移行するようにアプリケーションを構成します。たとえば、次のいずれかの方法を使用できます。

  • 進行中の作業を Cloud Storage バケットに一時的に移動するようにアプリケーションを構成し、インスタンスの再起動後にそのデータを取り出します。

  • セカンダリ永続ディスクにデータを書き込みます。インスタンスが自動再起動した時点で、永続ディスクを再接続してアプリケーションを再開できます。

ポーリングなしでこのメタデータ値の変更についての通知を受け取ることもできます。ポーリングなしでホスト メンテナンス イベントの高度な通知を受け取る方法の例については、ライブ マイグレーションの通知取得をお読みください。

次のステップ