GPU ホストイベントの処理

GPU がアタッチされている VM をライブマイグレーションすることはできません。これらの VM については、ホストイベントの際は停止するように設定する必要があります。必要に応じて、停止した VM をメンテナンスイベントの完了後に自動的に再起動するように設定できます。Compute Engine のホストメンテナンスイベントは 2 週間に 1 回の頻度で発生しますが、これより頻繁に行われる場合もあります。

メンテナンスイベント中のワークロードの中断を最小限に抑えるために、仮想マシン（VM）インスタンスのメンテナンススケジュールをモニタリングし、システムの再起動によってワークロードを移行する準備を整えることができます。

ホストイベントについて事前に通知を受け取るようにするには、/computeMetadata/v1/instance/maintenance-event メタデータ値をモニタリングします。メタデータサーバーに対するリクエストによって NONE が返された場合、VM は停止するようにスケジュールされていません。たとえば、VM 内から次のコマンドを実行します。

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

メタデータサーバーから TERMINATE_ON_HOST_MAINTENANCE が返された場合、VM の停止スケジュールが設定されています。Compute Engine は GPU VM に 1 時間の停止通知を送信します。一方、通常のインスタンスが受け取るのは 60 秒の通知のみです。メンテナンスイベントを通じて移行するようにアプリケーションを構成します。たとえば、次のいずれかの方法を使用できます。

進行中の作業を Cloud Storage バケットに一時的に移動するようにアプリケーションを構成し、VM の再起動後にそのデータを取り出します。
セカンダリ永続ディスクにデータを書き込みます。VM が自動再起動した時点で、永続ディスクを再度アタッチしてアプリケーションで作業を再開できます。

次のステップ

GPU プラットフォームの詳細を学習する。
VM のグループの管理とスケーリングの詳細については、グループのターゲットサイズを設定するをご覧ください。
GPU のパフォーマンスをモニタリングするには、GPU パフォーマンスのモニタリングをご覧ください。
ネットワークパフォーマンスを改善するには、より高いネットワーク帯域幅を使用するをご覧ください。
VM のシャットダウンと再起動のトラブルシューティングの方法を確認する。