GPU ホストメンテナンスイベントを処理する

Compute Engine が画像処理装置（GPU）が接続されている仮想マシン（VM）でメンテナンスを実行する場合、VM を停止する必要があります。これは、GPU が接続された VM をライブマイグレーションできないためです。

これらの VM については、ホストメンテナンスイベントの際に停止するよう設定する必要があります。停止した VM をメンテナンスイベントの完了後に自動的に再起動するように設定できます。

ホストメンテナンスイベントは通常 2 週間に 1 回発生しますが、これより頻繁に行われる場合もあります。

このドキュメントでは、メンテナンスイベント中のワークロードの中断を最小限に抑える方法について説明します。

メンテナンスイベントの前に事前通知を受け取る

仮想マシン（VM）インスタンスのメンテナンススケジュールをモニタリングし、システムの再起動でワークロードの移行準備を整えることができます。

ホストイベントについて事前に通知を受け取るようにするには、/computeMetadata/v1/instance/maintenance-event メタデータ値をモニタリングします。メタデータサーバーに対するリクエストによって NONE が返された場合、VM は停止するようにスケジュールされていません。たとえば、VM 内から次のコマンドを実行します。

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

メタデータサーバーから TERMINATE_ON_HOST_MAINTENANCE が返された場合、VM の停止スケジュールが設定されています。Compute Engine は GPU VM に 1 時間の停止通知を送信します。一方、通常のインスタンスが受け取るのは 60 秒の通知のみです。メンテナンスイベントを通じて移行するようにアプリケーションを構成します。たとえば、次のいずれかの方法を使用できます。

進行中の作業を Cloud Storage バケットに一時的に移動するようにアプリケーションを構成し、VM の再起動後にそのデータを取り出します。
セカンダリ Persistent Disk にデータを書き込みます。VM が自動再起動した時点で Persistent Disk を再度アタッチし、アプリケーションで作業を再開できます。

次のステップ

GPU プラットフォームの詳細を学習する。
VM のグループの管理とスケーリングの詳細については、グループのターゲットサイズを設定するをご覧ください。
GPU のパフォーマンスをモニタリングする。GPU パフォーマンスのモニタリングをご覧ください。
ネットワークパフォーマンスを改善するには、より高いネットワーク帯域幅を使用するをご覧ください。
VM のシャットダウンと再起動のトラブルシューティングの方法を確認する。

GPU ホスト メンテナンス イベントを処理する

メンテナンス イベントの前に事前通知を受け取る

次のステップ

GPU ホストメンテナンスイベントを処理する

メンテナンスイベントの前に事前通知を受け取る