处理 GPU 主机事件

挂接 GPU 的虚拟机无法实时迁移。必须将这些虚拟机设置为因主机事件而停止。如果需要，您可以将已停止的虚拟机设置为在维护事件完成后自动重启。在 Compute Engine 上，主机维护事件的频率为每两周一次，但有时候频率可能会更高。

如果您希望最大限度降低维护事件对您工作负载的干扰，您可以监控虚拟机 (VM) 实例的维护计划，并准备好工作负载以便在系统重启时进行某种转换。

如需接收主机事件事先通知，请监控 /computeMetadata/v1/instance/maintenance-event 元数据值。如果对元数据服务器的请求返回 NONE，则表示虚拟机未安排终结。例如，从虚拟机运行以下命令：

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

如果元数据服务器返回 TERMINATE_ON_HOST_MAINTENANCE，则表示您的虚拟机已安排终结。GPU 虚拟机会提前一小时收到来自 Compute Engine 的终结通知，而普通虚拟机只会在终结前 60 秒收到通知。将应用配置为在维护事件期间进行某种转换。例如，您可以使用以下方法之一：

将您的应用配置为暂时将进行中的工作转移到 Cloud Storage 存储桶，然后在虚拟机重启后检索这些数据。
将数据写入辅助永久性磁盘。当虚拟机自动重启时，永久性磁盘可以重新附加并且应用可以继续进行重启前的工作。

后续步骤

详细了解 GPU 平台。
如需详细了解如何管理和扩缩虚拟机组，请参阅设置虚拟机组的目标大小。
如需监控 GPU 性能，请参阅监控 GPU 性能。
如需提升网络性能，请参阅使用更高的网络带宽。
了解如何排查虚拟机关闭和重新启动问题。