处理 GPU 主机维护事件

GPU 实例无法进行实时迁移。您必须将 GPU 实例设置为在发生主机维护事件时终结。如果需要,您可以将已停止的实例设置为在维护事件完成后自动重启。通常,这些维护事件每月进行一次,但在必要时会更频繁。

如果您希望最大限度降低维护事件对您工作负载的干扰,您可以监控实例的维护计划,并准备好工作负载以便在系统重启时进行某种转换。

如需接收主机维护事件事先通知,请监控 /computeMetadata/v1/instance/maintenance-event 元数据值。如果对元数据服务器的请求返回 NONE,则表示该实例未安排停止。例如,从实例中运行以下命令:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

如果元数据服务器返回 TERMINATE_ON_HOST_MAINTENANCE,则表示您的实例已安排终结。GPU 实例会提前一小时收到来自 Compute Engine 的终结通知,而普通实例只会在终结前 60 秒收到通知。将应用配置为在维护事件期间进行某种转换。例如,您可以使用以下方法之一:

  • 将您的应用配置为暂时将进行中的工作转移到 Cloud Storage 存储分区,然后在实例重启后检索这些数据。

  • 将数据写入辅助永久性磁盘。当实例自动重启时,永久性磁盘可以重新挂接并且应用可以继续进行重启前的工作。

您也可以在不进行轮询的情况下,接收此元数据值的变更通知。如需获取有关如何在未进行轮询的情况下接收主机维护事件事先通知的示例,请参阅获取实时迁移通知

后续步骤