关于主机事件

Linux Windows

在虚拟机 (VM) 实例或裸金属实例的生命周期内，您的实例运行的宿主机可能会经历多种主机事件。主机事件可能包括 Compute Engine 基础设施的定期维护，或极少数情况下的主机错误。您可以通过配置主机维护政策，选择虚拟机和裸金属实例在主机事件期间或之后的响应方式。

默认情况下，大多数实例在主机事件期间被设置为实时迁移。对于除 Z3 以外的所有机器系列，您可以覆盖此行为，将实例显式设置为终止，并可选择重启。某些机器类型不支持实时迁移，例如裸金属实例、挂接了 GPU 的实例或挂接了超过 18 TiB Titanium SSD 的 Z3 实例。这些实例会在主机事件期间终止。如需了解详情，请参阅维护和重启行为。

主机事件类型

主机事件分为两种类型，具体说明见下文：

维护事件
主机错误

如果实例无响应，这也可能会触发实例重启或终止。

维护事件

维护事件是指 Compute Engine 必须执行需将虚拟机移出主机服务器的维护或修复活动。如果您为受支持的实例类型启用实时迁移主机维护政策，Compute Engine 会将实例迁移到新主机，您的应用几乎不会中断。

Compute Engine 还会在后台应用一些轻量级 Hypervisor 和网络升级，并在同一主机上保留实例，且不中断服务。

维护事件期间的实例行为可能会因实例租用和机器类型而异。您可以在相应机器家族页面上找到每种机器类型的维护行为信息，如下所示：

C2 系列：
- C2 和 C2D：计算优化机器家族
- 所有其他 C 系列：通用机器家族
E、N 和 T 系列：通用机器家族
H 系列：计算优化机器家族
M 系列和 X 系列：内存优化机器家族
Z 系列：存储优化机器家族

如需了解有关挂接了 GPU 的实例的维护政策，请参阅处理 GPU 主机维护事件。

对于单租户虚拟机，计划主机维护事件的大概频率为每 4 到 6 周一次。是否支持实时迁移取决于单租户虚拟机的主机维护政策。

主机错误

主机错误 (compute.instances.hostError) 表示托管计算实例的物理机或数据中心基础设施出现硬件或软件问题，导致实例崩溃。如果主机错误涉及彻底的硬件故障或其他硬件问题，可能会阻止实例实时迁移。如果您的实例设置为自动重启（这是默认设置），Compute Engine 会在检测到错误后的 3 分钟内重启您的实例。重启可能最多需要 5.5 分钟，具体取决于问题。

有时，计算实例可能会在主机错误信号发出之前无响应。您可以通过设置主机错误恢复超时时长，缩短 Compute Engine 等待重启或终止实例的时间。如需了解详情，请参阅设置可用性政策。

物理硬件故障和软件故障可能会不时发生，但这种情况很少见。为了保护您的应用和服务免受这些可能具有中断性的系统事件的影响，请查看以下资源：

Google 还提供 App Engine 等代管式服务以及 App Engine 柔性环境。

主机维护政策概览

实例的主机维护政策决定它在以下主机事件期间的行为：

维护事件
主机错误事件或实例未响应

您可以将实例配置为在主机维护期间继续运行，由 Compute Engine 实时迁移到其他主机，或选择停止实例。

您可以通过配置以下设置来更改实例的主机维护政策：

维护行为：发生维护事件时，实例是被实时迁移还是停止。
重启行为：当实例崩溃、遇到主机错误或无响应时，Compute Engine 是重启还是终止该实例。
主机错误检测时间：Compute Engine 在检测到实例无响应后，等待重启或终止的最长时长。
本地 SSD 恢复时间：Compute Engine 在检测到主机错误后恢复本地 SSD 磁盘上的数据所用的最长时间。如果在指定时间内未成功恢复，本地 SSD 数据将丢失。

您可以随时更新实例的主机维护政策，以控制其实例行为。

维护和重启行为

发生主机事件时，计算实例可以选择实时迁移或被终止。如果实例被终止，您可以选择自行重启，或让 Compute Engine 自动重启。

以下机器系列可能不支持实时迁移，而是在主机事件期间需要终止：

Z3（包括 Z3-metal）和 X4 实例会就地重启。
裸金属实例会终止并重启，这意味着它们可能会在其他主机上重启。如需了解详情，请参阅相应机器系列的“维护体验”文档。例如，对于 C3 裸金属机器类型，请参阅 C3 实例的维护体验。
机密虚拟机实例，但使用运行 AMD SEV 的 AMD EPYC Milan CPU 平台的 N2D 机器类型除外。
配备 GPU 的实例
配备 TPU 的实例

实时迁移

默认情况下，大多数实例类型均设置为实时迁移，但上一部分中提到的实例类型除外。

在实时迁移期间，Compute Engine 会自动迁移您的实例以使其不受基础架构维护事件影响，并且您的实例在迁移过程中仍会保持运行状态。实例可能会遭遇短暂的性能下降情况，但一般而言，大多数实例的性能应该不会有显著差异。这非常适合那些需要维持正常运行时间并且能够承受短暂性能下降的实例。

Compute Engine 迁移实例时，会报告一个系统事件，而该事件会发布到地区操作列表和系统事件日志。您可以通过查看特定可用区的 Compute Engine 操作来检查此事件。实时迁移事件的操作类型如下：

compute.instances.migrateOnHostMaintenance

终止并重新启动

如果您不希望实时迁移实例，或者您的实例类型不支持实时迁移，则可以改为选择在发生主机事件时允许Google Cloud 停止实例。使用此配置时，如果发生主机事件，Compute Engine 会发送软关闭电源信号以关停实例。然后，它会等待 60 秒让实例完全关停，并将实例状态设置为 TERMINATED。如果实例未在 60 秒内完全关停，它会被强制终止。

如果您的实例需要持续保持最高性能，并且您的整个应用设计为可应对实例故障或重启，则此选项非常适用。

Compute Engine 因主机事件而停止实例时，会报告一个系统事件，而该事件会发布到地区操作列表和系统事件日志。您可以通过查看特定可用区的 Compute Engine 操作来检查此事件。实例终止事件的操作类型如下：

compute.instances.terminateOnHostMaintenance

自动重启

如果实例配置为在发生维护事件时停止，或者由于底层硬件问题导致实例崩溃，Compute Engine 可以自动重启实例。系统会在同一主机服务器上重启实例，或将其迁移到同一可用区中未参与维护事件的其他服务器。

默认情况下，Compute Engine 会尝试恢复具有已挂接本地 SSD 磁盘的实例一小时。如果达到时间限制，Compute Engine 会尝试在同一可用区中的其他主机服务器上重启实例。 Z3 和 X4 实例的默认等待时间不同。这些实例类型在实例终止后会在同一主机服务器上重启。

如需配置自动重启，请将主机维护政策字段 automaticRestart 设置为 true。如果实例因可用区服务中断或手动操作（例如在客机操作系统中调用 sudo shutdown）而离线，则此设置不适用。

Compute Engine 自动重启实例时，会报告一个系统事件，而该事件会发布到地区操作列表。您可以通过查看特定可用区的 Compute Engine 操作来检查此事件。自动重启事件的操作类型如下：

compute.instances.automaticRestart

实例终止后磁盘是否保留

由于 Persistent Disk 和Hyperdisk 是网络附加存储，因此当实例重启时，Compute Engine 会将启动磁盘和所有辅助磁盘重新连接到实例。这些磁盘中的数据在实时迁移和实例重启后会继续保留。

Compute Engine 会在主机事件发生后尽可能保留本地 SSD 磁盘上的数据。不过，Compute Engine 不保证本地 SSD 数据的持久性。

在以下情况下，系统会保留本地 SSD 磁盘：
- 将实例配置为实时迁移，且实例经历主机维护事件。
- 发生主机错误，并且 Compute Engine 在超时限制时间内将实例重新连接到本地 SSD 磁盘。
- 计算实例挂接了仅支持终止和自动重启的本地 SSD 磁盘，并经历了维护事件。实例就地重启，保留本地 SSD 数据，而不是迁移到新主机。
在以下情况下，系统不会保留本地 SSD 磁盘：
- 关闭客机操作系统并强制停止实例。
- 将实例配置为在发生主机维护事件时停止，并且该实例经历主机维护事件。
- 发生主机错误，并且 Compute Engine 无法在超时之前将磁盘重新连接到实例。在这种情况下，系统会重新启动实例，但不会恢复本地 SSD 磁盘。实例重启后，Compute Engine 会将空白本地 SSD 磁盘挂接到重启的实例。您必须先格式化并装载这些磁盘，实例才能使用它们。原始本地 SSD 磁盘上的数据不可恢复。

Google Cloud 会尽力确保本地 SSD 数据保持完整。但是，在某些情况下（例如超时），无法恢复数据。如需详细了解何时保留本地 SSD 磁盘，请参阅本地 SSD 数据持久性。

本地 SSD 恢复超时

发生主机错误时，Compute Engine 会尝试恢复挂接到实例的任何本地 SSD 磁盘。您可以使用主机政策 localSsdRecoveryTimeout 设置来控制 Compute Engine 尝试恢复数据所用的时间。

默认情况下，Compute Engine 使用 1 小时来恢复数据，但此设置的有效值介于 0 到 168 之间（以 1 小时为增量）。对于 Z3 实例，默认值为 6，表示 Z3 实例将在达到超时限制之前，最多尝试恢复本地 SSD 数据 6 小时。

如果您将本地 SSD 恢复超时设置为 0，则 Compute Engine 不会尝试恢复任何已挂接的本地 SSD 磁盘。系统会尽快重启实例，并且本地 SSD 数据不可恢复。如果恢复工作负载比恢复本地 SSD 数据更重要，请使用此配置。

如果恢复超时时间未设置为 0，但在本地 SSD 数据恢复之前就达到了时间限制，则 Compute Engine 会重启没有本地 SSD 磁盘的实例。Compute Engine 会将新的空白本地 SSD 磁盘挂接到重启的实例。您必须先格式化并装载这些磁盘，实例才能使用它们。

在 Compute Engine 尝试恢复本地 SSD 磁盘时，实例处于 REPAIRING 状态。在此期间，实例和本地 SSD 磁盘不可用。

如果您将本地 SSD 恢复超时设置为最大值 168，则在 Compute Engine 尝试恢复本地 SSD 磁盘期间，实例会保持在 REPAIRING 状态，最长可达 7 天。

停止本地 SSD 磁盘恢复

您可以在 Compute Engine 达到恢复超时限制之前中断本地 SSD 磁盘恢复过程。为此，请在 gcloud compute instances stop 命令中使用 --discard-local-ssd=True 标志。

此命令会停止恢复过程、停止计算实例并舍弃本地 SSD 数据。然后，您可以重启实例。如需了解详情，请参阅停止具有本地 SSD 的实例。

如需设置本地 SSD 恢复超时，请参阅设置实例主机维护政策。

维护调度

Google Cloud 提供了可让您更严格地控制维护的功能。通过使用特定机器系列，您可以指定维护偏好设置，并通过 Cloud Logging、实例的元数据服务器、gcloud CLI compute instances describe 命令或 REST instances.describe 方法接收即将进行的维护事件的通知。收到通知后，您有一定时间可以自行选择何时开始预定维护。如果您不触发预定维护，则维护事件会在通知时段结束时发生，即通知中列出的预定时间。

您可以将这些功能与主机维护政策结合使用，以自定义满足您的工作负载需求的维护时间表。

后续步骤

详细了解实时迁移。
详细了解如何设置实例主机维护政策。
详细了解如何获取实时迁移通知。
详细了解如何模拟主机维护。
详细了解如何处理 GPU 主机维护事件。
详细了解如何手动实时迁移单租户虚拟机。