排查单租户问题


本页面介绍如何排查使用单租户节点时可能发生的一些潜在问题。

节点组大小限制

  • 问题:节点组的大小上限为 100。

    • 解决方案:创建多个节点组,并为每个节点组使用相同的亲和性标签。然后,在这些节点组上调度虚拟机时,请使用分配给节点组的亲和性标签。

虚拟机调度失败

  • 问题:无法在单租户节点上调度虚拟机。

    • 解决方案

      • 如果地区中没有与虚拟机的亲和性或反亲和性规范匹配的节点,则无法调度单租户虚拟机。检查您指定的亲和性标签是否正确无误。此外,请确保您没有指定任何有冲突的亲和性标签。

      • 如果您要使用“就地重启”维护政策,请检查虚拟机的 OnHostMaintenance 设置是否设置为 terminate

      • 如果您要使用“在节点组内迁移”维护政策,请检查您是否是在节点组中(而不是特定节点上)或使用亲和性标签来调度虚拟机。

      • 检查指定的节点名称是否与该区域中的某个节点名称一致。

      • 检查指定的节点名称是否与该区域中的某个节点组名称一致。

      • 如果虚拟机的满足最低要求的 CPU 平台 (--min-cpu-platform) 设置为 AUTOMATIC 以外的任何值,那么您无法调度单租户虚拟机。

虚拟机租用

自动扩缩节点组

  • 问题:无法启用节点组自动扩缩器。

    • 解决方案:只有在将节点组维护政策设置为默认维护政策时,才能启用节点组自动扩缩器。
  • 问题:想要保留使用“在节点组内迁移”维护政策的已预留节点。

    • 解决方案:使用在节点组内迁移维护政策时,请将节点组的自动扩缩器设置为仅横向扩容,这样系统会在需要额外的容量时将节点添加到节点组。
  • 问题:该地区没有剩余的 CPU 配额。

    • 解决方案:如果该地区的剩余 CPU 配额、实例组中的节点数已达到允许的最大数量,或者出现了结算问题,则自动扩缩可能会失败。根据错误情况,您可能需要请求增加 CPU 配额或创建新的单租户节点组。

自带许可 (BYOL)

  • 问题:配置“就地重启”维护政策。

    • 解决方案:如果使用“就地重启”维护政策,请将虚拟机的 OnHostMaintenanceSetting 设置为 terminate
  • 问题:在使用“在节点组内迁移”维护政策的节点上调度虚拟机。

    • 解决方案

      • 将虚拟机调度到节点组中,而不是在特定节点上或使用自定义亲和性标签进行调度。

      • 创建 2 个节点并启用自动扩缩器;否则,如果您创建了大小为 1 的节点组,则该节点会被预留以供备用。

容量问题

  • 问题:节点或节点组中的容量不足。

    • 解决方案

      • 如果您将虚拟机重新调度到并行调度虚拟机的节点上,则极少会出现可能没有容量的情况。

      • 如果您将虚拟机重新调度到未启用自动扩缩功能的节点组中的节点上,则可能发生没有容量的情况。

      • 如果您将虚拟机重新调度到已启用自动扩缩功能但已超过 CPU 配额的节点组中的节点上,则可能会发生没有容量的情况。

CPU 过度使用

  • 问题:当您设置最小 CPU 数量值时,收到一条错误消息,指示您未指定任何单租户节点组:

    Invalid value for field 'resource.scheduling.minNodeCpus': '2'. Node virtual
    CPU count may only be specified for sole-tenant instances.
    
    • 解决方案:设置最小 CPU 数量的值时,请指定单租户节点组
  • 问题:收到一条错误消息,指示节点上所有单租户虚拟机的最小 CPU 数量总和大于该节点类型的 CPU 容量。

    Node virtual CPU count must not be greater than the guest virtual CPU count.
    
    No feasible nodes found for the instance given its node affinities and other
    constraints.
    
    • 解决方案:指定每个虚拟机的最小 CPU 数量值,使所有虚拟机的总数量不超过单租户节点类型指定的 CPU 数量。
  • 问题:收到一条错误消息,指示该节点上所有虚拟机的机器类型指定的 CPU 总数大于为节点上的所有虚拟机指定的最小 CPU 数量的两倍。

    Guest virtual CPU count must not be greater than [~2.0] times the node
    virtual CPU count.
    
    • 解决方案:增大此节点上虚拟机的最小 CPU 数量值,直到最小 CPU 数量总和大于或等于由机器类型确定的 CPU 总数值。
  • 问题:收到一条错误消息,指示最小 CPU 数量值不是大于或等于 2 的偶数。

    Invalid value for field 'resource.scheduling.minNodeCpus': '3'. Node virtual
    CPU count must be even.
    
    • 解决方案:请指定最小 CPU 数量的值,即大于或等于 2 的偶数。

GPU

  • 问题:表示由于节点属性不兼容而导致实例创建失败的错误。

    Instance could not be scheduled due to no matching node with property compatibility.
    

后续步骤