使用虚拟机预留确保资源可用性

本文档介绍了如何创建在预留资源上运行的作业,以及如何阻止作业使用预留资源。

预留是 Compute Engine 的一项功能。预留为获取具有指定硬件配置的一个或多个虚拟机的容量提供了极高保障。虚拟机预留会从您创建预留到删除预留期间产生该虚拟机的费用。不过,在您使用该虚拟机期间,总费用与未预订的虚拟机相同。

通常,当容量可用性至关重要或需要防止获取资源时,预留非常有用。具体而言,对于批处理作业,请考虑使用专用预留来帮助最大限度地缩短作业调度时间,或者尝试在现有预留未被使用时使用这些预留。如果您有未充分利用的预留(例如承诺使用折扣所需的预留),可以配置作业,以便在预留未被使用时尝试消耗它们,从而帮助优化您所产生的费用。或者,如果您想优先考虑项目中其他工作负载的资源可用性,可以明确禁止作业消耗预留资源。

如需详细了解预留,请参阅 Compute Engine 预留文档

准备工作

  1. 如果您之前未使用过批处理功能,请参阅开始使用批处理,并完成适用于项目和用户的前提条件,以启用批处理功能。
  2. 确保您有权创建预留查看现有预留,以便作业的虚拟机根据需要使用这些预留。
  3. 如需获得创建作业所需的权限,请让您的管理员为您授予以下 IAM 角色:

    如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

限制

除了预订的一般限制之外,批量预订还具有以下限制:

  • 作业的虚拟机无法使用共享预留。
  • 如果作业的虚拟机或预留指定了紧凑布置政策,则无法使用预留。
  • 如果您使用 Google Cloud 控制台创建作业,其虚拟机会自动消耗匹配的预订。如需使用特定的预留或阻止虚拟机使用预留,您必须改为使用 gcloud CLI 或批处理 API 创建作业时定义 reservation 字段。

使用要求

本部分总结了作业虚拟机使用预订的相关要求。如需详细了解所有要求,请参阅 Compute Engine 文档中的预留的一般要求,以及本文档后面的配置规划流程

  • 为了让作业的虚拟机通常能够使用预留,必须满足以下所有条件:

    • 作业和预留必须指定完全匹配的虚拟机属性。

    • 您必须遵守本文档中的所有限制以及预订的所有其他一般要求。

  • 为了让作业的每个虚拟机都能成功使用预留,该预留在虚拟机运行期间必须有未使用的容量可用。

    预留的未用容量是其虚拟机数量与当前使用该预留的虚拟机数量之间的差值。每当您有未使用的预留容量时,虚拟机都会尝试使用预留。因此,虚拟机可以在创建时或运行期间开始使用预留。虚拟机在停止运行或预留被删除之前,不会停止使用预留。

    根据未使用的预留容量总数,作业的虚拟机可能全部或部分不使用预留,并且预留的虚拟机数量可能会在作业的运行期间发生变化。

创建和运行可使用预留虚拟机的作业

  1. 规划配置。 为确保您的作业和预订兼容,请完成以下步骤。

    如果您想使用现有的预留,则必须创建具有相应配置的作业。否则,如果您打算创建新的预订,请选择您偏好的配置选项。

    1. 确定预订属性。受限制条件的约束,共享类型必须为单项目,这是预留的默认选项。确定要为以下预订属性使用的值:

      • 消耗类型*
      • 虚拟机数量

      *预留的使用类型明确定位自动使用)决定了哪些虚拟机可以使用该预留。

      虚拟机数量表示预留的总容量。确定此值时,请考虑作业的虚拟机数量

    2. 确定作业和预留的虚拟机属性。 受这些限制的影响,作业和预留都无法指定紧凑布置政策,而紧凑布置政策是预留和作业的默认选项。确定要为以下虚拟机属性使用的值,这些值必须与预留和作业完全匹配

      • 项目
      • 可用区*
      • 机器类型
      • 满足最低要求的 CPU 平台(如果有
      • GPU 类型和数量(如果有
      • 本地 SSD 类型和数量(如果有
      • 预留亲和性#

      *作业虚拟机必须与预留的虚拟机位于同一可用区。您必须在作业的 allowedLocations[] 字段中添加此区域,或者(如果省略 allowedLocations[] 字段)将作业的地理位置设置为包含此区域的区域。

      作业必须使用 policy 子字段或虚拟机实例模板定义所有这些属性。作业无法指定 policy 子字段和模板的组合。

      您不能为一个资源定义可选字段,而从另一个资源中省略该字段。为预订和作业定义或省略可选字段。如果作业指定了虚拟机实例模板,则此规则也适用于指定模板的字段。

      #预留的使用类型决定了作业的虚拟机所需的预留亲和性,您必须在作业中按如下方式指定此亲和性:

      • 如果作业使用的是虚拟机实例模板,则该模板需要按照预留文档中的说明配置预留亲和性
      • 如果作业未使用模板,并且预订有特定定位条件,请在作业的 reservation 字段中指定预订的名称。
      • 否则,如果作业未使用模板且预留会自动消耗,请省略作业的 reservation 字段。
  2. 准备预订。创建您希望作业的虚拟机使用的预留(如果尚未创建)。确保预订包含您计划的房源。

  3. 创建并运行作业。您可以使用 gcloud CLI 或 Batch API 创建和运行作业,以使用预备的预留中的虚拟机:

    gcloud

    1. 创建一个 JSON 文件,用于指定作业的配置详细信息,以将虚拟机实例资源 (instances[]) 子字段设置为与预订的虚拟机属性完全匹配。

      例如,若要创建一个从预订中消耗虚拟机的基本脚本作业,请创建一个包含以下内容的 JSON 文件:

      {
        "taskGroups": [
          {
            "taskSpec": {
              "runnables": [
                {
                  "script": {
                    "text": "echo Hello world from task ${BATCH_TASK_INDEX}"
                  }
                }
              ]
            },
            "taskCount": 3
          }
        ],
        "allocationPolicy": {
          "instances": [
            {
              VM_RESOURCES
            }
          ],
        },
        "logsPolicy": {
          "destination": "CLOUD_LOGGING"
        }
      }
      

      通过指定您在上一步骤中规划的 instances[] 子字段,将 VM_RESOURCES 替换为与您希望作业使用的预留资源匹配的虚拟机资源。

      例如,从以下 VM_RESOURCES 值开始:

      "installGpuDrivers": INSTALL_GPU_DRIVERS,
      "policy": {
        "machineType": "MACHINE_TYPE",
        "minCpuPlatform": "MIN_CPU_PLATFORM",
        "accelerators": [
          {
            "type": "GPU_TYPE",
            "count": GPU_COUNT
          }
        ],
        "disks": [
          {
            "newDisk": {
              "sizeGb": LOCAL_SSD_SIZE,
              "type": "local-ssd"
            },
            "deviceName": "LOCAL_SSD_NAME"
          }
        ],
        "reservation": "SPECIFIC_RESERVATION_NAME"
      }
      

      如需使用此值,请进行以下所有更改:

      1. 您是否要使用实例模板?

        • :将 policy 字段替换为 instanceTemplate 字段,然后指定与预订匹配的现有虚拟机实例模板。例如,请参阅使用虚拟机实例模板的代码示例。如果预订使用 GPU 或本地 SSD,您还需要分别配置作业的 installGpuDrivers 字段和 volumes[] 字段。否则,请跳过其余更改。

        • :将 MACHINE_TYPE 替换为与预订相同的机器类型。

      2. 预订是否包含满足最低要求的 CPU 平台?

        • :将 MIN_CPU_PLATFORM 替换为相同的最低要求 CPU 平台。

        • :移除 minCpuPlatform 字段。

      3. 预订是否包含 GPU?

        • :替换 INSTALL_GPU_DRIVERSGPU_TYPEGPU_COUNT,以匹配预订。例如,请参阅使用 GPU 的代码示例。

        • :移除 installGpuDrivers 字段和 accelerators[] 字段。

      4. 预订是否包含本地 SSD?

        • :替换 LOCAL_SSD_SIZELOCAL_SSD_NAME 以匹配预留,并通过向作业添加 volumes[] 字段来挂载本地 SSD。例如,请参阅使用本地 SSD 的代码示例。

        • :移除 disks[] 字段。

      5. 预留是否使用了特定的使用类型?

        • :将 SPECIFIC_RESERVATION_NAME 替换为预订的名称。

        • :移除 reservation 字段。

      例如,假设您为 n2-standard-32 虚拟机使用自动消耗的预留,该预留未指定任何满足最低要求的 CPU 平台、GPU 或本地 SSD。此外,您不想指定虚拟机实例模板。在这种情况下,您必须将 VM_RESOURCES 替换为以下值:

      "policy": {
        "machineType": "n2-standard-32"
      }
      
    2. 如需创建和运行作业,请使用 gcloud batch jobs submit 命令

      gcloud batch jobs submit JOB_NAME \
        --location LOCATION \
        --config JSON_CONFIGURATION_FILE
      

      替换以下内容:

      • JOB_NAME:作业的名称。

      • LOCATION:作业的位置。除非作业指定了 allowedLocations[] 字段,否则此字段必须是包含预订的可用区的区域。

      • JSON_CONFIGURATION_FILE:包含作业配置详细信息的 JSON 文件的路径。

    API

    jobs.create 方法发出 POST 请求,将虚拟机实例资源 (instances[]) 子字段设置为与预留的虚拟机属性完全匹配。

    例如,如需创建一项基本脚本作业来使用预留中的虚拟机,请发出以下请求:

    POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME
    {
      "taskGroups": [
        {
          "taskSpec": {
            "runnables": [
              {
                "script": {
                  "text": "echo Hello world from task ${BATCH_TASK_INDEX}"
                }
              }
            ]
          },
          "taskCount": 3
        }
      ],
      "allocationPolicy": {
        "instances": [
          {
            VM_RESOURCES
          }
        ],
      },
      "logsPolicy": {
        "destination": "CLOUD_LOGGING"
      }
    }
    

    替换以下内容:

    • PROJECT_ID:您的项目的项目 ID

    • LOCATION:作业的位置。除非作业指定了 allowedLocations[] 字段,否则此字段必须是包含预订的可用区的区域。

    • JOB_NAME:作业的名称。

    • VM_RESOURCES:通过指定您在上一步中规划的 instances[] 子字段,匹配您希望作业使用的预留的虚拟机资源。

      例如,从以下 VM_RESOURCES 值开始:

      "installGpuDrivers": INSTALL_GPU_DRIVERS,
      "policy": {
        "machineType": "MACHINE_TYPE",
        "minCpuPlatform": "MIN_CPU_PLATFORM",
        "accelerators": [
          {
            "type": "GPU_TYPE",
            "count": GPU_COUNT
          }
        ],
        "disks": [
          {
            "newDisk": {
              "sizeGb": LOCAL_SSD_SIZE,
              "type": "local-ssd"
            },
            "deviceName": "LOCAL_SSD_NAME"
          }
        ],
        "reservation": "SPECIFIC_RESERVATION_NAME"
      }

      如需使用此值,请进行以下所有更改:

      1. 您是否要使用实例模板?

        • :将 policy 字段替换为 instanceTemplate 字段,然后指定与预订匹配的现有虚拟机实例模板。例如,请参阅使用虚拟机实例模板的代码示例。如果预订使用 GPU 或本地 SSD,您还需要分别配置作业的 installGpuDrivers 字段和 volumes[] 字段。否则,请跳过其余更改。

        • :将 MACHINE_TYPE 替换为与预订相同的机器类型。

      2. 预订是否包含满足最低要求的 CPU 平台?

        • :将 MIN_CPU_PLATFORM 替换为相同的最低要求 CPU 平台。

        • :移除 minCpuPlatform 字段。

      3. 预订是否包含 GPU?

        • :替换 INSTALL_GPU_DRIVERSGPU_TYPEGPU_COUNT,以匹配预订。例如,请参阅使用 GPU 的代码示例。

        • :移除 installGpuDrivers 字段和 accelerators[] 字段。

      4. 预订是否包含本地 SSD?

        • :替换 LOCAL_SSD_SIZELOCAL_SSD_NAME 以匹配预留,并通过向作业添加 volumes[] 字段来挂载本地 SSD。例如,请参阅使用本地 SSD 的代码示例。

        • :移除 disks[] 字段。

      5. 预留是否使用了特定的使用类型?

        • :将 SPECIFIC_RESERVATION_NAME 替换为预订的名称。

        • :移除 reservation 字段。

      例如,假设您为 n2-standard-32 虚拟机使用自动消耗的预留,该预留未指定任何满足最低要求的 CPU 平台、GPU 或本地 SSD。此外,您不想指定虚拟机实例模板。在这种情况下,您必须将 VM_RESOURCES 替换为以下值:

      "policy": {
        "machineType": "n2-standard-32"
      }

创建和运行无法使用预留虚拟机的作业

如需阻止作业使用任何预留,请将 reservation 字段设置为 NO_RESERVATION。如需详细了解如何防止消耗预留,请参阅 Compute Engine 文档中的在不消耗预留的情况下创建虚拟机

您可以使用 gcloud CLI 或 Batch API 创建和运行不会消耗任何预留虚拟机的作业。

gcloud

  1. 创建一个 JSON 文件,用于指定作业的配置详细信息并将 reservation 字段设置为 NO_RESERVATION

    例如,若要创建无法消耗预订的基本脚本作业,请创建一个包含以下内容的 JSON 文件:

    {
      "taskGroups": [
        {
          "taskSpec": {
            "runnables": [
              {
                "script": {
                  "text": "echo Hello world from task ${BATCH_TASK_INDEX}"
                }
              }
            ]
          },
          "taskCount": 3
        }
      ],
      "allocationPolicy": {
        "instances": [
          {
            "policy": {
              "reservation": "NO_RESERVATION"
            }
          }
        ],
      },
      "logsPolicy": {
        "destination": "CLOUD_LOGGING"
      }
    }
    
  2. 如需创建和运行作业,请使用 gcloud batch jobs submit 命令

    gcloud batch jobs submit JOB_NAME \
      --location LOCATION \
      --config JSON_CONFIGURATION_FILE
    

    替换以下内容:

    • JOB_NAME:作业的名称。

    • LOCATION:作业的位置

    • JSON_CONFIGURATION_FILE:包含作业配置详细信息的 JSON 文件的路径。

API

jobs.create 方法发出 POST 请求,将 reservation 字段设置为 NO_RESERVATION

例如,如需创建无法使用预留资源的基本脚本作业,请发出以下请求:

POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME

{
  "taskGroups": [
    {
      "taskSpec": {
        "runnables": [
          {
            "script": {
              "text": "echo Hello world from task ${BATCH_TASK_INDEX}"
            }
          }
        ]
      },
      "taskCount": 3
    }
  ],
  "allocationPolicy": {
    "instances": [
      {
        "policy": {
          "reservation": "NO_RESERVATION"
        }
      }
    ],
  },
  "logsPolicy": {
    "destination": "CLOUD_LOGGING"
  }
}

替换以下内容:

  • PROJECT_ID:您的项目的项目 ID

  • LOCATION:作业的位置

  • JOB_NAME:作业的名称。

后续步骤