本文档介绍了作业的执行流程和创建选项。 借助批量作业,您可以在 Google Cloud 上运行批处理工作负载。如需详细了解作业,请参阅 Batch 使用入门。
作业创建和执行的工作原理
如需使用 Batch 运行工作负载,请创建作业来指定工作负载及其要求。当您完成作业创建后,该作业会自动排队、安排并在指定资源上执行。
系统会自动预配和取消运行作业所需的资源,即 Compute Engine 虚拟机的区域代管式实例组 (MIG) 和任何其他指定资源。根据资源可用性相关因素,作业完成加入和运行所需的时间因不同的作业而异。通常,如果作业规模较小,并且只需要少量资源,则更有可能运行并更快地完成作业。对于 Batch 文档中的示例作业(通常使用极少的资源),它们可能会在几分钟内完成运行。
创建作业后,您可以通过描述作业来检查其状态。在作业状态表明作业已开始运行后,您还可以通过查看日志来监控作业。作业的详细信息、历史记录和日志将一直可用,直到您将其删除。
作业创建选项
创建和运行基本作业介绍了一些基础知识,包括如何使用脚本或容器映像定义作业的任务,以及如何使用预定义和自定义环境变量。
了解创建作业的基础知识后,请考虑使用以下一个或多个选项:
- 使用虚拟机实例模板定义作业资源一文介绍了如何在创建作业时指定 Compute Engine 虚拟机模板来定义作业的资源。如需创建使用非默认虚拟机映像的作业,必须使用此方法。
- 使用自定义服务帐号控制作业的访问权限解释了如何指定作业的服务帐号,这会影响作业的虚拟机可以访问的资源和应用。如果您未指定自定义服务帐号,则作业将默认使用 Compute Engine 默认服务帐号。
- 使用 MPI 库配置任务通信介绍了如何使用消息传递接口 (MPI) 库跨不同虚拟机相互通信的紧密耦合任务配置作业。MPI 的一个常见使用场景是紧密耦合高性能计算 (HPC) 工作负载。
- 为作业使用 GPU 介绍了如何定义使用一个或多个图形处理单元 (GPU) 的作业。使用 GPU 的作业的常见使用场景包括密集型数据处理或机器学习 (ML) 工作负载。
- 为作业使用存储卷:介绍了如何定义可以访问一个或多个外部存储卷的作业。存储选项包括新的或现有的永久性磁盘、新的本地 SSD、现有的 Cloud Storage 存储分区以及现有的网络文件系统 (NFS),例如 Filestore 文件共享。
后续步骤
- 创建并运行基本作业
- 按照教程:使用 Workflows 创建和运行作业说明了如何使用 Workflows 按照使用 Workflows 语法定义的顺序执行作业任务。