已知问题

本页面介绍在使用 Batch 时可能会遇到的已知问题。

如果您在使用 Batch 方面需要更多帮助,请参阅问题排查文档或获取支持

列出招聘信息时,您可能会遇到延迟

如果项目所含作业超过 1 万个,使用 Google Cloud 控制台、gcloud CLI 或 Batch API 中的批量作业列表页面列出作业时,可能会出现延迟。此问题不会影响查看特定作业。

如需解决此问题,请减少项目中的作业数量,或查看和查询您存储在 BigQuery 中的作业信息。 如需在 BigQuery 中存储作业信息,请使用以下一个或多个选项:

  • 如需自动将作业的状态信息流式传输到 BigQuery,请在创建作业期间启用 Pub/Sub 通知。如需了解详情,请参阅使用通知监控作业

  • 如需将已完成作业的所有信息导出到 BigQuery,请运行 export-to-bigquery-delete-batch-jobs 示例脚本。如需了解详情,请参阅删除和导出作业

指定内核过时的 Compute Engine(或自定义)虚拟机操作系统映像时,作业可能会失败

如果作业指定的 Compute Engine 虚拟机操作系统映像没有最新的内核版本,则作业可能会失败。 此问题也会影响基于 Compute Engine 虚拟机操作系统映像的任何自定义映像。导致此问题的 Compute Engine 公共映像无法轻松识别,并且随时可能更改。

具体错误消息未显示此问题。如果您的作业意外失败,并指定 Compute Engine 虚拟机操作系统映像或类似自定义映像,则需要考虑此问题。

为防止或解决此问题,您可以执行以下操作:

  1. 请尽可能使用批量映像或基于 Batch 映像的自定义映像,这些映像不受此问题的影响。
  2. 如果您无法使用 Batch 映像,请尝试使用最新版本的首选 Compute Engine 映像。通常,较新版本的 Compute Engine 映像更有可能拥有最新的内核版本,而不是较旧版本。
  3. 如果特定映像的最新版本不起作用,您可能需要尝试使用其他操作系统或创建自定义映像。例如,如果最新版本的 Debian 11 不起作用,您可以尝试从运行 Debian 11 并且已更新为使用最新内核版本的 Compute Engine 虚拟机创建自定义映像

此问题是由虚拟机操作系统映像中过时的内核版本导致的,此类版本会导致虚拟机重新启动。如果作业指定了任何不是来自 Batch 或基于批处理映像的虚拟机操作系统映像,Batch 会在启动后,在作业的虚拟机上安装所需的软件包。所需的软件包可能因不同的作业而异,并且会随时间而变化,并且它们可能要求虚拟机操作系统映像具有最新的内核版本。如果更新内核版本需要重新启动虚拟机,从而导致软件包安装和作业失败,就会出现此问题。

如需详细了解虚拟机操作系统映像,请参阅作业虚拟机的操作系统环境概览

只有在自动安装驱动程序时,使用过时内核的 GPU 和虚拟机操作系统映像的作业可能会失败

此问题与指定带有过时内核的 Compute Engine(或自定义)虚拟机操作系统映像时作业可能会失败密切相关。具体而言,指定 Compute Engine(或自定义)虚拟机操作系统映像而不最新内核并使用 GPU 的作业,只有在您尝试自动安装 GPU 驱动程序时,才会失败。对于这些作业,您也可以通过手动安装 GPU 驱动程序来解决失败问题。

如需详细了解 GPU,请参阅创建和运行使用 GPU 的作业