查看 Vertex AI 上的 Ray 集群的日志

使用 Vertex AI 上的 Ray 集群执行任务时,系统会自动生成跟踪日志并将其存储在 Cloud Logging 和开源 Ray 中。本部分介绍如何通过 Google Cloud 控制台访问生成的日志。

在开始之前,请务必阅读 Ray on Vertex AI 概览设置所需的所有必备工具。

Cloud Logging 控制台

  1. 在 Google Cloud 控制台的导航面板中,选择 Logging,然后选择 Logs Explorer

    前往 Logs Explorer

  2. 选择现有的 Google Cloud 项目、文件夹或组织。

  3. 如需显示所有 Ray 日志,请在查询编辑器字段中输入以下查询,然后点击运行查询

    resource.labels.task_name="ray-cluster-logs"
  4. 如需将日志范围缩小到特定的 Ray 集群,请将下面这行代码添加到查询中,然后点击运行查询

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    其中 CLUSTER_NAME 是 Ray 集群的名称。

  5. 如需进一步缩小日志范围,以仅显示特定日志文件(如 raylet.out),请点击日志字段 -> 日志名称下的日志名称。

  6. 您可以将类似的日志条目分为一组:

    1. 查询结果中,点击一个日志条目以展开该日志。

    2. jsonPayload 中,点击 tailed_path 值。系统随即会显示一个下拉菜单。

    3. 点击显示匹配的条目

头节点 shell

您可以通过 Ray 头节点上的交互式 shell 查看开源 Ray 日志文件:

  1. 在 Google Cloud 控制台中,转至“Ray on Vertex AI”页面。

    转至“Ray on Vertex AI”页面

  2. 在您创建的集群对应的行中,点击 更多操作菜单。

  3. 选择头节点交互式 shell。该 shell 会在另一个标签页中打开。

  4. 导航到 /var/log-storage/ 目录:

    cd /var/log-storage/
  5. session_DATE/logs/ 目录下访问 Ray 日志,其中 DATE 是您创建 Vertex AI 上的 Ray 集群的日期。

后续步骤