使用 Vertex AI 上的 Ray 集群执行任务时,系统会自动生成跟踪日志并将其存储在 Cloud Logging 和开源 Ray 中。本部分介绍如何通过 Google Cloud 控制台访问生成的日志。
在开始之前,请务必阅读 Ray on Vertex AI 概览并设置所需的所有必备工具。Cloud Logging 控制台
-
在 Google Cloud 控制台的导航面板中,选择 Logging,然后选择 Logs Explorer:
选择现有的 Google Cloud 项目、文件夹或组织。
如需显示所有 Ray 日志,请在查询编辑器字段中输入以下查询,然后点击运行查询:
resource.labels.task_name="ray-cluster-logs"
如需将日志范围缩小到特定的 Ray 集群,请将下面这行代码添加到查询中,然后点击运行查询:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
其中 CLUSTER_NAME 是 Ray 集群的名称。
如需进一步缩小日志范围,以仅显示特定日志文件(如
raylet.out
),请点击日志字段 -> 日志名称下的日志名称。您可以将类似的日志条目分为一组:
在查询结果中,点击一个日志条目以展开该日志。
在
jsonPayload
中,点击tailed_path
值。系统随即会显示一个下拉菜单。点击显示匹配的条目。
头节点 shell
您可以通过 Ray 头节点上的交互式 shell 查看开源 Ray 日志文件:
在 Google Cloud 控制台中,转至“Ray on Vertex AI”页面。
在您创建的集群对应的行中,点击
更多操作菜单。选择头节点交互式 shell。该 shell 会在另一个标签页中打开。
导航到
/var/log-storage/
目录:cd /var/log-storage/
在
session_DATE/logs/
目录下访问 Ray 日志,其中 DATE 是您创建 Vertex AI 上的 Ray 集群的日期。