在 Vertex AI 中監控 Ray 叢集

本頁說明如何查看與 Ray 叢集相關聯的追蹤記錄,以及監控 Vertex AI 上的 Ray 指標。此外,我們也提供 Ray 叢集偵錯指南。

查看記錄

在 Vertex AI 上使用 Ray 叢集執行工作時,系統會自動產生追蹤記錄,並儲存在 Cloud Logging 和開放原始碼 Ray 資訊主頁中。本節說明如何透過 Google Cloud 控制台存取產生的記錄。

開始前,請務必閱讀 Ray on Vertex AI 總覽,並設定所有必要工具。

Ray OSS 資訊主頁

您可以透過 Ray OSS 資訊主頁查看開放原始碼 Ray 記錄檔:

  1. 前往 Google Cloud 控制台的 Ray on Vertex AI 頁面。

    前往「Ray on Vertex AI」頁面

  2. 在所建立叢集的資料列中,選取「更多動作」選單。

  3. 選取 Ray OSS 資訊主頁連結。 系統會在另一個分頁中開啟資訊主頁。

  4. 在選單中前往右上角的「記錄」檢視畫面:

    Ray 資訊主頁記錄

  5. 按一下每個節點,即可查看與該節點相關聯的記錄檔。

Cloud Logging 控制台

  1. 前往 Google Cloud 控制台的「Logs Explorer」頁面:

    前往「Logs Explorer」(記錄檔探索工具)

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Logging」的結果

  2. 選取現有的 Google Cloud 專案、資料夾或組織。

  3. 如要顯示所有 Ray 記錄,請在查詢編輯器欄位中輸入以下查詢,然後按一下「執行查詢」

    resource.labels.task_name="ray-cluster-logs"
  4. 如要將記錄檔範圍縮小至特定 Ray 叢集,請在查詢中加入下列程式碼,然後按一下「執行查詢」

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    CLUSTER_NAME 替換為 Ray 叢集的名稱。在 Google Cloud 控制台中,依序前往「Vertex AI」>「Vertex AI 上的 Ray」,即可查看各區域的叢集名稱清單。

  5. 如要進一步將記錄檔範圍縮小至特定記錄檔 (例如 raylet.out),請依序點選「記錄檔欄位」下方的記錄檔名稱 ->「記錄檔名稱」

  6. 您可以將類似的記錄項目歸為一組:

    1. 在「Query results」(查詢結果) 中,按一下記錄項目即可展開記錄。

    2. jsonPayload 中,按一下 tailed_path 值。畫面會顯示下拉式選單。

    3. 按一下「顯示相符的項目」

停用記錄功能

根據預設,Ray on Vertex AI Cloud Logging 為啟用狀態。

  • 如要停用將 Ray 記錄匯出至 Cloud Logging 的功能,請使用下列 Vertex AI SDK for Python 指令:

    vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
    

即使停用 Ray on Vertex AI Cloud Logging 功能,您還是可以在 Ray 資訊主頁上查看 Ray 記錄檔。

監控指標

您可以使用 Google Cloud Monitoring (GCM),以不同方式查看 Ray on Vertex AI 指標。或者,您也可以將指標從 GCM 匯出至自己的 Grafana 伺服器。

在 GCM 中監控指標

您可以在 GCM 中透過兩種方式查看 Vertex AI 上的 Ray 指標。

  • 使用「Metrics Explorer」下方的直接檢視畫面。
  • 匯入 Grafana 資訊主頁。

指標探索工具

如要使用「指標探索器」的直接檢視畫面,請按照下列步驟操作:

  1. 前往 Google Cloud Monitoring 主控台。
  2. 在「探索」下方,選取「指標探索工具」
  3. 在「Active Resources」(有效資源) 下方,選取「Prometheus Target」(Prometheus 目標)。系統會顯示「使用中的指標類別」
  4. 選取「Ray」

    系統會顯示指標清單:

    選取指標
  5. 選取要監控的指標。舉例來說,您可以:
    1. 選擇 CPU 使用率百分比做為監控指標:
      使用率目標
    2. 選取要套用的濾鏡。舉例來說,選取叢集:
      新增必要篩選器 使用叢集 ID,只監控特定叢集的上述指標。如要找出叢集 ID,請按照下列步驟操作:
      1. 前往 Google Cloud 控制台的「Ray」頁面。

        前往 Ray

      2. 請務必進入要建立實驗的專案。
        Vertex AI 選取專案
      3. 「名稱」下方會顯示叢集 ID 清單。
      選取指標
    3. 選取「匯總」方法,即可查看指標。也就是說,您可以選擇查看未匯總的指標,這類指標會顯示每個 Ray 程序的 CPU 使用率:
      未匯總的指標

GCM 資訊主頁

如要匯入 Ray on Vertex AI 的 Grafana 資訊主頁,請按照雲端監控資訊主頁的指南操作,詳情請參閱「匯入自己的 Grafana 資訊主頁」。

監控資訊主頁

您只需要 Grafana 資訊主頁 JSON 檔案。OSS Ray 提供預設資訊主頁 Grafana JSON 檔案,支援手動設定

監控指標

從使用者擁有的 Grafana

如果您已執行 Grafana 伺服器,也可以將 Vertex AI Prometheus 指標上的所有 Ray 叢集匯出至現有的 Grafana 伺服器。如要執行這項操作,請按照 GMP 使用 Grafana 查詢 的指引操作。您可以在現有的 Grafana 伺服器中新增 Grafana 資料來源,並使用資料來源同步器,將新的 Grafana Prometheus 資料來源同步至 Vertex AI 指標上的 Ray。

請務必使用資料來源同步器,設定並驗證新加入的 Grafana 資料來源。請按照「設定及驗證 Grafana 資料來源」一文中的步驟操作。

完成同步後,您就能根據 Vertex AI 的 Ray 指標,建立及新增所需的任何資訊主頁。

根據預設,系統會啟用 Ray on Vertex AI 指標收集功能。 如要使用 Python 適用的 Vertex AI SDK 停用這些功能,請按照下列步驟操作:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)

偵錯 Ray 叢集

如要偵錯 Ray 叢集,請使用主要節點互動式殼層

Google Cloud 控制台

如要存取主要節點互動殼層,請執行下列操作:

  1. 前往 Google Cloud 控制台的「Ray on Vertex AI」頁面。
    前往 Ray on Vertex AI
  2. 請確認您位於正確的專案中。
    Vertex AI 選取專案
  3. 選取要檢查的叢集。畫面上會顯示「基本資訊」部分。
  4. 在「存取連結」部分,按一下「主要節點互動式殼層」的連結。 系統會顯示首節點互動式殼層。
  5. 請按照「使用互動式殼層監控訓練及偵錯」一文中的操作說明進行。

後續步驟