本頁面由 Cloud Translation API 翻譯而成。

vLLM

本文說明如何設定 Google Kubernetes Engine 部署作業，以便使用 Google Cloud Managed Service for Prometheus 收集 vLLM 的指標。本文將說明如何執行下列操作：

為 vLLM 啟用自動應用程式監控，或手動設定 vLLM 來回報指標。
在 Cloud Monitoring 中存取預先定義的資訊主頁，即可查看指標。

只有在使用 Managed Service for Prometheus 的代管收集作業時，才適用這些操作說明。如果您使用自行部署的收集作業，請參閱 vLLM 說明文件，瞭解安裝資訊。

這些操作說明僅供參考，適用於大多數 Kubernetes 環境。如果因嚴格的安全或機構政策而無法安裝應用程式或匯出工具，建議您參閱開放原始碼文件尋求支援。

如要瞭解 vLLM，請參閱vLLM。如要瞭解如何在 Google Kubernetes Engine 上設定 vLLM，請參閱 vLLM 的 GKE 指南。

必要條件

如要使用 Managed Service for Prometheus 和代管收集作業，從 vLLM 收集指標，部署作業必須符合下列規定：

叢集必須執行 Google Kubernetes Engine 1.28.15-gke.2475000 以上版本。
您必須執行 Managed Service for Prometheus，並啟用代管收集作業。詳情請參閱「開始使用代管集合」一文。

vLLM 會自動公開 Prometheus 格式的指標，您不必另外安裝。如要確認 vLLM 是否在預期端點上發出指標，請按照下列步驟操作：

使用下列指令設定通訊埠轉送：

kubectl -n NAMESPACE_NAME port-forward POD_NAME 8000

在另一個終端機工作階段中，使用瀏覽器或 curl 公用程式存取端點 localhost:8000/metrics。

使用自動應用程式監控功能

vLLM 支援使用自動應用程式監控功能。使用自動應用程式監控功能時，Google Kubernetes Engine 會執行下列操作：

偵測已部署的 vLLM 工作負載執行個體。
為每個偵測到的工作負載執行個體部署 PodMonitoring 資源。
安裝 vLLM 指標的 Cloud Monitoring 資訊主頁。

如要使用自動應用程式監控功能，必須在 GKE 叢集上啟用這項功能。您可以使用 Google Cloud 控制台、Google Cloud CLI (492.0.0 以上版本) 或 GKE API。詳情請參閱「啟用自動應用程式監控功能」。

定義 PodMonitoring 資源

如要探索目標，Managed Service for Prometheus 運算子需要與相同命名空間中的 vLLM 對應的 PodMonitoring 資源。

您可以使用下列 PodMonitoring 設定：

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: vllm
  labels:
    app.kubernetes.io/name: vllm
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 8000
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app: vllm-gemma-server

確認 port 和 matchLabels 欄位的值與要監控的 vLLM Pod 相符。

如要套用本機檔案的設定變更，請執行下列指令：

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

您也可以使用 Terraform 管理設定。

驗證設定

您可以使用 Metrics Explorer 確認 vLLM 設定是否正確。Cloud Monitoring 可能需要一到兩分鐘才能擷取指標。

如要確認指標已擷取，請按照下列步驟操作：

前往 Google Cloud 控制台的「Metrics Explorer」頁面：
前往 Metrics Explorer

如果您是使用搜尋列尋找這個頁面，請選取子標題為「Monitoring」的結果。
在查詢建構工具窗格的工具列中，選取名稱為 MQL 或 PromQL 的按鈕。
確認已在「Language」(語言) 切換按鈕中選取「PromQL」。語言切換按鈕位於同一工具列，可供你設定查詢格式。

輸入並執行下列查詢：

up{job="vllm", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

查看資訊主頁

Cloud Monitoring 整合功能包含 vLLM Prometheus 總覽資訊主頁。設定整合作業後，系統會自動安裝資訊主頁。您也可以查看資訊主頁的靜態預覽畫面，不需安裝整合功能。

如要查看已安裝的資訊主頁，請按照下列步驟操作：

在 Google Cloud 控制台中，前往「Dashboards」(資訊主頁) 頁面：
前往「Dashboards」(資訊主頁)

如果您是使用搜尋列尋找這個頁面，請選取子標題為「Monitoring」的結果。
選取「資訊主頁清單」分頁標籤。
選擇「整合」類別。
按一下資訊主頁名稱，例如「vLLM Prometheus Overview」。

如要查看資訊主頁的靜態預覽畫面，請按照下列步驟操作：

前往 Google Cloud 控制台的「Integrations」(整合) 頁面：
前往「整合」

如果您是使用搜尋列尋找這個頁面，請選取子標題為「Monitoring」的結果。
按一下「Kubernetes Engine」部署平台篩選器。
找出 vLLM 整合項目，然後按一下「查看詳細資料」。
選取「資訊主頁」分頁標籤。

疑難排解

如要瞭解如何排解指標擷取問題，請參閱「排解擷取端問題」中的「無法從匯出工具收集資料」。