TorchServe

Questo documento descrive come configurare il deployment di Google Kubernetes Engine in modo da poter utilizzare Google Cloud Managed Service per Prometheus per raccogliere metriche da TorchServe. Questo documento mostra come:

  • Configura TorchServe per generare report sulle metriche.
  • Configura una risorsa PodMonitoring per Managed Service per Prometheus per raccogliere le metriche esportate.
  • Accedi a una dashboard in Cloud Monitoring per visualizzare le metriche.

Queste istruzioni si applicano solo se utilizzi la raccolta gestita con Managed Service per Prometheus. Se utilizzi la raccolta autogestita, consulta la documentazione di TorchServe per informazioni sull'installazione.

Queste istruzioni sono fornite come esempio e dovrebbero funzionare nella maggior parte degli ambienti Kubernetes. Se hai difficoltà a installare un'applicazione o un esportatore a causa di norme organizzative o di sicurezza restrittive, ti consigliamo di consultare la documentazione open source per ricevere assistenza.

Per informazioni su TorchServe, vedi TorchServe. Per informazioni sulla configurazione di TorchServe su Google Kubernetes Engine, consulta la guida di GKE per TorchServe.

Prerequisiti

Per raccogliere le metriche da TorchServe utilizzando Managed Service per Prometheus e la raccolta gestita, il deployment deve soddisfare i seguenti requisiti:

  • Il cluster deve eseguire Google Kubernetes Engine versione 1.21.4-gke.300 o successive.
  • Devi eseguire Managed Service per Prometheus con la raccolta gestita abilitata. Per maggiori informazioni, consulta la guida introduttiva alla raccolta gestita.

TorchServe espone automaticamente le metriche in formato Prometheus quando il flag metrics_mode viene specificato nel file config.properties o come variabile di ambiente.

Se configuri TorchServe autonomamente, ti consigliamo di apportare le seguenti aggiunte al file config.properties.

Se segui il documento Google Kubernetes Engine Servire LLM scalabili su GKE con TorchServe, queste aggiunte fanno parte della configurazione predefinita.

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

  inference_address=http://0.0.0.0:8080
  management_address=http://0.0.0.0:8081
+ metrics_address=http://0.0.0.0:8082
+ metrics_mode=prometheus
  number_of_netty_threads=32
  job_queue_size=1000
  install_py_dep_per_model=true
  model_store=/home/model-server/model-store
  load_models=all

Inoltre, quando esegui il deployment di questa immagine su GKE, modifica il deployment e il servizio YAML per esporre la porta delle metriche aggiuntive:

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: apps/v1
kind: Deployment
metadata:
  name: t5-inference
  labels:
    model: t5
    version: v1.0
    machine: gpu
spec:
  replicas: 1
  selector:
    matchLabels:
      model: t5
      version: v1.0
      machine: gpu
  template:
    metadata:
      labels:
        model: t5
        version: v1.0
        machine: gpu
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4
      containers:
        - name: inference
          ...
          args: ["torchserve", "--start", "--foreground"]
          resources:
            ...
          ports:
            - containerPort: 8080
              name: http
            - containerPort: 8081
              name: management
+           - containerPort: 8082
+             name: metrics
---
apiVersion: v1
kind: Service
metadata:
  name: t5-inference
  labels:
    model: t5
    version: v1.0
    machine: gpu
spec:
  ...
  ports:
    - port: 8080
      name: http
      targetPort: http
    - port: 8081
      name: management
      targetPort: management
+   - port: 8082
+     name: metrics
+     targetPort: metrics

Per verificare che TorchServe emetta metriche sugli endpoint previsti:

  1. Configura l'inoltro delle porte utilizzando il seguente comando:
    kubectl -n NAMESPACE_NAME port-forward SERVICE_NAME 8082
    
  2. Accedi all'endpoint localhost:8082/metrics utilizzando il browser o l'utilità curl in un'altra sessione del terminale.

Definisci una risorsa PodMonitoring

Per l'individuazione dei target, l'operatore Managed Service per Prometheus richiede una risorsa PodMonitoring corrispondente a TorchServe nello stesso spazio dei nomi.

Puoi utilizzare la seguente configurazione PodMonitoring:

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: torchserve
  labels:
    app.kubernetes.io/name: torchserve
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 8082
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      model: t5
      version: v1.0
      machine: gpu
Assicurati che i valori dei campi port e matchLabels corrispondano a quelli dei pod TorchServe che vuoi monitorare.

Per applicare le modifiche alla configurazione da un file locale, esegui questo comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizzare Terraform per gestire le configurazioni.

Verificare la configurazione

Puoi utilizzare Metrics Explorer per verificare di aver configurato correttamente TorchServe. Potrebbero essere necessari uno o due minuti prima che Cloud Monitoring acquisisca le metriche.

Per verificare che le metriche vengano importate:

  1. Nella console Google Cloud , vai alla pagina  Esplora metriche:

    Vai a Esplora metriche

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Nella barra degli strumenti del riquadro Query Builder, seleziona il pulsante il cui nome è  MQL o  PromQL.
  3. Verifica che PromQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che ti consente di formattare la query.
  4. Inserisci ed esegui la seguente query:
    up{job="torchserve", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Visualizza dashboard

L'integrazione di Cloud Monitoring include la dashboard Panoramica di TorchServe Prometheus. Le dashboard vengono installate automaticamente quando configuri l'integrazione. Puoi anche visualizzare anteprime statiche delle dashboard senza installare l'integrazione.

Per visualizzare una dashboard installata:

  1. Nella console Google Cloud , vai alla pagina  Dashboard:

    Vai a Dashboard

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Seleziona la scheda Elenco dashboard.
  3. Scegli la categoria Integrazioni.
  4. Fai clic sul nome della dashboard, ad esempio TorchServe Prometheus Overview.

Per visualizzare un'anteprima statica della dashboard:

  1. Nella console Google Cloud , vai alla pagina  Integrazioni:

    Vai a Integrazioni

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Fai clic sul filtro della piattaforma di deployment Kubernetes Engine.
  3. Individua l'integrazione di TorchServe e fai clic su Visualizza dettagli.
  4. Seleziona la scheda Dashboard.

Risoluzione dei problemi

Per informazioni sulla risoluzione dei problemi di importazione delle metriche, vedi Problemi con la raccolta dagli esportatori in Risoluzione dei problemi lato importazione.