Esta página foi traduzida pela API Cloud Translation.

vLLM

Neste documento, descrevemos como configurar a implantação do Google Kubernetes Engine para usar o Google Cloud Managed Service para Prometheus a fim de coletar métricas do vLLM. Esta página mostra como fazer o seguinte:

Ative o monitoramento automático de aplicativos para o vLLM ou configure o vLLM manualmente para gerar relatórios de métricas.
Acesse um painel predefinido no Cloud Monitoring para conferir as métricas.

Estas instruções se aplicam somente ao usar a coleção gerenciada com o serviço gerenciado para Prometheus. Se você estiver usando a coleta autoimplantada, consulte a documentação do vLLM para informações de instalação.

Estas instruções são um exemplo e devem funcionar na maioria dos ambientes do Kubernetes. Se você estiver com problemas para instalar um aplicativo ou exportador devido a políticas restritivas de segurança ou da organização, recomendamos consultar a documentação de código aberto para receber suporte.

Para mais informações sobre o vLLM, consulte vLLM. Para informações sobre como configurar o vLLM no Google Kubernetes Engine, consulte o guia do GKE para vLLM.

Pré-requisitos

Para coletar métricas do vLLM usando o Managed Service para Prometheus e a coleta gerenciada, sua implantação precisa atender aos seguintes requisitos:

Seu cluster precisa executar a versão 1.28.15-gke.2475000 ou posterior do Google Kubernetes Engine.
É necessário executar o Managed Service para Prometheus com a coleta gerenciada ativada. Para mais informações, consulte Começar a usar a coleta gerenciada.

O vLLM expõe métricas no formato do Prometheus automaticamente. Não é necessário instalá-lo separadamente. Para verificar se o vLLM está emitindo métricas nos endpoints esperados, faça o seguinte:

Configure o encaminhamento de portas usando o seguinte comando:
```
kubectl -n NAMESPACE_NAME port-forward POD_NAME 8000
```
Acesse o endpoint localhost:8000/metrics usando o navegador ou o utilitário curl em outra sessão de terminal.

Usar o monitoramento automático de aplicativos

O vLLM oferece suporte ao uso do monitoramento automático de aplicativos. Ao usar o monitoramento automático de aplicativos, o Google Kubernetes Engine faz o seguinte:

Detecta instâncias implantadas de cargas de trabalho vLLM.
Implanta um recurso PodMonitoring para cada instância de carga de trabalho detectada.
Instala painéis do Cloud Monitoring para as métricas do vLLM.

Para usar o monitoramento automático de aplicativos, ative o recurso no cluster do GKE. É possível usar o console Google Cloud , a Google Cloud CLI (versão 492.0.0 ou mais recente) ou a API GKE. Para mais informações, consulte Ativar o monitoramento automático de aplicativos.

Definir um recurso do PodMonitoring

Para descobrir o destino, o operador do Managed Service para Prometheus requer um recurso PodMonitoring que corresponde ao vLLM no mesmo namespace.

É possível usar a seguinte configuração do PodMonitoring:

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: vllm
  labels:
    app.kubernetes.io/name: vllm
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 8000
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app: vllm-gemma-server

Verifique se os valores dos campos port e matchLabels correspondem aos dos pods do vLLM que você quer monitorar.

Para aplicar as alterações de configuração de um arquivo local, execute o seguinte comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Também é possível usar o Terraform para gerenciar as configurações.

Verificar a configuração

Use o Metrics Explorer para verificar se você configurou corretamente o vLLM. Pode levar um ou dois minutos para que o Cloud Monitoring ingira as métricas.

Para verificar se as métricas foram transferidas, faça o seguinte:

No console Google Cloud , acesse a página do Metrics explorer:
Acesse o Metrics Explorer

Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
Na barra de ferramentas do painel do criador de consultas, selecione o botão MQL ou PromQL.
Verifique se PromQL está selecionado na opção de ativar/desativar Idioma. A alternância de idiomas está na mesma barra de ferramentas que permite formatar sua consulta.

Digite e execute a seguinte consulta:

up{job="vllm", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Ver painéis

A integração do Cloud Monitoring inclui o painel Visão geral do vLLM Prometheus. Os painéis são instalados automaticamente ao configurar a integração. Também é possível visualizar visualizações estáticas de painéis sem instalar a integração.

Para ver um painel instalado, faça o seguinte:

No console Google Cloud , acesse a página Painéis:
Acesse Painéis

Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
Selecione a guia Lista de painéis.
Escolha a categoria Integrações.
Clique no nome do painel, por exemplo, Visão geral do vLLM Prometheus.

Para acessar uma visualização estática do painel, faça o seguinte:

No console do Google Cloud , acesse a página Integrações:
Acessar Integrações

Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
Clique no filtro de plataforma de implantação do Kubernetes Engine.
Localize a integração do vLLM e clique em Visualizar detalhes.
Selecione a guia Painéis.

Solução de problemas

Para resolver problemas de transferências de métricas, consulte Problemas com a coleta de exportadores em Resolver problemas no processamento.