Neste documento, descrevemos como configurar a implantação do Google Kubernetes Engine para que você possa usar o Google Cloud Managed Service para Prometheus para coletar métricas do NVIDIA Data Center GPU Manager. Esta página mostra como fazer o seguinte:
- Configure o exportador do DCGM para gerar relatórios de métricas.
- Configurar um recurso PodMonitoring para o serviço gerenciado para Prometheus a fim de coletar as métricas exportadas.
Estas instruções se aplicam somente ao usar a coleção gerenciada com o serviço gerenciado para Prometheus. Se você estiver usando a coleção autoimplantada, consulte o repositório de origem do exportador do DCGM para ver informações da instalação.
Estas instruções são um exemplo e devem funcionar na maioria dos ambientes do Kubernetes. Para informações sobre uma oferta de DCGM gerenciado, consulte Coletar e visualizar métricas do DCGM
Se você estiver com problemas para instalar um aplicativo ou exportador devido a políticas restritivas de segurança ou da organização, recomendamos consultar a documentação de código aberto para receber suporte.
Para mais informações sobre o DCGM, consulte NVIDIA DCGM.
Pré-requisitos
Para coletar métricas do DCGM usando o Managed Service para Prometheus e a coleção gerenciada, sua implantação precisa atender aos seguintes requisitos:
- Seu cluster precisa executar a versão 1.21.4-gke.300 ou posterior do Google Kubernetes Engine.
- É necessário executar o Managed Service para Prometheus com a coleta gerenciada ativada. Para mais informações, consulte Começar a usar a coleta gerenciada.
Verifique se você tem uma cota suficiente para GPUs NVIDIA.
Para enumerar os nós da GPU no cluster do GKE e os respectivos tipos no cluster relevante, execute o seguinte comando:
kubectl get nodes -l cloud.google.com/gke-gpu -o jsonpath='{range .items[*]}{@.metadata.name}{" "}{@.metadata.labels.cloud\.google\.com/gke-accelerator}{"\n"}{end}'
Se a instalação automática estiver desativada ou não for compatível com sua versão do GKE, talvez seja necessário instalar um driver da GPU NVIDIA compatível nos nós. Para verificar se o plug-in do dispositivo GPU NVIDIA está em execução, execute o seguinte comando:
kubectl get pods -n kube-system | grep nvidia-gpu-device-plugin
Instalar o exportador do DCGM
Recomendamos que você instale o exportador DCGM, DCGM-Exporter
usando a seguinte configuração:
Configure o encaminhamento de portas com o seguinte comando:
kubectl -n gmp-public port-forward POD_NAME 9400
Acesse o endpoint
localhost:9400/metrics
usando o navegador ou o utilitáriocurl
em outra sessão de terminal.
Personalize a seção do ConfigMap para selecionar quais métricas da GPU emitir.
Como alternativa, use o gráfico oficial do Helm para instalar o exportador do DCGM.
Para aplicar as alterações de configuração de um arquivo local, execute o seguinte comando:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
Também é possível usar o Terraform para gerenciar as configurações.
Definir um recurso do PodMonitoring
Para descobrir o destino, o operador do Managed Service para Prometheus, é necessário um recurso PodMonitoring que corresponde ao exportador do DCGM no mesmo namespace.
É possível usar a seguinte configuração do PodMonitoring:
Para aplicar as alterações de configuração de um arquivo local, execute o seguinte comando:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
Também é possível usar o Terraform para gerenciar as configurações.
Verificar a configuração
Use o Metrics Explorer para verificar se você configurou corretamente o exportador do DCGM. Pode levar um ou dois minutos para que o Cloud Monitoring ingira as métricas.
Para verificar se as métricas foram transferidas, faça o seguinte:
-
No Console do Google Cloud, acesse a página do leaderboard Metrics Explorer:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
- Na barra de ferramentas do painel do criador de consultas, selecione o botão code MQL ou code PromQL.
- Verifique se PromQL está selecionado na opção de ativar/desativar Idioma. A alternância de idiomas está na mesma barra de ferramentas que permite formatar sua consulta.
- Digite e execute a seguinte consulta:
DCGM_FI_DEV_GPU_UTIL{cluster="CLUSTER_NAME", namespace="gmp-public"}
Solução de problemas
Para resolver problemas de transferências de métricas, consulte Problemas com a coleta de exportadores em Resolver problemas no processamento.