Solucionar problemas de GPUs no GKE


Nesta página, mostramos como resolver problemas relacionados a GPUs no Google Kubernetes Engine (GKE).

Se precisar de mais ajuda, entre em contato com o Cloud Customer Care.

Instalação do driver da GPU

Esta seção fornece informações de solução de problemas para instalação automática de driver de dispositivo NVIDIA no GKE.

A instalação do driver falha em nós do Ubuntu

Se você usar nós do Ubuntu com GPUs L4 ou H100 anexadas, o driver de GPU padrão instalado pelo GKE pode não ser a versão necessária para essas GPUs. Como resultado, o pod do plug-in do dispositivo de GPU permanece travado no estado "Pendente", e as cargas de trabalho da GPU nesses nós podem apresentar problemas.

Para resolver esse problema, recomendamos fazer upgrade para as seguintes versões do GKE, que instalam a versão 535 do driver da GPU como padrão:

  • 1.26.15-gke.1483000 e mais recente
  • 1.27.15-gke.1039000 e mais recente
  • 1.28.11-gke.1044000 e mais recente
  • 1.29.6-gke.1073000 e mais recente
  • 1.30.2-gke.1124000 e mais recente

Como alternativa, instale manualmente a versão 535 ou mais recente do driver executando o seguinte comando:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded-R535.yaml

Os plug-ins de dispositivos de GPU falham com erros CrashLoopBackOff

O problema a seguir ocorre se você usou o método de instalação manual do driver no pool de nós antes de 25 de janeiro de 2023 e depois fez upgrade do pool de nós para uma versão do GKE compatível com instalação automática de driver. Ambas as cargas de trabalho de instalação existem ao mesmo tempo e tentam instalar versões de driver conflitantes nos seus nós.

O contêiner de inicialização do plug-in do dispositivo GPU falha com o status Init:CrashLoopBackOff. Os logs do contêiner são semelhantes aos seguintes:

failed to verify installation: failed to verify GPU driver installation: exit status 18

Para resolver esse problema, tente o seguinte:

  • Remova o DaemonSet de instalação manual do driver do seu cluster. Isso exclui a carga de trabalho de instalação conflitante e permite que o GKE instale automaticamente um driver nos seus nós.

    kubectl delete -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
    
  • Aplique novamente o manifesto DaemonSet de instalação manual do driver ao seu cluster. Em 25 de janeiro de 2023, atualizamos o manifesto para ignorar nós que usam instalação automática de driver.

    kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
    
  • Desative a instalação automática do driver para seu pool de nós. O DaemonSet de instalação do driver existente deve funcionar conforme o esperado após a conclusão da operação de atualização.

    gcloud container node-pools update POOL_NAME \
        --accelerator=type=GPU_TYPE,count=GPU_COUNT,gpu-driver-version=disabled \
        --cluster=CLUSTER_NAME \
        --location=LOCATION
    

    Substitua:

    • POOL_NAME: o nome do pool de nós.
    • GPU_TYPE: o tipo de GPU que o pool de nós já usa.
    • GPU_COUNT: o número de GPUs que já estão anexadas ao pool de nós.
    • CLUSTER_NAME: o nome do cluster do GKE que contém o pool de nós.
    • LOCATION: o local do Compute Engine do cluster.

Erro: "A imagem do contêiner cos-nvidia-installer:fixed não está presente com a política de extração de "Never"." ou "A imagem do contêiner ubuntu-nvidia-installer:fixed não está presente com a política de extração de "Never"."

Esse problema ocorre quando os pods nvidia-driver-installer estão no estado PodInitializing e o dispositivo do plug-in da GPU ou os pods do instalador do driver da GPU informam o seguinte erro. A mensagem de erro específica depende do sistema operacional executado no seu nó:

COS

Container image "cos-nvidia-installer:fixed" is not present with pull policy of Never.

Ubuntu

Container image "gke-nvidia-installer:fixed" is not present with pull policy of Never.

Esse problema pode ocorrer quando o coletor de lixo remove a imagem do driver NVIDIA pré-carregada para liberar espaço em um nó. Quando o pod do driver é recriado ou o contêiner é reiniciado, o GKE não consegue localizar a imagem pré-carregada.

Para atenuar o problema de coleta de lixo ao executar o COS, faça upgrade dos nós do GKE para uma destas versões que contêm a correção:

  • 1.25.15-gke.1040000 e mais recente
  • 1.26.10-gke.1030000 e mais recente
  • 1.27.6-gke.1513000 e mais recente
  • 1.28.3-gke.1061000 e mais recente

Se os nós estiverem executando o Ubuntu, ainda não há uma correção disponível para esse problema de coleta de lixo. Para atenuar esse problema no Ubuntu, é possível executar um contêiner privilegiado que interage com o host para garantir a configuração correta dos drivers da GPU NVIDIA. Para fazer isso, execute sudo /usr/local/bin/nvidia-container-first-boot no seu nó ou aplique o seguinte manifesto:

apiVersion: v1
kind: Pod
metadata:
  name: gke-nvidia-installer-fixup
spec:
  nodeSelector:
    cloud.google.com/gke-os-distribution: ubuntu
  hostPID: true
  containers:
  - name: installer
    image: ubuntu
    securityContext:
      privileged: true
    command:
      - nsenter
      - -at
      - '1'
      - --
      - sh
      - -c
      - "/usr/local/bin/nvidia-container-first-boot"
  restartPolicy: Never

Outra possível causa do problema é quando as imagens do driver da NVIDIA são perdidas após a reinicialização do nó ou a manutenção do host. Isso pode ocorrer em nós confidenciais ou com GPUs que usam armazenamento SSD local temporário. Nessa situação, o GKE carrega previamente as imagens do contêiner nvidia-installer-driver nos nós e as move do disco de inicialização para o SSD local na primeira inicialização.

Para confirmar se houve um evento de manutenção do host, use o seguinte filtro de registro:

resource.type="gce_instance"
protoPayload.serviceName="compute.googleapis.com"
log_id("cloudaudit.googleapis.com/system_event")

Para atenuar o problema de manutenção do host, faça upgrade da versão do GKE para uma destas versões:

  • 1.27.13-gke.1166000 e mais recente
  • 1.29.3-gke.1227000 e mais recente
  • 1.28.8-gke.1171000 e mais recente

Erro: falha ao configurar os diretórios de instalação do driver da GPU: falha ao criar a sobreposição lib64: falha ao criar o diretório /usr/local/nvidia/lib64: mkdir /usr/local/nvidia/lib64: não é um diretório.

Você encontra este erro no contêiner do instalador do driver da GPU dentro do plug-in do dispositivo GPU quando o fastsocket do NCCL está ativado:

failed to configure GPU driver installation dirs: failed to create lib64 overlay: failed to create dir /usr/local/nvidia/lib64: mkdir /usr/local/nvidia/lib64: not a directory.

Esse problema só acontece em clusters e nós que executam o GKE 1.28 e 1.29.

O problema é causado por uma condição de corrida de fastsocket do NCCL com o instalador do driver da GPU.

Para atenuar esse problema, faça upgrade da versão do GKE para uma destas versões:

  • 1.28.8-gke.1206000 e mais recente
  • 1.29.3-gke.1344000 e mais recente

Erro: falha ao receber o dispositivo nvidia0: dispositivo nvidia0 não encontrado.

O erro a seguir indica que o XID 62 e o RmInitAdapter falharam para a GPU com o número secundário 0:

Failed to get device for nvidia0: device nvidia0 not found.

O driver NVIDIA versão 525.105.17 tem um bug que pode causar erros de comunicação (XID) e impedir que a GPU seja inicializada corretamente, levando a uma falha na inicialização da GPU.

Para corrigir esse problema, atualize o driver NVIDIA para a versão 525.110.11 ou mais recente.

A seguir

Se precisar de mais ajuda, entre em contato com o Cloud Customer Care.