Ejecuta instancias con aceleradores de GPU

En esta página, se describe cómo usar los aceleradores de hardware de la unidad de procesamiento de gráficos (GPU) de NVIDIA en instancias de máquina virtual (VM) de Container-Optimized OS.

Descripción general

Con Compute Engine, puedes crear instancias de VM que ejecuten Container-Optimized OS que tengan GPU conectadas. Solo puedes usar dos familias de máquinas cuando ejecutas GPU en Compute Engine: optimizada para aceleradores y N1 de uso general.

  • En los tipos de máquina optimizados para aceleradores, cada tipo de máquina tiene un modelo específico de GPU de NVIDIA conectado.

    • Para los tipos de máquinas optimizados para aceleradores A3, se adjuntan las GPU NVIDIA H100 de 80 GB.
    • Para los tipos de máquinas optimizados para aceleradores A2, se adjuntan las GPU de NVIDIA A100. Están disponibles en las opciones A100 de 40 GB y A100 de 80 GB.
    • En los tipos de máquina optimizados para aceleradores G2, se adjuntan las GPU L4 de NVIDIA.
  • En los tipos de máquinas de uso general N1, puedes conectar las siguientes GPU:

Las GPU proporcionan potencia de procesamiento para impulsar tareas de aprendizaje profundo, como el reconocimiento de imágenes y el procesamiento de lenguaje natural, además de otras tareas de procesamiento intensivo, como la transcodificación de video y el procesamiento de imágenes.

Google Cloud proporciona una experiencia fluida para que ejecutes las cargas de trabajo de GPU dentro de contenedores en instancias de VM de Container-Optimized OS para que puedas beneficiarte de otras funciones de Container-Optimized OS, como la seguridad y la confiabilidad.

Para obtener más información sobre los casos de uso de las GPU, consulta GPU de Cloud.

Para obtener información sobre el uso de GPU en Google Kubernetes Engine (GKE), consulta Ejecuta GPU en GKE.

Requisitos

Ejecutar GPU en instancias de VM de Container-Optimized OS tiene los siguientes requisitos:

  • Imágenes de x86 de Container-Optimized OS: solo las imágenes de Container-Optimized OS basadas en x86 admiten la ejecución de GPU. Las imágenes de Container-Optimized OS basadas en ARM no son compatibles con la función.

  • Versión de Container-Optimized OS: Para ejecutar GPU en instancias de VM de Container-Optimized OS, la meta de la actualización de Container-Optimized OS debe ser una meta de LTS y el número de hito debe ser 85 o superior.

  • Cuota de GPU: Debes tener una cuota de GPU de Compute Engine en la zona elegida antes de que puedas crear instancias de VM de Container-Optimized OS con GPU. A fin de asegurarte de que tienes suficiente cuota de GPU para tu proyecto, consulta Cuotas en Google Cloud Console.

    Si necesitas una cuota de GPU adicional, debes solicitar la cuota de GPU en la consola de Google Cloud. Si tienes una cuenta de facturación establecida, tu proyecto recibirá de forma automática la cuota de GPU después de enviar la solicitud de cuota.

  • Controladores de GPU de NVIDIA: Debes instalar los controladores de GPU de NVIDIA por tu cuenta en las instancias de VM de Container-Optimized OS. En esta sección, se explica cómo instalar los controladores en las instancias de VM de Container-Optimized OS.

Crea una VM

En las siguientes secciones, se explica cómo ejecutar GPU en las VM de Container-Optimized OS.

Primero, necesitas una instancia de VM de Container-Optimized OS con GPU. El método que se usa para crear una VM depende del modelo de GPU seleccionado.

También puedes agregar GPU a instancias de VM existentes de Container-Optimized OS.

Cuando crees VM, recuerda elegir imágenes o familias de imágenes del proyecto de imagen cos-cloud.

Para verificar todas las GPU conectadas a tus instancias de VM actuales de Container-Optimized OS, ejecuta el siguiente comando:

gcloud compute instances describe INSTANCE_NAME \
    --project=PROJECT_ID \
    --zone ZONE \
    --format="value(guestAccelerators)"

Reemplaza lo siguiente:

Instala los controladores de GPU de NVIDIA

Después de crear una instancia con una o más GPU, el sistema requiere controladores de dispositivo para que las aplicaciones puedan acceder a este. En esta guía, se muestran las formas de instalar controladores propiedad de NVIDIA en instancias de VM de Container-Optimized OS.

Container-Optimized OS proporciona una utilidad integrada cos-extensions para simplificar el proceso de instalación del controlador NVIDIA. Cuando se ejecuta la utilidad, los usuarios aceptan aceptar el contrato de licencia de NVIDIA.

Identifica las versiones del controlador de GPU

Cada versión de la imagen de Container-Optimized OS tiene una versión de controlador de GPU de NVIDIA compatible y predeterminada. Consulta las notas de la versión de los principales eventos importantes de LTS de Container-Optimized OS para conocer la versión predeterminada.

También puedes verificar todas las versiones de controlador de GPU compatibles si ejecutas el siguiente comando en tu instancia de VM de Container-Optimized OS:

sudo cos-extensions list

Compatibilidad con GPU K80

Los controladores NVIDIA R470 son la última familia de controladores compatible con las GPU K80. Si se va a instalar una versión posterior en una instancia con GPU K80, cos-gpu-installer:v2 (a partir de la versión 2.0.26) invocada por cos-extensions volverá a una versión R470 disponible automáticamente.

Identificar la versión necesaria del kit de herramientas CUDA

Si tus aplicaciones usan CUDA, instala el kit de herramientas CUDA de NVIDIA en tus contenedores. Cada versión de CUDA requiere una versión mínima del controlador de GPU o una posterior. Si deseas verificar la versión mínima del controlador de GPU requerida para tu versión de CUDA, consulta el kit de herramientas CUDA y las versiones de controladores compatibles. Asegúrate de que la versión de Container-Optimized OS que usas tenga la versión del controlador de GPU correcta para la versión de CUDA que usas.

Instala el controlador

Puedes instalar las GPU mediante comandos de shell, secuencias de comandos de inicio o cloud-init. Los tres métodos usan el comando sudo cos-extensions install gpu a fin de instalar el controlador de GPU predeterminado para la versión de LTS de Container-Optimized OS.

Shell

Después de conectarte a las instancias de VM de Container-Optimized OS, puedes ejecutar el siguiente comando de forma manual para instalar los controladores:

sudo cos-extensions install gpu

Secuencias de comandos de inicio

También puedes instalar controladores de GPU a través de secuencias de comandos de inicio. Puedes proporcionar la secuencia de comandos de inicio cuando creas instancias de VM o aplicar la secuencia de comandos a las instancias de VM en ejecución y, luego, reiniciarlas. Esto te permite instalar controladores sin conectarte a las VM. También se asegura de que los controladores de GPU estén configurados en cada reinicio de la VM.

A continuación, se muestra un ejemplo de una secuencia de comandos de inicio para instalar controladores:

#! /bin/bash

sudo cos-extensions install gpu

Cloud-init

Cloud-init es similar a las secuencias de comandos de inicio, pero es más potente. En el siguiente ejemplo, se muestra cómo instalar el controlador de GPU a través de cloud-init:

#cloud-config

runcmd:
  - cos-extensions install gpu

Usar cloud-init te permite especificar las dependencias para que tus aplicaciones de GPU solo se ejecuten después de instalar el controlador. Consulta la sección De extremo a extremo: Ejecuta una aplicación de GPU en Container-Optimized OS para obtener más detalles.

Si deseas obtener más información para usar cloud-init en las instancias de VM de Container-Optimized OS, consulta la página Crea y configura instancias.

En algunos casos, el controlador predeterminado no cumple con los requisitos mínimos de controlador de tu kit de herramientas CUDA o tu modelo de GPU. Para instalar una versión del controlador específica del controlador de GPU, agrega la marca de versión. Reemplaza DRIVER_VERSION por la versión mínima del controlador de GPU requerida para tu modelo de GPU y compatible con Container-Optimized OS. Container-Optimized OS solo admite un conjunto selecto de controladores NVIDIA.

sudo cos-extensions install gpu -- -version=DRIVER_VERSION

Verifica la instalación

Puedes ejecutar los siguientes comandos en las instancias de VM de Container-Optimized OS para verificar de forma manual la instalación de los controladores de GPU. El resultado del comando muestra la información de los dispositivos de la GPU, como el estado de los dispositivos y la versión del controlador.

# Make the driver installation path executable by re-mounting it.
sudo mount --bind /var/lib/nvidia /var/lib/nvidia
sudo mount -o remount,exec /var/lib/nvidia
/var/lib/nvidia/bin/nvidia-smi

Configura contenedores para consumir GPU

Después de instalar los controladores de GPU, puedes configurar contenedores para consumir GPU. En el siguiente ejemplo, se muestra cómo ejecutar una aplicación CUDA en un contenedor de Docker que consume /dev/nvidia0:

docker run \
  --volume /var/lib/nvidia/lib64:/usr/local/nvidia/lib64 \
  --volume /var/lib/nvidia/bin:/usr/local/nvidia/bin \
  --device /dev/nvidia0:/dev/nvidia0 \
  --device /dev/nvidia-uvm:/dev/nvidia-uvm \
  --device /dev/nvidiactl:/dev/nvidiactl \
  gcr.io/google_containers/cuda-vector-add:v0.1

Puedes ejecutar tus contenedores a través de cloud-init para especificar la dependencia entre la instalación del controlador y tus contenedores. Consulta la sección De extremo a extremo: Ejecuta una aplicación de GPU en Container-Optimized OS para obtener más detalles.

De extremo a extremo: Ejecuta una aplicación de GPU en Container-Optimized OS

En el siguiente ejemplo de extremo a extremo, se muestra cómo usar cloud-init para configurar las instancias de VM de Container-Optimized OS que aprovisionan un contenedor de aplicaciones de GPU myapp:latest después de instalar el controlador de GPU:

#cloud-config

users:
- name: myuser
  uid: 2000

write_files:
  - path: /etc/systemd/system/install-gpu.service
    permissions: 0644
    owner: root
    content: |
      [Unit]
      Description=Install GPU drivers
      Wants=gcr-online.target docker.socket
      After=gcr-online.target docker.socket

      [Service]
      User=root
      Type=oneshot
      ExecStart=cos-extensions install gpu
      StandardOutput=journal+console
      StandardError=journal+console
  - path: /etc/systemd/system/myapp.service
    permissions: 0644
    owner: root
    content: |
      [Unit]
      Description=Run a myapp GPU application container
      Requires=install-gpu.service
      After=install-gpu.service

      [Service]
      User=root
      Type=oneshot
      RemainAfterExit=true
      ExecStart=/usr/bin/docker run --rm -u 2000 --name=myapp --device /dev/nvidia0:/dev/nvidia0 myapp:latest
      StandardOutput=journal+console
      StandardError=journal+console

runcmd:
  - systemctl daemon-reload
  - systemctl start install-gpu.service
  - systemctl start myapp.service

Acerca de las bibliotecas de NVIDIA CUDA-X

CUDA® es una plataforma de procesamiento paralela de NVIDIA y un modelo de programación para las GPUs. Para usar aplicaciones CUDA, las bibliotecas deben estar presentes en la imagen que usas. Puedes realizar alguna de las siguientes acciones para agregar las bibliotecas NVIDIA CUDA-X:

  • Usa una imagen con las bibliotecas NVIDIA CUDA-X preinstaladas. Por ejemplo, puedes usar los contenedores de aprendizaje profundo de Google. Estos contenedores instalan previamente los frameworks de ciencia de datos clave, las bibliotecas y las herramientas de CUDA-X de NVIDIA. Como alternativa, la imagen CUDA de NVIDIA solo contiene las bibliotecas NVIDIA CUDA-X.

  • Compila y usa tu propia imagen. En este caso, incluye /usr/local/cuda-XX.X/lib64, que contiene las bibliotecas NVIDIA CUDA-X, y /usr/local/nvidia/lib64, que contienen los controladores del dispositivo NVIDIA, en la variable de entorno LD_LIBRARY_PATH. Para /usr/local/cuda-XX.X/lib64, el nombre del directorio depende de la versión de la imagen que usaste. Por ejemplo, las bibliotecas de NVIDIA CUDA-X y las utilidades de depuración en contenedores de Docker pueden estar en /usr/local/cuda-11.0/lib64 y /usr/local/nvidia/bin, respectivamente.

Seguridad

Al igual que otros módulos de kernel en Container-Optimized OS, los controladores de GPU están firmados y verificados criptográficamente por claves que están incorporadas en el kernel de Container-Optimized OS. A diferencia de otros entornos, Container-Optimized OS no permite que los usuarios inscriban su clave de propietario de máquina (MOK) ni usen las claves para firmar módulos de kernel personalizados. Esto es para garantizar la integridad del kernel de Container-Optimized OS y reducir la superficie de ataque.

Restricciones

Restricciones de la versión de Container-Optimized OS

Solo el evento importante de actualización 85 de Container-Optimized OS LTS y las versiones posteriores admiten la utilidad cos-extensions mencionada en la sección Instala controladores de dispositivos de GPU de NVIDIA. Para los eventos importantes de versiones anteriores de Container-Optimized OS, usa la herramienta de código abierto cos-gpu-installer para instalar de forma manual los controladores de GPU.

Restricciones de instancias de VM

Las instancias de VM con GPU tienen restricciones específicas que hacen que se comporten de manera diferente a otros tipos de instancias. Para obtener más información, consulta la página Restricciones de GPU de Compute Engine.

Cuota y disponibilidad

Las GPU están disponibles en regiones y zonas específicas. Cuando solicitas la cuota de GPU, debes tener en cuenta las regiones en las que quieres ejecutar tus instancias de VM de Container-Optimized OS.

Para obtener una lista completa de las regiones y zonas aplicables, consulta GPU en Compute Engine. También puedes ver las GPU disponibles en tu zona mediante la CLI de Google Cloud.

gcloud compute accelerator-types list

Precios

Para obtener información sobre los precios de GPU, consulta la página de precios de Compute Engine.

Compatibilidad

Cada versión de actualización de Container-Optimized OS tiene al menos una versión de controlador de GPU de NVIDIA compatible. El equipo de Container-Optimized OS califica los controladores de GPU compatibles con la versión de Container-Optimized OS antes de su lanzamiento para asegurarse de que sean compatibles. Es posible que las versiones nuevas de los controladores de GPU de NVIDIA estén disponibles cada tanto. Algunas versiones del controlador de GPU no cumplirán con los requisitos para Container-Optimized OS, y el cronograma de calificación no está garantizado.

Cuando el equipo de Container-Optimized OS lanza una versión nueva en un evento importante de actualización, intentamos admitir la última versión del controlador de GPU en la rama del controlador correspondiente. El propósito de esto es corregir las CVE que se descubren en los controladores de GPU lo antes posible.

Si un cliente de Container-Optimized OS identifica un problema relacionado con los controladores de GPU de NVIDIA, el cliente debe trabajar directamente con NVIDIA para obtener asistencia. Si el problema no es específico de un conductor, los usuarios pueden abrir una solicitud con el servicio de Atención al cliente de Cloud.

¿Qué sigue?