Se usó la API de Cloud Translation para traducir esta página.

Información sobre las estrategias de uso compartido de GPU en GKE

Autopilot estándar

En esta página, se explican las características y los mejores tipos de cargas de trabajo para cada estrategia de uso compartido de GPU disponible en Google Kubernetes Engine (GKE), como GPU de varias instancias, uso compartido de tiempo de GPU y NVIDIA MPS. El uso compartido de GPU te ayuda a minimizar la capacidad subutilizada en tu clúster y a proporcionar a las cargas de trabajo la capacidad suficiente para completar las tareas.

Esta página está dirigida a los administradores y operadores de plataformas y a los especialistas en IA y datos que desean ejecutar cargas de trabajo basadas en GPU que consuman la capacidad de GPU de la manera más eficiente posible. Para obtener más información sobre los roles comunes a los que hacemos referencia en el contenido de Google Cloud , consulta Roles y tareas comunes de los usuarios de GKE.

Antes de leer este documento, asegúrate de estar familiarizado con los siguientes conceptos:

Conceptos de Kubernetes, como Pods, nodos, implementaciones y espacios de nombres
Conceptos de GKE, como grupos de nodos, ajuste de escala automático y aprovisionamiento automático de nodos

Cómo funcionan las solicitudes de GPU en Kubernetes

Kubernetes permite que las cargas de trabajo soliciten con precisión las cantidades de recursos que necesitan para funcionar. Aunque puedes solicitar unidades de CPU fraccionarias para cargas de trabajo, no puedes solicitar unidades de GPU fraccionarias. Los manifiestos de Pods deben solicitar recursos de GPU en números enteros, lo que significa que una GPU física completa se asigna a un contenedor, incluso si el contenedor solo necesita una fracción de los recursos para funcionar de forma correcta. Esto es ineficiente y puede ser costoso, en especial cuando ejecutas varias cargas de trabajo con requisitos bajos de GPU similares.

Práctica recomendada:

Usa estrategias de uso compartido de GPU para mejorar el uso de la GPU cuando tus cargas de trabajo no requieran todos los recursos de GPU.

Las estrategias de uso compartido de la GPU permiten que varios contenedores usen de forma eficiente tus GPU conectadas y ahorren costos de ejecución. GKE proporciona las siguientes estrategias de uso compartido de GPU:

GPU de varias instancias: GKE divide una sola GPU compatible en hasta siete porciones. Cada porción se puede asignar a un contenedor en el nodo de forma independiente, para un máximo de siete contenedores por GPU. La GPU de varias instancias proporciona aislamiento de hardware entre las cargas de trabajo y calidad de servicio (QoS) coherente y predecible para todos los contenedores que se ejecutan en la GPU.
Uso de tiempo compartido de GPU: GKE usa la capacidad de uso de tiempo compartido integrada que proporcionan la GPU de NVIDIA y la pila de software. A partir de la arquitectura Pascal, las GPU de NVIDIA admiten la interrupción del nivel de instrucción. Cuando se realiza el cambio de contexto entre procesos que se ejecutan en una GPU, la interrupción a nivel de instrucción garantiza que cada proceso obtenga un fragmento de tiempo justo. El uso compartido de tiempo de GPU proporciona aislamiento a nivel de software entre las cargas de trabajo en términos de aislamiento de espacio de direcciones, aislamiento de rendimiento y aislamiento de errores.
NVIDIA MPS: GKE usa el servicio de procesos múltiples (MPS) de NVIDIA. NVIDIA MPS es una implementación alternativa y compatible con el objeto binario de la API CUDA, que está diseñada para habilitar de manera transparente las cargas de trabajo CUDA de procesos múltiples cooperativos para que se ejecuten de forma simultánea en un solo dispositivo de GPU. GPU con NVIDIA MPS proporciona aislamiento a nivel de software en términos de límites de recursos (porcentaje de subprocesos activos y memoria de dispositivo fijada).

En la siguiente tabla, se resumen y comparan las características de las estrategias de uso compartido de GPU disponibles:

	GPU de varias instancias	Uso de tiempo compartido de GPU	NVIDIA MPS
General	Uso compartido paralelo de GPU entre contenedores	Cambio rápido de contexto	Uso compartido paralelo de GPU entre contenedores
Aislamiento	Una sola GPU se divide en hasta siete porciones y cada contenedor de la misma GPU física tiene procesamiento, memoria y ancho de banda dedicados. Por lo tanto, un contenedor en una partición tiene una capacidad de procesamiento y una latencia predecibles, incluso cuando otros contenedores saturan a otras particiones.	Cada contenedor accede a la capacidad completa de la GPU física subyacente mediante el cambio de contexto entre los procesos que se ejecutan en una GPU. Sin embargo, el uso de tiempo compartido no proporciona aplicación forzosa de los límites de memoria entre los trabajos compartidos y el cambio rápido de contexto para el acceso compartido puede generar sobrecargas.	NVIDIA MPS tiene un aislamiento de recursos limitado, pero obtiene más flexibilidad en otras dimensiones, por ejemplo, los tipos de GPU y la cantidad máxima de unidades compartidas, lo que simplifica la asignación de recursos.
Apto para estas cargas de trabajo	Se recomienda para cargas de trabajo que se ejecutan en paralelo y que necesitan cierta resiliencia y QoS. Por ejemplo, cuando se ejecutan cargas de trabajo de inferencia de IA, la GPU de varias instancias permite que varias consultas de inferencia se ejecuten de forma simultánea para obtener respuestas rápidas, sin ralentizarse entre sí.	Se recomienda para cargas de trabajo interactivas y poco estables que tienen períodos de inactividad. Estas cargas de trabajo no son rentables con una GPU completamente dedicada. Mediante el uso de tiempo compartido, las cargas de trabajo obtienen acceso rápido a la GPU cuando están en fases activas. El uso de tiempo compartido de GPU es óptimo para situaciones en las que se desea evitar el uso de GPU costosas cuando pueden no ser necesarios el aislamiento completo y el acceso continuo a la GPU, por ejemplo, cuando varios usuarios prueban o crean prototipos de cargas de trabajo. Las cargas de trabajo que aplican el uso compartido de tiempo deben tolerar ciertos compromisos de rendimiento y latencia.	Se recomienda para el procesamiento por lotes en trabajos pequeños porque MPS maximiza la capacidad de procesamiento y el uso simultáneo de una GPU. MPS permite que los trabajos por lotes se procesen en paralelo de forma eficiente para cargas de trabajo pequeñas y medianas. NVIDIA MPS es óptimo para procesos cooperativos que actúan como una sola aplicación. Por ejemplo, los trabajos de la MPI con el paralelismo de clasificaciones entre las MPI. Con estos trabajos, cada proceso CUDA pequeño (por lo general, las clasificaciones de la MPI) puede ejecutarse de forma simultánea en la GPU para saturar por completo la GPU. Las cargas de trabajo que usan MPS CUDA deben tolerar las limitaciones de protección de memoria y contención de errores.
Supervisión	Las métricas de uso de GPU no están disponibles para GPU de varias instancias.	Usa Cloud Monitoring para supervisar el rendimiento del uso de tiempo compartido de la GPU. Para obtener más información sobre las métricas disponibles, consulta Supervisa el uso compartido de tiempo de la GPU o los nodos de NVIDIA MPS.	Usa Cloud Monitoring para supervisar el rendimiento de tu NVIDIA MPS. Para obtener más información sobre las métricas disponibles, consulta Supervisa el uso compartido de tiempo de la GPU o los nodos de NVIDIA MPS.
Solicita las GPU compartidas en cargas de trabajo	Ejecuta GPU de usuarios múltiples	Ejecuta GPU con uso de tiempo compartido	Ejecuta GPU con NVIDIA MPS

Práctica recomendada:

Para maximizar el uso de la GPU, combina las estrategias de uso compartido de la GPU. Para cada partición de GPU de varias instancias, usa el uso compartido de tiempo o NVIDIA MPS. Luego, puedes ejecutar varios contenedores en cada partición, y esos contenedores comparten el acceso a los recursos de esa partición. Te recomendamos que uses cualquiera de las siguientes combinaciones:

Uso de tiempo compartido de GPU y GPU de varias instancias.
GPU de varias instancias y NVIDIA MPS.

Cómo funcionan las estrategias de uso compartido de la GPU

Puedes especificar la cantidad máxima de contenedores que pueden compartir una GPU física.

En los clústeres de Autopilot, esto se configura en la especificación de la carga de trabajo.
En los clústeres estándar, esto se configura cuando creas un grupo de nodos nuevo con GPUs conectadas. Cada GPU en el grupo de nodos se comparte según la configuración que especifiques a nivel del grupo de nodos.

En las siguientes secciones, se explica el comportamiento y el funcionamiento de la programación de cada estrategia de uso compartido de la GPU.

GPU de varias instancias

Puedes solicitar una GPU de varias instancias en cargas de trabajo si especificas la etiqueta cloud.google.com/gke-gpu-partition-size en el campo nodeSelector de especificación del pod, en spec: nodeSelector.

GKE programa las cargas de trabajo en los nodos disponibles adecuados haciendo coincidir estas etiquetas. Si no hay nodos disponibles adecuados, GKE usa el ajuste de escala automático y el aprovisionamiento automático de nodos para crear nodos o grupos de nodos nuevos que coincidan con la etiqueta.

Uso de tiempo compartido de GPU o NVIDIA MPS

Puedes solicitar el uso de tiempo compartido de GPU o NVIDIA MPS en las cargas de trabajo si especificas las siguientes etiquetas en el campo nodeSelector de la especificación del pod, en spec:nodeSelector.

cloud.google.com/gke-max-shared-clients-per-gpu: Selecciona nodos que permitan que una cantidad específica de clientes comparta la GPU subyacente.
cloud.google.com/gke-gpu-sharing-strategy: Selecciona nodos que usen la estrategia de uso compartido de tiempo o NVIDIA MPS para las GPU.

En la siguiente tabla, se describe cómo cambia el comportamiento de la programación según la combinación de etiquetas de nodo que especifiques en los manifiestos.

Etiquetas de nodos

Etiquetas de nodos
`cloud.google.com/gke-max-shared-clients-per-gpu` y `cloud.google.com/gke-gpu-sharing-strategy`	GKE programa las cargas de trabajo en los nodos disponibles que coinciden con ambas etiquetas. Si no hay nodos disponibles, GKE usa el ajuste de escala automático y el aprovisionamiento automático de nodos para crear nodos o grupos de nodos nuevos que coincidan con ambas etiquetas.
Solo `cloud.google.com/gke-max-shared-clients-per-gpu`	Autopilot: GKE rechaza la carga de trabajo. Standard: GKE programa las cargas de trabajo en los nodos disponibles que coinciden con la etiqueta. Si no hay nodos disponibles, GKE usa el ajuste de escala automático y el aprovisionamiento automático de nodos para crear nodos o grupos de nodos nuevos que coincidan con la etiqueta. De forma predeterminada, los nodos aprovisionados automáticamente reciben la siguiente etiqueta y valor para cada estrategia: Uso de tiempo compartido de GPU: `cloud.google.com/gke-gpu-sharing-strategy=TIME_SHARING` NVIDIA MPS: `cloud.google.com/gke-gpu-sharing-strategy=MPS`
Solo `cloud.google.com/gke-gpu-sharing-strategy`	Autopilot: GKE rechaza la carga de trabajo. Standard: GKE programa las cargas de trabajo en los nodos disponibles que usan estrategias de uso compartido específicas. Si hay varios grupos de nodos de uso compartido con valores diferentes para `cloud.google.com/gke-max-shared-clients-per-gpu`, la carga de trabajo se puede programar en cualquier nodo disponible. Si no hay nodos disponibles en ningún grupo de nodos, el escalador automático del clúster escala verticalmente el grupo de nodos con el valor más bajo para `cloud.google.com/gke-max-shared-clients-per-gpu`. Si todos los grupos de nodos están al máximo de capacidad, el aprovisionamiento automático de nodos crea un grupo de nodos nuevo con un valor predeterminado de `cloud.google.com/gke-max-shared-clients-per-gpu=2`.

cloud.google.com/gke-max-shared-clients-per-gpu

y

cloud.google.com/gke-gpu-sharing-strategy

GKE programa las cargas de trabajo en los nodos disponibles que coinciden con ambas etiquetas.

Si no hay nodos disponibles, GKE usa el ajuste de escala automático y el aprovisionamiento automático de nodos para crear nodos o grupos de nodos nuevos que coincidan con ambas etiquetas.

Solo cloud.google.com/gke-max-shared-clients-per-gpu

Autopilot: GKE rechaza la carga de trabajo.

Standard: GKE programa las cargas de trabajo en los nodos disponibles que coinciden con la etiqueta. Si no hay nodos disponibles, GKE usa el ajuste de escala automático y el aprovisionamiento automático de nodos para crear nodos o grupos de nodos nuevos que coincidan con la etiqueta. De forma predeterminada, los nodos aprovisionados automáticamente reciben la siguiente etiqueta y valor para cada estrategia:

Uso de tiempo compartido de GPU: cloud.google.com/gke-gpu-sharing-strategy=TIME_SHARING
NVIDIA MPS: cloud.google.com/gke-gpu-sharing-strategy=MPS

Solo cloud.google.com/gke-gpu-sharing-strategy

Autopilot: GKE rechaza la carga de trabajo.

Standard: GKE programa las cargas de trabajo en los nodos disponibles que usan estrategias de uso compartido específicas.

Si hay varios grupos de nodos de uso compartido con valores diferentes para cloud.google.com/gke-max-shared-clients-per-gpu, la carga de trabajo se puede programar en cualquier nodo disponible.
Si no hay nodos disponibles en ningún grupo de nodos, el escalador automático del clúster escala verticalmente el grupo de nodos con el valor más bajo para cloud.google.com/gke-max-shared-clients-per-gpu.
Si todos los grupos de nodos están al máximo de capacidad, el aprovisionamiento automático de nodos crea un grupo de nodos nuevo con un valor predeterminado de cloud.google.com/gke-max-shared-clients-per-gpu=2.

El proceso de solicitud de GPU que completas es el mismo para la estrategia de uso compartido de tiempo de GPU y NVIDIA MPS.

Si estás desarrollando aplicaciones de GPU que se ejecutan en GPU de tiempo compartido o NVIDIA MPS, solo puedes solicitar una GPU para cada contenedor. GKE rechaza una solicitud de más de una GPU en un contenedor para evitar un comportamiento inesperado. Además, la cantidad de GPUs solicitadas con tiempo compartido y MPS de NVIDIA no es una medida de la potencia de procesamiento disponible para el contenedor.

En la siguiente tabla, se muestra qué esperar cuando solicitas cantidades específicas de GPU.

Solicitudes de GPU que se aplican al uso compartido de tiempo de la GPU y a NVIDIA MPS
Una GPU de tiempo compartido o NVIDIA MPS por contenedor	GKE permite la solicitud, incluso si el nodo tiene una o varias GPUs físicas.
Más de una GPU de tiempo compartido por contenedor	GKE rechaza la solicitud. Este comportamiento es el mismo cuando se solicita más de una instancia de GPU de varias instancias en un contenedor, ya que cada instancia de GPU se considera una GPU física discreta.
Más de una instancia de NVIDIA MPS por contenedor	Según la cantidad de GPUs físicas en el nodo, GKE hace lo siguiente: GKE permite la solicitud cuando el nodo solo tiene una GPU física. GKE rechaza la solicitud cuando el nodo tiene varias GPUs físicas. Este comportamiento es el mismo cuando se solicita más de una instancia de GPU de varias instancias en un contenedor, ya que cada instancia de GPU se considera una GPU física discreta.

Solicitudes de GPU que se aplican al uso compartido de tiempo de la GPU y a NVIDIA MPS

Una GPU de tiempo compartido o NVIDIA MPS por contenedor

GKE permite la solicitud, incluso si el nodo tiene una o varias GPUs físicas.

Más de una GPU de tiempo compartido por contenedor

GKE rechaza la solicitud.

Este comportamiento es el mismo cuando se solicita más de una instancia de GPU de varias instancias en un contenedor, ya que cada instancia de GPU se considera una GPU física discreta.

Más de una instancia de NVIDIA MPS por contenedor

Según la cantidad de GPUs físicas en el nodo, GKE hace lo siguiente:

GKE permite la solicitud cuando el nodo solo tiene una GPU física.
GKE rechaza la solicitud cuando el nodo tiene varias GPUs físicas. Este comportamiento es el mismo cuando se solicita más de una instancia de GPU de varias instancias en un contenedor, ya que cada instancia de GPU se considera una GPU física discreta.

Si GKE rechaza la carga de trabajo, verás un mensaje de error similar al siguiente:

status:
  message: 'Pod Allocate failed due to rpc error: code = Unknown desc = [invalid request
    for sharing GPU (time-sharing), at most 1 nvidia.com/gpu can be requested on GPU nodes], which is unexpected'
  phase: Failed
  reason: UnexpectedAdmissionError

Supervisar el uso compartido de tiempo de la GPU o los nodos MPS de NVIDIA

Usa Cloud Monitoring para supervisar el rendimiento de tus nodos de uso compartido de tiempo de la GPU o de NVIDIA MPS. GKE envía métricas para cada nodo de GPU a Cloud Monitoring. Estas métricas de nodos de uso compartido de tiempo de GPU o NVIDIA MPS se aplican a nivel del nodo (node/accelerator/).

Puedes verificar las siguientes métricas para cada nodo de uso compartido de tiempo de la GPU o NVIDIA MPS en Cloud Monitoring:

Ciclo de trabajo (node/accelerator/duty_cycle): Porcentaje de tiempo en el último período de muestra (10 segundos) durante el cual el nodo de GPU estuvo procesando de forma activa. Va de 1% a 100%.
Uso de memoria (node/accelerator/memory_used): Cantidad de memoria del acelerador asignada en bytes para cada nodo de GPU.
Capacidad de memoria (node/accelerator/memory_total): Memoria total del acelerador en bytes para cada nodo de GPU.

Estas métricas son diferentes de las métricas de las GPU normales que no son nodos de uso compartido de tiempo o de NVIDIA MPS. Las métricas de las GPUs físicas normales se aplican a nivel del contenedor (container/accelerator) y no se recopilan para los contenedores programados en una GPU que usa el uso compartido de tiempo de GPU o NVIDIA MPS.

¿Qué sigue?

Aprende a compartir GPU con varias cargas de trabajo mediante el uso del tiempo compartido.
Aprende a share GPUs with multiple workloads using NVIDIA MPS.
Obtén más información para ejecutar GPUs de varias instancias.
Obtén más información sobre GPU.
Si deseas obtener más información sobre la interrupción de procesamiento para la GPU de NVIDIA, consulta la Guía de ajuste de NVIDIA Pascal.