Aumentar la velocidad del tráfico de red de los nodos de GPU


En esta página se muestra cómo aumentar el ancho de banda de la red de los nodos de GPU en clústeres de Google Kubernetes Engine (GKE) mediante NIC virtual de Google (gVNIC).

En los clústeres de Autopilot, los nodos que ejecutan la versión 1.30.2-gke.1023000 de GKE o una posterior tienen instalada automáticamente la NIC virtual de Google (gVNIC). Las instrucciones de esta página solo se aplican a los clústeres estándar.

Para aumentar el ancho de banda en los nodos de CPU, puedes habilitar el ancho de banda de nivel 1.

Antes de empezar

Antes de empezar, asegúrate de haber realizado las siguientes tareas:

  • Habilita la API de Google Kubernetes Engine.
  • Habilitar la API de Google Kubernetes Engine
  • Si quieres usar Google Cloud CLI para esta tarea, instálala y, a continuación, inicialízala. Si ya has instalado la gcloud CLI, obtén la versión más reciente ejecutando gcloud components update.

Limitaciones

Requisitos

  • Los nodos de GKE deben usar una imagen de nodo de Container-Optimized OS.

Habilitar gVNIC

Puedes crear un clúster que tenga grupos de nodos que usen gVNIC, crear un grupo de nodos con gVNIC habilitado o actualizar un grupo de nodos para que use gVNIC.

Crear un clúster

Crea un clúster con grupos de nodos que usen gVNIC:

gcloud container clusters create CLUSTER_NAME \
    --accelerator type=GPU_TYPE,count=AMOUNT \
    --machine-type=MACHINE_TYPE \
    --enable-gvnic

Haz los cambios siguientes:

  • CLUSTER_NAME: el nombre del nuevo clúster.
  • GPU_TYPE: el tipo de acelerador de GPU que usas. Por ejemplo, nvidia-tesla-t4.
  • AMOUNT: número de GPUs que se van a asociar a los nodos del grupo de nodos.
  • MACHINE_TYPE: el tipo de máquina que quieres usar. gVNIC no se admite en los tipos de máquinas con memoria optimizada.

Crear un grupo de nodos

Crea un grupo de nodos que use gVNIC:

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

Haz los cambios siguientes:

  • NODEPOOL_NAME: el nombre de un nuevo grupo de nodos.
  • CLUSTER_NAME: el nombre del clúster.

Actualizar un grupo de nodos

Para actualizar un grupo de nodos para que use gVNIC, sigue estos pasos:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

Haz los cambios siguientes:

  • NODEPOOL_NAME: el nombre del grupo de nodos que quieras actualizar.
  • CLUSTER_NAME: el nombre del clúster.

Para aplicar este cambio, es necesario volver a crear los nodos, lo que puede provocar interrupciones en las cargas de trabajo en ejecución. Para obtener información sobre este cambio concreto, busca la fila correspondiente en la tabla Cambios manuales que recrean los nodos mediante una estrategia de actualización de nodos sin respetar las políticas de mantenimiento. Para obtener más información sobre las actualizaciones de nodos, consulta Planificar interrupciones de actualizaciones de nodos.

Inhabilitar gVNIC

Actualiza el grupo de nodos con la marca --no-enable-gvnic:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --no-enable-gvnic

Para aplicar este cambio, es necesario volver a crear los nodos, lo que puede provocar interrupciones en las cargas de trabajo en ejecución. Para obtener información sobre este cambio concreto, busca la fila correspondiente en la tabla Cambios manuales que recrean los nodos mediante una estrategia de actualización de nodos sin respetar las políticas de mantenimiento. Para obtener más información sobre las actualizaciones de nodos, consulta Planificar interrupciones de actualizaciones de nodos.

Solución de problemas

Para solucionar problemas de gVNIC, consulta el artículo Solucionar problemas de NIC virtual de Google.

Siguientes pasos