Esta página se ha traducido con Cloud Translation API.

Aumentar la velocidad del tráfico de red de los nodos de GPU

Autopilot Standard

En esta página se muestra cómo aumentar el ancho de banda de la red de los nodos de GPU en clústeres de Google Kubernetes Engine (GKE) mediante NIC virtual de Google (gVNIC).

En los clústeres de Autopilot, los nodos que ejecutan la versión 1.30.2-gke.1023000 de GKE o una posterior tienen instalada automáticamente la NIC virtual de Google (gVNIC). Las instrucciones de esta página solo se aplican a los clústeres estándar.

Para aumentar el ancho de banda en los nodos de CPU, puedes habilitar el ancho de banda de nivel 1.

Antes de empezar

Antes de empezar, asegúrate de que has realizado las siguientes tareas:

Habilita la API de Google Kubernetes Engine.

Habilitar la API de Google Kubernetes Engine

Si quieres usar Google Cloud CLI para esta tarea, instálala y, a continuación, inicialízala. Si ya has instalado la CLI de gcloud, obtén la versión más reciente ejecutando el comando gcloud components update. Es posible que las versiones anteriores de la interfaz de línea de comandos de gcloud no admitan la ejecución de los comandos de este documento.
Nota: Si ya tienes instalada la CLI gcloud, asegúrate de definir la compute/region propiedad. Si usas principalmente clústeres zonales, define compute/zone en su lugar. Si defines una ubicación predeterminada, puedes evitar errores en gcloud CLI como el siguiente: One of [--zone, --region] must be supplied: Please specify location. Es posible que tengas que especificar la ubicación en determinados comandos si la ubicación de tu clúster es diferente de la predeterminada que hayas definido.

Limitaciones

Se aplican las limitaciones de Compute Engine.

Requisitos

Los nodos de GKE deben usar una imagen de nodo de Container-Optimized OS.

Habilitar gVNIC

Puedes crear un clúster que tenga grupos de nodos que usen gVNIC, crear un grupo de nodos con gVNIC habilitado o actualizar un grupo de nodos para que use gVNIC.

Crear un clúster

Crea un clúster con grupos de nodos que usen gVNIC:

gcloud container clusters create CLUSTER_NAME \
    --accelerator type=GPU_TYPE,count=AMOUNT \
    --machine-type=MACHINE_TYPE \
    --enable-gvnic

Haz los cambios siguientes:

CLUSTER_NAME: el nombre del nuevo clúster.
GPU_TYPE: el tipo de acelerador de GPU que usas. Por ejemplo, nvidia-tesla-t4.
AMOUNT: número de GPUs que se van a asociar a los nodos del grupo de nodos.
MACHINE_TYPE: el tipo de máquina que quieres usar. gVNIC no se admite en los tipos de máquinas con memoria optimizada.

Crear un grupo de nodos

Crea un grupo de nodos que use gVNIC:

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

Haz los cambios siguientes:

NODEPOOL_NAME: el nombre de un nuevo grupo de nodos.
CLUSTER_NAME: el nombre del clúster.

Actualizar un grupo de nodos

Para actualizar un grupo de nodos para que use gVNIC, sigue estos pasos:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

Haz los cambios siguientes:

NODEPOOL_NAME: el nombre del grupo de nodos que quieras actualizar.
CLUSTER_NAME: el nombre del clúster.

Para aplicar este cambio, es necesario volver a crear los nodos, lo que puede provocar interrupciones en las cargas de trabajo en ejecución. Para obtener información sobre este cambio concreto, busca la fila correspondiente en la tabla Cambios manuales que recrean los nodos mediante una estrategia de actualización de nodos sin respetar las políticas de mantenimiento. Para obtener más información sobre las actualizaciones de nodos, consulta Planificar interrupciones de actualizaciones de nodos.

Inhabilitar gVNIC

Actualiza el grupo de nodos con la marca --no-enable-gvnic:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --no-enable-gvnic

Solución de problemas

Para solucionar problemas de gVNIC, consulta el artículo Solucionar problemas de NIC virtual de Google.

Siguientes pasos

Usa el registro de políticas de red para registrar cuándo se permiten o se deniegan las conexiones a los pods mediante las políticas de red de tu clúster.