Perfil de red de RDMA
En esta página, se proporciona una descripción general del perfil de red de RDMA en Google Cloud.
Acerca del perfil de red de RDMA
El perfil de red de RDMA te permite crear una red de nube privada virtual (VPC) en la que puedes ejecutar cargas de trabajo de IA en instancias de VM que tengan NIC de NVIDIA ConnectX. Estas NIC admiten la conectividad de acceso directo a la memoria (RDMA) remoto y tienen el tipo de NIC MRDMA
en Google Cloud.
Una red de VPC con el perfil de red RDMA admite la comunicación de RDMA de ancho de banda alto y latencia baja entre las GPU de las VMs que se crean en la red con el uso de RDMA a través de Ethernet v2 convergente (RoCE v2).
Para obtener más información sobre la ejecución de cargas de trabajo de IA en Google Cloud, consulta la documentación de AI Hypercomputer.
Especificaciones
Las redes de VPC creadas con el perfil de red de RDMA tienen las siguientes especificaciones:
- La red solo acepta adjuntos de
MRDMA
NIC. Las VMs A3 Ultra y A4 son los únicos tipos de VM que admiten NICMRDMA
. Otros tipos de NIC, por ejemplo, las GVNIC de una VM A3 Ultra, deben conectarse a una red de VPC normal. - El conjunto de funciones compatibles con la red está preconfigurado porGoogle Cloud para admitir la ejecución de cargas de trabajo de IA que requieren RDMA. Las redes de VPC con el perfil de red RDMA tienen más restricciones que las redes de VPC normales. Para obtener más información, consulta Funciones compatibles y no compatibles.
La red está restringida a la zona del perfil de red que especifiques cuando la crees. Por ejemplo, cualquier instancia que crees en la red debe crearse en la zona del perfil de red. Además, cualquier subred que crees en la red debe estar en la región que corresponda a la zona del perfil de red.
El perfil de red de RDMA no está disponible en todas las zonas. Para ver las zonas en las que el perfil de red está disponible, consulta Zonas compatibles. También puedes ver las instancias específicas de la zona del perfil de red que están disponibles si generas una lista de los perfiles de red.
El nombre del recurso del perfil de red de RDMA que especificas cuando creas la red tiene el siguiente formato
ZONE-vpc-roce
, por ejemplo,europe-west1-b-vpc-roce
.La MTU predeterminada en una red de VPC creada con el perfil de red de RDMA es
8896
. Este valor predeterminado le brinda al controlador de RDMA en el SO invitado de la VM la flexibilidad para usar una MTU adecuada. Es posible que la MTU predeterminada en las redes de VPC normales sea demasiado pequeña para algunas cargas de trabajo de RDMA. Para obtener el mejor rendimiento, Google recomienda que no cambies la MTU predeterminada.
Zonas admitidas
El perfil de red de RDMA está disponible en las siguientes zonas:
europe-west1-b
us-central1-a
us-central1-b
us-east4-b
us-west1-c
Funciones compatibles y no compatibles
En esta sección, se describen las funciones compatibles y no compatibles en las redes de VPC creadas con el perfil de red de RDMA.
Se admiten las funciones de las redes de VPC normales, a menos que el perfil de red las configure, dependan de una función que inhabilite el perfil de red o no se apliquen al tráfico de las NIC de RDMA como se describe en esta sección.
Funciones configuradas por el perfil de red
En esta tabla, se enumeran las funciones específicas que configura el recurso de perfil de red y se describe si son compatibles o no con las redes de VPC creadas con el perfil de red de RDMA. Incluye los valores de propiedad del perfil de red que establece Google Cloud.
Función | Admitido | Nombre de la propiedad | Valor de la propiedad | Detalles |
---|---|---|---|---|
MRDMA de NIC |
interfaceTypes |
MRDMA |
La red solo admite La red no admite otros tipos de NIC, como |
|
Varios NIC en la misma red | allowMultiNicInSameNetwork |
MULTI_NIC_IN_SAME_NETWORK_ALLOWED |
La red admite VMs con varias NIC en las que diferentes NIC de la misma VM pueden conectarse a la misma red de VPC. Sin embargo, los NIC deben conectarse a distintas subredes de la red.
Consulta Consideraciones de rendimiento para varias NIC en la misma red de VPC. |
|
Subredes solo IPv4 | allowedSubnetStackTypes |
SUBNET_STACK_TYPE_IPV4_ONLY |
La red solo admite subredes IPv4, incluidos los mismos rangos IPv4 válidos que las redes de VPC normales. La red no admite subredes de pila doble ni solo IPv6. Para obtener más información, consulta Tipos de subredes. |
|
Propósito de la subred PRIVATE |
allowedSubnetPurposes |
SUBNET_PURPOSE_PRIVATE |
La red admite subredes regulares, cuyo propósito es La red no admite subredes de Private Service Connect, subredes de solo proxy ni subredes NAT privadas. Para obtener más información, consulta Propósitos de las subredes. |
|
Propósito de la dirección GCE_ENDPOINT |
addressPurposes |
GCE_ENDPOINT |
La red admite direcciones IP con el propósito La red no admite direcciones IP con propósito especial, como el propósito |
|
Direcciones IP externas para VMs | allowExternalIpAccess |
EXTERNAL_IP_ACCESS_BLOCKED |
La red no admite la asignación de direcciones IP externas a las VM. Las NIC conectadas a la red no pueden alcanzar la Internet pública. | |
Rangos de alias de IP | allowAliasIpRanges |
ALIAS_IP_RANGE_BLOCKED |
La red no admite el uso de rangos de alias de IP, incluidos los rangos de direcciones IPv4 secundarios, que solo pueden usar los rangos de alias de IP. | |
Modo automático | allowAutoModeSubnet |
AUTO_MODE_SUBNET_BLOCKED |
El modo de creación de subredes de la red de VPC no se puede establecer en modo automático. | |
Intercambio de tráfico entre redes de VPC | allowVpcPeering |
VPC_PEERING_BLOCKED |
La red no es compatible con el intercambio de tráfico entre redes de VPC. Además, la red no admite el acceso privado a servicios, que depende del intercambio de tráfico entre redes de VPC. | |
Rutas estáticas | allowStaticRoutes |
STATIC_ROUTES_BLOCKED |
La red no admite rutas estáticas. | |
Duplicación de paquetes | allowPacketMirroring |
PACKET_MIRRORING_BLOCKED |
La red no admite la duplicación de paquetes. | |
Cloud NAT | allowCloudNat |
CLOUD_NAT_BLOCKED |
La red no es compatible con Cloud NAT. | |
Cloud Router | allowCloudRouter |
CLOUD_ROUTER_BLOCKED |
La red no admite la creación de Cloud Routers. | |
Cloud Interconnect | allowInterconnect |
INTERCONNECT_BLOCKED |
La red no es compatible con Cloud Interconnect. | |
Cloud VPN | allowVpn |
VPN_BLOCKED |
La red no es compatible con Cloud VPN. | |
Cloud Load Balancing | allowLoadBalancing |
LOAD_BALANCING_BLOCKED |
La red no es compatible con Cloud Load Balancing. No puedes crear balanceadores de cargas en la red. Además, no puedes usar Google Cloud Armor en la red, ya que las políticas de seguridad de Google Cloud Armor se aplican solo a balanceadores de cargas y a las VM con direcciones IP externas. | |
Acceso privado a Google | allowPrivateGoogleAccess |
PRIVATE_GOOGLE_ACCESS_BLOCKED |
La red no es compatible con el Acceso privado a Google. | |
Private Service Connect | allowPsc |
PSC_BLOCKED |
La red no admite ninguna configuración de Private Service Connect. |
Funciones adicionales que no se aplican al tráfico de los NIC de RDMA
Algunas funciones de las redes de VPC normales que están disponibles para el tráfico de otros protocolos, como las siguientes, no se aplican al tráfico en una red con el perfil de red RDMA:
- No se admiten las reglas de firewall de nueva generación de Cloud.
- Los registros de flujo de VPC no son compatibles.
- No se admiten las pruebas de conectividad.
Si bien Google Cloud no te impide configurar estas funciones, no son eficaces en redes de VPC con el perfil de red RDMA.
Consideraciones de rendimiento para varias NIC en la misma red de VPC
Para admitir cargas de trabajo que se benefician de la comunicación entre rieles de GPU a GPU, el perfil de red de RDMA te permite crear VMs que tengan varias NIC MRDMA
conectadas a la misma red. Sin embargo, la conectividad entre rieles puede afectar el rendimiento de la red, por ejemplo, a través de una latencia mayor. Las VM que tienen NIC MRDMA
usan NCCL, que intenta alinear en riel todas las transferencias de red, incluso para la comunicación entre rieles, por ejemplo, mediante PXN a fin de copiar datos a través de NVlink a una GPU alineada con riel antes de realizar la transferencia a través de la red.