Profil réseau RDMA
Cette page présente le profil réseau RDMA dans Google Cloud.
À propos du profil réseau RDMA
Le profil réseau RDMA vous permet de créer un réseau cloud privé virtuel (VPC) dans lequel vous pouvez exécuter des charges de travail d'IA sur des instances de VM équipées de NIC NVIDIA ConnectX-7. Ces cartes d'interface réseau sont compatibles avec la connectivité RDMA (Remote Direct Memory Access) et ont le type de carte d'interface réseau MRDMA
dans Google Cloud.
Un réseau VPC avec le profil réseau RDMA prend en charge la communication RDMA à faible latence et à bande passante élevée entre les GPU des VM créées sur le réseau à l'aide de RDMA sur Ethernet convergé v2 (RoCE v2).
Pour en savoir plus sur l'exécution de charges de travail d'IA dans Google Cloud, consultez la documentation sur AI Hypercomputer.
Spécifications
Les réseaux VPC créés avec le profil réseau RDMA présentent les spécifications suivantes:
- Le réseau n'accepte que les pièces jointes provenant de NIC
MRDMA
. Les VM A3 Ultra sont le seul type de VM compatible avec les NICMRDMA
. Les autres types de NIC, comme les GVNICs d'une VM A3 Ultra, doivent être associés à un réseau VPC standard. - L'ensemble des fonctionnalités compatibles avec le réseau est préconfiguré par Google Cloud pour prendre en charge l'exécution de charges de travail d'IA nécessitant RDMA. Les réseaux VPC avec le profil réseau RDMA présentent plus de contraintes que les réseaux VPC standards. Pour en savoir plus, consultez la section Fonctionnalités compatibles et non compatibles.
- Le réseau est limité à la zone du profil réseau que vous spécifiez lorsque vous créez le réseau. Par exemple, toutes les instances que vous créez dans le réseau doivent être créées dans la zone du profil réseau. Pour en savoir plus, consultez la section Zones compatibles. De plus, tous les sous-réseaux que vous créez dans le réseau doivent se trouver dans la région correspondant à la zone du profil réseau.
- Le nom de ressource du profil réseau RDMA que vous spécifiez lorsque vous créez le réseau est au format
ZONE-vpc-roce
, par exempleeurope-west1-b-vpc-roce
. - La MTU par défaut dans un réseau VPC créé avec le profil réseau RDMA est
8896
. Cette valeur par défaut permet au pilote RDMA de l'OS invité de la VM d'utiliser un MTU approprié. La MTU par défaut dans les réseaux VPC standards (1460
) peut être trop faible pour certaines charges de travail RDMA. Pour des performances optimales, Google vous recommande de ne pas modifier la valeur MTU par défaut.
Zones prises en charge
Le profil réseau RDMA est disponible dans les zones suivantes:
europe-west1-b
us-east7-c
Fonctionnalités compatibles et non compatibles
Cette section décrit les fonctionnalités compatibles et non compatibles des réseaux VPC créés avec le profil réseau RDMA.
Les fonctionnalités des réseaux VPC standards sont prises en charge, sauf si elles sont configurées pour être désactivées par le profil réseau, dépendent d'une fonctionnalité désactivée par le profil réseau ou ne s'appliquent pas au trafic provenant des NIC RDMA, comme décrit dans cette section.
Fonctionnalités configurées par le profil réseau
Ce tableau liste les fonctionnalités spécifiques configurées par la ressource de profil réseau et indique si elles sont compatibles ou non avec les réseaux VPC créés avec le profil réseau RDMA. Il inclut les valeurs de propriété du profil réseau définies par Google Cloud.
Caractéristique | Compatible | Nom de propriété | Valeur de propriété | Détails |
---|---|---|---|---|
Cartes d'interface réseau MRDMA |
interfaceTypes |
MRDMA |
Le réseau n'est compatible qu'avec les NIC Le réseau n'est pas compatible avec d'autres types de NIC, tels que |
|
Plusieurs cartes d'interface réseau sur le même réseau | allowMultiNicInSameNetwork |
MULTI_NIC_IN_SAME_NETWORK_ALLOWED |
Le réseau est compatible avec les VM multi-NIC, où différentes cartes d'interface réseau d'une même VM peuvent utiliser le même réseau VPC.
Consultez la section Considérations sur les performances pour les instances à plusieurs cartes d'interface réseau sur le même réseau VPC. |
|
Sous-réseaux IPv4 uniquement | allowedSubnetStackTypes |
SUBNET_STACK_TYPE_IPV4_ONLY |
Le réseau est compatible avec les sous-réseaux IPv4 uniquement, y compris les mêmes plages IPv4 valides que les réseaux VPC standards. Le réseau n'est pas compatible avec les sous-réseaux à double pile ni les sous-réseaux IPv6 uniquement. Pour en savoir plus, consultez la section Types de sous-réseaux. |
|
Objectif du sous-réseau PRIVATE |
allowedSubnetPurposes |
SUBNET_PURPOSE_PRIVATE |
Le réseau accepte les sous-réseaux standards, dont l'objectif est Le réseau n'est pas compatible avec les sous-réseaux Private Service Connect, les sous-réseaux proxy réservés ni les sous-réseaux NAT privés. Pour en savoir plus, consultez la section Finalités des sous-réseaux. |
|
GCE_ENDPOINT Adresse |
addressPurposes |
GCE_ENDPOINT |
Le réseau accepte les adresses IP dont l'objectif est Le réseau n'est pas compatible avec les adresses IP à usage spécial, telles que l'objet |
|
Adresses IP externes pour les VM | allowExternalIpAccess |
EXTERNAL_IP_ACCESS_BLOCKED |
Le réseau n'est pas compatible avec l'attribution d'adresses IP externes aux VM. Les cartes réseau connectées au réseau ne peuvent pas accéder à l'Internet public. | |
Plages d'adresses IP d'alias | allowAliasIpRanges |
ALIAS_IP_RANGE_BLOCKED |
Le réseau n'est pas compatible avec l'utilisation de plages d'adresses IP d'alias, y compris des plages d'adresses IPv4 secondaires, qui ne peuvent être utilisées que par les plages d'adresses IP d'alias. | |
Mode automatique | allowAutoModeSubnet |
AUTO_MODE_SUBNET_BLOCKED |
Le mode de création de sous-réseau du réseau VPC ne peut pas être défini sur le mode automatique. | |
Appairage de réseaux VPC | allowVpcPeering |
VPC_PEERING_BLOCKED |
Le réseau n'est pas compatible avec l'appairage de réseaux VPC. De plus, le réseau n'est pas compatible avec l'accès aux services privés, qui repose sur l'appairage de réseaux VPC. | |
Routes statiques | allowStaticRoutes |
STATIC_ROUTES_BLOCKED |
Le réseau n'est pas compatible avec les routes statiques. | |
Mise en miroir de paquets | allowPacketMirroring |
PACKET_MIRRORING_BLOCKED |
Le réseau n'est pas compatible avec la mise en miroir de paquets. | |
Cloud NAT | allowCloudNat |
CLOUD_NAT_BLOCKED |
Le réseau n'est pas compatible avec Cloud NAT. | |
Cloud Router | allowCloudRouter |
CLOUD_ROUTER_BLOCKED |
Le réseau n'est pas compatible avec la création de routeurs Cloud. | |
Cloud Interconnect | allowInterconnect |
INTERCONNECT_BLOCKED |
Le réseau n'est pas compatible avec Cloud Interconnect. | |
Cloud VPN | allowVpn |
VPN_BLOCKED |
Le réseau n'est pas compatible avec Cloud VPN. | |
Cloud Load Balancing | allowLoadBalancing |
LOAD_BALANCING_BLOCKED |
Le réseau n'est pas compatible avec Cloud Load Balancing. Vous ne pouvez pas créer d'équilibreurs de charge dans le réseau. De plus, vous ne pouvez pas utiliser Google Cloud Armor sur le réseau, car les règles de sécurité Google Cloud Armor ne s'appliquent qu'aux équilibreurs de charge et aux VM disposant d'adresses IP externes. | |
Accès privé à Google | allowPrivateGoogleAccess |
PRIVATE_GOOGLE_ACCESS_BLOCKED |
Le réseau n'est pas compatible avec l'accès privé à Google. | |
Private Service Connect | allowPsc |
PSC_BLOCKED |
Le réseau n'est compatible avec aucune configuration Private Service Connect. |
Fonctionnalités supplémentaires qui ne s'appliquent pas au trafic provenant des NIC RDMA
Étant donné que le RDMA est un trafic de couche 2, certaines fonctionnalités des réseaux VPC standards disponibles pour le trafic d'autres protocoles ne s'appliquent pas au trafic d'un réseau avec le profil réseau RDMA, par exemple:
Considérations sur les performances pour les NIC multiples sur le même réseau VPC
Pour prendre en charge les charges de travail qui bénéficient de la communication GPU à GPU cross-rail, le profil réseau RDMA vous permet de créer des VM avec plusieurs NIC MRDMA
associés au même réseau. Toutefois, la connectivité entre les rails peut affecter les performances du réseau, par exemple en augmentant la latence. Les VM qui disposent de NIC MRDMA
utilisent NCCL, qui tente d'aligner tous les transferts réseau sur les rails, même pour la communication entre rails, par exemple en utilisant PXN pour copier des données via NVlink vers un GPU aligné sur les rails avant de les transférer sur le réseau.