Profil réseau RDMA

Cette page présente le profil réseau RDMA dans Google Cloud.

À propos du profil réseau RDMA

Le profil réseau RDMA vous permet de créer un réseau cloud privé virtuel (VPC) dans lequel vous pouvez exécuter des charges de travail d'IA sur des instances de VM équipées de NIC NVIDIA ConnectX-7. Ces cartes d'interface réseau sont compatibles avec la connectivité RDMA (Remote Direct Memory Access) et ont le type de carte d'interface réseau MRDMA dans Google Cloud.

Un réseau VPC avec le profil réseau RDMA prend en charge la communication RDMA à faible latence et à bande passante élevée entre les GPU des VM créées sur le réseau à l'aide de RDMA sur Ethernet convergé v2 (RoCE v2).

Pour en savoir plus sur l'exécution de charges de travail d'IA dans Google Cloud, consultez la documentation sur AI Hypercomputer.

Spécifications

Les réseaux VPC créés avec le profil réseau RDMA présentent les spécifications suivantes:

  • Le réseau n'accepte que les pièces jointes provenant de NIC MRDMA. Les VM A3 Ultra sont le seul type de VM compatible avec les NIC MRDMA. Les autres types de NIC, comme les GVNICs d'une VM A3 Ultra, doivent être associés à un réseau VPC standard.
  • L'ensemble des fonctionnalités compatibles avec le réseau est préconfiguré par Google Cloud pour prendre en charge l'exécution de charges de travail d'IA nécessitant RDMA. Les réseaux VPC avec le profil réseau RDMA présentent plus de contraintes que les réseaux VPC standards. Pour en savoir plus, consultez la section Fonctionnalités compatibles et non compatibles.
  • Le réseau est limité à la zone du profil réseau que vous spécifiez lorsque vous créez le réseau. Par exemple, toutes les instances que vous créez dans le réseau doivent être créées dans la zone du profil réseau. Pour en savoir plus, consultez la section Zones compatibles. De plus, tous les sous-réseaux que vous créez dans le réseau doivent se trouver dans la région correspondant à la zone du profil réseau.
  • Le nom de ressource du profil réseau RDMA que vous spécifiez lorsque vous créez le réseau est au format ZONE-vpc-roce, par exemple europe-west1-b-vpc-roce.
  • La MTU par défaut dans un réseau VPC créé avec le profil réseau RDMA est 8896. Cette valeur par défaut permet au pilote RDMA de l'OS invité de la VM d'utiliser un MTU approprié. La MTU par défaut dans les réseaux VPC standards (1460) peut être trop faible pour certaines charges de travail RDMA. Pour des performances optimales, Google vous recommande de ne pas modifier la valeur MTU par défaut.

Zones prises en charge

Le profil réseau RDMA est disponible dans les zones suivantes:

  • europe-west1-b
  • us-east7-c

Fonctionnalités compatibles et non compatibles

Cette section décrit les fonctionnalités compatibles et non compatibles des réseaux VPC créés avec le profil réseau RDMA.

Les fonctionnalités des réseaux VPC standards sont prises en charge, sauf si elles sont configurées pour être désactivées par le profil réseau, dépendent d'une fonctionnalité désactivée par le profil réseau ou ne s'appliquent pas au trafic provenant des NIC RDMA, comme décrit dans cette section.

Fonctionnalités configurées par le profil réseau

Ce tableau liste les fonctionnalités spécifiques configurées par la ressource de profil réseau et indique si elles sont compatibles ou non avec les réseaux VPC créés avec le profil réseau RDMA. Il inclut les valeurs de propriété du profil réseau définies par Google Cloud.

Caractéristique Compatible Nom de propriété Valeur de propriété Détails
Cartes d'interface réseau MRDMA interfaceTypes MRDMA

Le réseau n'est compatible qu'avec les NIC MRDMA utilisés par les VM A3 Ultra.

Le réseau n'est pas compatible avec d'autres types de NIC, tels que GVNIC ou VIRTIO_NET.

Plusieurs cartes d'interface réseau sur le même réseau allowMultiNicInSameNetwork MULTI_NIC_IN_SAME_NETWORK_ALLOWED Le réseau est compatible avec les VM multi-NIC, où différentes cartes d'interface réseau d'une même VM peuvent utiliser le même réseau VPC.

Consultez la section Considérations sur les performances pour les instances à plusieurs cartes d'interface réseau sur le même réseau VPC.

Sous-réseaux IPv4 uniquement allowedSubnetStackTypes SUBNET_STACK_TYPE_IPV4_ONLY

Le réseau est compatible avec les sous-réseaux IPv4 uniquement, y compris les mêmes plages IPv4 valides que les réseaux VPC standards.

Le réseau n'est pas compatible avec les sous-réseaux à double pile ni les sous-réseaux IPv6 uniquement. Pour en savoir plus, consultez la section Types de sous-réseaux.

Objectif du sous-réseau PRIVATE allowedSubnetPurposes SUBNET_PURPOSE_PRIVATE

Le réseau accepte les sous-réseaux standards, dont l'objectif est PRIVATE.

Le réseau n'est pas compatible avec les sous-réseaux Private Service Connect, les sous-réseaux proxy réservés ni les sous-réseaux NAT privés. Pour en savoir plus, consultez la section Finalités des sous-réseaux.

GCE_ENDPOINT Adresse addressPurposes GCE_ENDPOINT

Le réseau accepte les adresses IP dont l'objectif est GCE_ENDPOINT, qui est utilisé pour les adresses IP internes attribuées aux instances de VM.

Le réseau n'est pas compatible avec les adresses IP à usage spécial, telles que l'objet SHARED_LOADBALANCER_VIP utilisé dans Cloud Load Balancing. Pour en savoir plus, consultez la documentation de référence sur les ressources d'adresse.

Adresses IP externes pour les VM allowExternalIpAccess EXTERNAL_IP_ACCESS_BLOCKED Le réseau n'est pas compatible avec l'attribution d'adresses IP externes aux VM. Les cartes réseau connectées au réseau ne peuvent pas accéder à l'Internet public.
Plages d'adresses IP d'alias allowAliasIpRanges ALIAS_IP_RANGE_BLOCKED Le réseau n'est pas compatible avec l'utilisation de plages d'adresses IP d'alias, y compris des plages d'adresses IPv4 secondaires, qui ne peuvent être utilisées que par les plages d'adresses IP d'alias.
Mode automatique allowAutoModeSubnet AUTO_MODE_SUBNET_BLOCKED Le mode de création de sous-réseau du réseau VPC ne peut pas être défini sur le mode automatique.
Appairage de réseaux VPC allowVpcPeering VPC_PEERING_BLOCKED Le réseau n'est pas compatible avec l'appairage de réseaux VPC. De plus, le réseau n'est pas compatible avec l'accès aux services privés, qui repose sur l'appairage de réseaux VPC.
Routes statiques allowStaticRoutes STATIC_ROUTES_BLOCKED Le réseau n'est pas compatible avec les routes statiques.
Mise en miroir de paquets allowPacketMirroring PACKET_MIRRORING_BLOCKED Le réseau n'est pas compatible avec la mise en miroir de paquets.
Cloud NAT allowCloudNat CLOUD_NAT_BLOCKED Le réseau n'est pas compatible avec Cloud NAT.
Cloud Router allowCloudRouter CLOUD_ROUTER_BLOCKED Le réseau n'est pas compatible avec la création de routeurs Cloud.
Cloud Interconnect allowInterconnect INTERCONNECT_BLOCKED Le réseau n'est pas compatible avec Cloud Interconnect.
Cloud VPN allowVpn VPN_BLOCKED Le réseau n'est pas compatible avec Cloud VPN.
Cloud Load Balancing allowLoadBalancing LOAD_BALANCING_BLOCKED Le réseau n'est pas compatible avec Cloud Load Balancing. Vous ne pouvez pas créer d'équilibreurs de charge dans le réseau. De plus, vous ne pouvez pas utiliser Google Cloud Armor sur le réseau, car les règles de sécurité Google Cloud Armor ne s'appliquent qu'aux équilibreurs de charge et aux VM disposant d'adresses IP externes.
Accès privé à Google allowPrivateGoogleAccess PRIVATE_GOOGLE_ACCESS_BLOCKED Le réseau n'est pas compatible avec l'accès privé à Google.
Private Service Connect allowPsc PSC_BLOCKED Le réseau n'est compatible avec aucune configuration Private Service Connect.

Fonctionnalités supplémentaires qui ne s'appliquent pas au trafic provenant des NIC RDMA

Étant donné que le RDMA est un trafic de couche 2, certaines fonctionnalités des réseaux VPC standards disponibles pour le trafic d'autres protocoles ne s'appliquent pas au trafic d'un réseau avec le profil réseau RDMA, par exemple:

Considérations sur les performances pour les NIC multiples sur le même réseau VPC

Pour prendre en charge les charges de travail qui bénéficient de la communication GPU à GPU cross-rail, le profil réseau RDMA vous permet de créer des VM avec plusieurs NIC MRDMA associés au même réseau. Toutefois, la connectivité entre les rails peut affecter les performances du réseau, par exemple en augmentant la latence. Les VM qui disposent de NIC MRDMA utilisent NCCL, qui tente d'aligner tous les transferts réseau sur les rails, même pour la communication entre rails, par exemple en utilisant PXN pour copier des données via NVlink vers un GPU aligné sur les rails avant de les transférer sur le réseau.

Étape suivante