이 페이지에서는 Google Cloud의 컨버지드 이더넷(RoCE) 네트워크 프로필을 통한 원격 직접 메모리 액세스(RDMA)를 간략하게 설명합니다.
개요
RDMA RoCE 네트워크 프로필에서 RoCE v2 프로토콜을 사용하여 네트워크에 생성된 VM의 GPU 간 지연 시간이 짧고 대역폭이 큰 RDMA 통신을 제공하는 가상 프라이빗 클라우드(VPC) 네트워크를 만들 수 있습니다.
RoCE 네트워크 프로필을 사용하는 VPC 네트워크를 RoCE VPC 네트워크라고 합니다.
RoCE VPC 네트워크는 AI 워크로드를 실행하는 데 유용합니다. Google Cloud에서 AI 워크로드를 실행하는 방법에 관한 자세한 내용은 AI 하이퍼컴퓨터 개요를 참조하세요.
RoCE 네트워크 프로필의 리소스 이름은 ZONE-vpc-roce 형식입니다(예: europe-west1-b-vpc-roce).
특정 네트워크 프로필 이름을 보려면 네트워크 프로필 목록을 참조하세요.
지원되는 영역
RoCE 네트워크 프로필은 일부 제한된 영역에서만 사용할 수 있습니다. RoCE VPC 네트워크는 RoCE 네트워크 프로필을 사용할 수 있는 영역에서만 만들 수 있습니다.
또는 RoCE VPC 네트워크에서 만들려는 GPU 머신 유형의 지원되는 영역을 확인할 수 있습니다. RoCE 네트워크 프로필은 사양에 설명된 지원되는 머신 유형과 동일한 영역에서 사용할 수 있습니다. 자세한 내용은 GPU 가용성 리전 및 영역을 참조하세요.
사양
RoCE VPC 네트워크의 사양은 다음과 같습니다.
NVIDIA ConnectX NIC. NVIDIA ConnectX NIC는 Google Cloud에서 MRDMA 네트워크 인터페이스로 표시됩니다.
영역 제약 조건. RoCE VPC 네트워크를 사용하는 리소스는 RoCE 네트워크 생성 중에 RoCE VPC 네트워크와 연결된 RoCE 네트워크 프로필과 동일한 영역으로 제한됩니다. 이 영역별 한도는 다음과 같은 영향을 미칩니다.
RoCE VPC 네트워크에서 네트워크 인터페이스가 있는 모든 인스턴스는 RoCE VPC 네트워크에서 사용하는 RoCE 네트워크 프로필의 영역과 일치하는 영역에 생성해야 합니다.
RoCE VPC 네트워크에서 생성된 모든 서브넷은 RoCE VPC 네트워크에서 사용되는 RoCE 네트워크 프로필의 영역이 포함된 리전에 있어야 합니다.
MRDMA 네트워크 인터페이스만 해당 RoCE VPC 네트워크는 MRDMA 네트워크 인터페이스(NIC)만 지원하며, 이 인터페이스는 A3 Ultra, A4, A4X 머신 시리즈에서만 사용할 수 있습니다.
가상 머신(VM) 인스턴스의 모든 비MRDMA NIC는 일반 VPC 네트워크에 연결되어야 합니다.
8896바이트 MTU 최적의 성능을 위해 RoCE VPC 네트워크의 최대 전송 단위(MTU)를 8896바이트로 설정하는 것이 좋습니다. 이렇게 하면 VM의 게스트 운영체제에 있는 RDMA 드라이버가 필요한 경우 더 작은 MTU를 사용할 수 있습니다.
gcloud CLI 또는 API를 사용하여 RoCE VPC 네트워크를 만드는 경우 8896바이트가 기본 MTU입니다. Google Cloud 콘솔을 사용하여 RoCE VPC 네트워크를 만드는 경우 MTU를 8896으로 설정해야 합니다.
방화벽 차이점 RoCE VPC 네트워크는 다른 암시적 방화벽 규칙을 사용합니다. RoCE 방화벽 정책 유형이 있는 리전 네트워크 방화벽 정책만 지원합니다. 지원되는 리전 네트워크 방화벽 정책 내 규칙의 파라미터 집합이 제한됩니다. 자세한 내용은 RoCE VPC 네트워크용 Cloud NGFW를 참조하세요.
VPC 흐름 로그 지원 없음 RoCE VPC 네트워크는 RoCE VPC 네트워크의 서브넷에 VPC 흐름 로그를 사용 설정하더라도 VPC 흐름 로그를 지원하지 않습니다.
크로스 레일 GPU-GPU 통신을 활용하는 워크로드를 지원하기 위해 RoCE VPC 네트워크는 네트워크에 다중 MRDMA NIC가 있는 VM을 지원합니다. 각 MRDMA NIC는 고유한 서브넷에 있어야 합니다. 동일한 RoCE VPC 네트워크에 MRDMA NIC를 두 개 이상 배치하면 지연 시간 증가 등 네트워크 성능에 영향을 줄 수 있습니다. MRDMA NIC는 NCCL을 사용합니다. NCCL은 크로스 레일 통신의 경우에도 모든 네트워크 전송을 정렬하려고 시도합니다. 예를 들어 PXN을 사용하여 NVlink를 통해 데이터를 레일 정렬 GPU에 복사한 후 네트워크를 통해 전송합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-02(UTC)"],[],[],null,["# RDMA RoCE network profile\n=========================\n\nThis page provides an overview of the\n[Remote Direct Memory Access (RDMA)](https://en.wikipedia.org/wiki/Remote_direct_memory_access)\nover Converged Ethernet (RoCE) network profile in Google Cloud.\n\nOverview\n--------\n\nThe RDMA RoCE network profile lets you create a Virtual Private Cloud (VPC)\nnetwork that provides low-latency, high-bandwidth RDMA communication between\nthe GPUs of VMs that are created in the network by using the\n[RoCE v2 protocol](https://en.wikipedia.org/wiki/RDMA_over_Converged_Ethernet).\nA VPC network that uses the RoCE network profile is called\nan *RoCE VPC network*.\n\nRoCE VPC networks are useful for running AI workloads. For more\ninformation about running AI workloads in Google Cloud, see\n[AI Hypercomputer overview](/ai-hypercomputer/docs/overview).\n\nThe resource name of an RoCE network profile has the following format\n\u003cvar translate=\"no\"\u003eZONE\u003c/var\u003e`-vpc-roce`---for example `europe-west1-b-vpc-roce`.\nTo view specific network profile names, see\n[List network profiles](/vpc/docs/view-network-profiles#list_network_profiles).\n\nSupported zones\n---------------\n\nThe RoCE network profile is available in a limited set of zones. You can only\ncreate an RoCE VPC network in a zone where the RoCE network\nprofile is available.\n\nTo view the supported zones, see\n[list network profiles](/vpc/docs/view-network-profiles#list_network_profiles).\n\nAlternatively, you can view the supported zones for the GPU machine type\nthat you intend to create in the RoCE VPC network. The RoCE\nnetwork profile is available in the same zones as the supported machine\ntypes described in [Specifications](#roce-vpc-specs). For more information, see\n[GPU availability regions and zones](/compute/docs/gpus/gpu-regions-zones#view-using-table).\n\nSpecifications\n--------------\n\nRoCE VPC networks have the following specifications:\n\n- **NVIDIA ConnectX NICs** . NVIDIA ConnectX NICs appear as `MRDMA` network\n interfaces in Google Cloud.\n\n- **Zonal constraint**. Resources using an RoCE VPC network are\n limited to the same zone as the RoCE network profile associated with the RoCE\n VPC network during the RoCE network creation. This zonal limit\n has the following effects:\n\n - All instances that have network interfaces in an RoCE VPC\n network must be created in the zone that matches the zone of the RoCE\n network profile used by the RoCE VPC network.\n\n - All subnets created in an RoCE VPC network must be located\n in the region that contains the zone of the RoCE network profile used by\n the RoCE VPC network.\n\n- **MRDMA network interfaces only** . RoCE VPC networks only\n support `MRDMA` network interfaces (NICs), which are only available on\n the [A3 Ultra](/compute/docs/accelerator-optimized-machines#a3-ultra-vms),\n [A4](/compute/docs/accelerator-optimized-machines#a4-vms), and\n [A4X](/compute/docs/accelerator-optimized-machines#a4x-vms) machine series.\n\n All non-MRDMA NICs of a virtual machine (VM) instance must be attached to\n a regular VPC network.\n- **8896 byte MTU** . For best performance, we recommend a [maximum transmission unit\n (MTU)](https://en.wikipedia.org/wiki/Maximum_transmission_unit) of `8896` bytes\n for RoCE VPC networks. This allows the RDMA driver in\n the VM's guest operating system to use smaller MTUs if needed.\n\n If you create an RoCE VPC network by using the gcloud CLI\n or the API, then `8896` bytes is the default MTU. If you create an RoCE\n VPC network by using the Google Cloud console, then you must\n set the MTU to `8896`.\n- **Firewall differences** . RoCE VPC networks use different\n implied firewall rules. They only support regional network firewall policies\n that have an RoCE firewall policy type. The set of parameters for rules within\n a supported regional network firewall policy are limited. For more\n information, see\n [Cloud NGFW for RoCE VPC networks](/firewall/docs/firewall-for-roce).\n\n- **No Connectivity Tests support** .\n [Connectivity Tests](/network-intelligence-center/docs/connectivity-tests/concepts/overview)\n doesn't support RoCE VPC networks.\n\n- **Other VPC features** . RoCE VPC networks\n support a limited set of other VPC features. For more\n information, see the following [Supported and unsupported features](#supported-features) section.\n\nSupported and unsupported features\n----------------------------------\n\nThe following table lists which VPC features are supported\nby RoCE VPC networks.\n\nRoCE VPC network multi-NIC considerations\n-----------------------------------------\n\nTo support workloads that benefit from cross-rail GPU-to-GPU communication, RoCE\nVPC networks support VMs that have multiple `MRDMA` NICs in the\nnetwork. Each `MRDMA` NIC must be in a unique subnet. Placing two or more\n`MRDMA` NICs in the same RoCE VPC network might affect network\nperformance, including increased latency. `MRDMA` NICs use\n[NCCL](https://developer.nvidia.com/nccl). NCCL attempts to align all network\ntransfers, even for cross-rail communication. For example, it uses PXN to copy\ndata through NVlink to a rail-aligned GPU before transferring it over the\nnetwork.\n\nWhat's next\n-----------\n\n- [Network profiles for specific use cases](/vpc/docs/network-profiles)\n- [Create a VPC network for RDMA NICs](/vpc/docs/create-vpc-network-rdma)\n- [Cloud NGFW for RoCE VPC networks](/firewall/docs/firewall-for-roce)"]]