RDMA 네트워크 프로필
이 페이지에서는 Google Cloud의 RDMA 네트워크 프로필을 간략히 설명합니다.
RDMA 네트워크 프로필 정보
RDMA 네트워크 프로필을 사용하면 NVIDIA ConnectX-7 NIC가 있는 VM 인스턴스에서 AI 워크로드를 실행할 수 있는 Virtual Private Cloud (VPC) 네트워크를 만들 수 있습니다. 이러한 NIC는 원격 직접 메모리 액세스 (RDMA) 연결을 지원하며 Google Cloud에서 NIC 유형이 MRDMA
입니다.
RDMA 네트워크 프로필이 있는 VPC 네트워크는 통합 이더넷 v2 (RoCE v2)를 통해 RDMA를 사용하여 네트워크에 생성된 VM의 GPU 간에 지연 시간이 짧고 대역폭이 큰 RDMA 통신을 지원합니다.
Google Cloud에서 AI 워크로드를 실행하는 방법에 관한 자세한 내용은 AI Hypercomputer 문서를 참고하세요.
사양
RDMA 네트워크 프로필로 만든 VPC 네트워크의 사양은 다음과 같습니다.
- 네트워크는
MRDMA
NIC의 첨부파일만 허용합니다.MRDMA
NIC를 지원하는 유일한 VM 유형은 A3 Ultra VM입니다. 다른 NIC 유형(예: A3 Ultra VM의 GVNICs)은 일반 VPC 네트워크에 연결해야 합니다. - 네트워크에서 지원되는 기능 세트는 RDMA가 필요한 AI 워크로드 실행을 지원하도록 Google Cloud에서 사전 구성합니다. RDMA 네트워크 프로필이 있는 VPC 네트워크에는 일반 VPC 네트워크보다 더 많은 제약사항이 있습니다. 자세한 내용은 지원되는 기능 및 지원되지 않는 기능을 참고하세요.
- 네트워크는 네트워크를 만들 때 지정한 네트워크 프로필의 영역으로 제한됩니다. 예를 들어 네트워크에서 만드는 모든 인스턴스는 네트워크 프로필의 영역에서 만들어야 합니다. 자세한 내용은 지원되는 지역을 참고하세요. 또한 네트워크에서 만드는 모든 서브넷은 네트워크 프로필의 영역에 해당하는 리전에 있어야 합니다.
- 네트워크를 만들 때 지정하는 RDMA 네트워크 프로필의 리소스 이름은
ZONE-vpc-roce
형식(예:europe-west1-b-vpc-roce
)입니다. - RDMA 네트워크 프로필로 만든 VPC 네트워크의 기본 MTU는
8896
입니다. 이 기본값을 사용하면 VM의 게스트 OS에 있는 RDMA 드라이버가 적절한 MTU를 유연하게 사용할 수 있습니다. 일반 VPC 네트워크의 기본 MTU (1460
)는 일부 RDMA 워크로드에 너무 작을 수 있습니다. 최상의 성능을 위해 기본 MTU를 변경하지 않는 것이 좋습니다.
지원되는 영역
RDMA 네트워크 프로필은 다음 영역에서 사용할 수 있습니다.
europe-west1-b
us-east7-c
지원되는 기능 및 지원되지 않는 기능
이 섹션에서는 RDMA 네트워크 프로필로 만든 VPC 네트워크에서 지원되는 기능과 지원되지 않는 기능을 설명합니다.
일반 VPC 네트워크의 기능은 네트워크 프로필에서 사용 중지되도록 구성되어 있거나, 네트워크 프로필에서 사용 중지된 기능에 종속되어 있거나, 이 섹션에 설명된 대로 RDMA NIC의 트래픽에 적용되지 않는 한 지원됩니다.
네트워크 프로필에 의해 구성된 기능
이 표에는 네트워크 프로필 리소스로 구성된 특정 기능이 나열되어 있으며 RDMA 네트워크 프로필로 만든 VPC 네트워크에서 이러한 기능이 지원되는지 여부가 설명되어 있습니다. 여기에는 Google Cloud에서 설정한 네트워크 프로필 속성 값이 포함됩니다.
특성 | 지원됨 | 속성 이름 | 속성 값 | 세부정보 |
---|---|---|---|---|
NIC MRDMA 개 |
interfaceTypes |
MRDMA |
이 네트워크는 A3 Ultra VM에서 사용하는 네트워크가 |
|
동일한 네트워크의 다중 NIC | allowMultiNicInSameNetwork |
MULTI_NIC_IN_SAME_NETWORK_ALLOWED |
네트워크는 동일한 VM의 서로 다른 NIC가 동일한 VPC 네트워크를 사용할 수 있는 다중 NIC VM을 지원합니다.
동일한 VPC 네트워크의 멀티 NIC 성능 고려사항을 참고하세요. |
|
IPv4 전용 서브넷 | allowedSubnetStackTypes |
SUBNET_STACK_TYPE_IPV4_ONLY |
이 네트워크는 일반 VPC 네트워크와 동일한 유효한 IPv4 범위를 포함하여 IPv4 전용 서브넷을 지원합니다. 네트워크가 이중 스택 또는 IPv6 전용 서브넷을 지원하지 않습니다. 자세한 내용은 서브넷 유형을 참고하세요. |
|
PRIVATE 서브넷 용도 |
allowedSubnetPurposes |
SUBNET_PURPOSE_PRIVATE |
네트워크는 네트워크가 Private Service Connect 서브넷, 프록시 전용 서브넷 또는 Private NAT 서브넷을 지원하지 않습니다. 자세한 내용은 서브넷 용도를 참고하세요. |
|
GCE_ENDPOINT 주소 목적 |
addressPurposes |
GCE_ENDPOINT |
네트워크는 VM 인스턴스에 할당된 내부 IP 주소에 사용되는 네트워크가 Cloud Load Balancing에 사용되는 |
|
VM의 외부 IP 주소 | allowExternalIpAccess |
EXTERNAL_IP_ACCESS_BLOCKED |
네트워크에서 VM에 외부 IP 주소를 할당하는 것을 지원하지 않습니다. 네트워크에 연결된 NIC이 공개 인터넷에 연결할 수 없습니다. | |
별칭 IP 범위 | allowAliasIpRanges |
ALIAS_IP_RANGE_BLOCKED |
네트워크에서 별칭 IP 범위에서만 사용할 수 있는 보조 IPv4 주소 범위를 비롯한 별칭 IP 범위를 지원하지 않습니다. | |
자동 모드 | allowAutoModeSubnet |
AUTO_MODE_SUBNET_BLOCKED |
VPC 네트워크의 서브넷 생성 모드를 자동 모드로 설정할 수 없습니다. | |
VPC 네트워크 피어링 | allowVpcPeering |
VPC_PEERING_BLOCKED |
네트워크에서 VPC 네트워크 피어링을 지원하지 않습니다. 또한 이 네트워크는 VPC 네트워크 피어링을 사용하는 비공개 서비스 액세스를 지원하지 않습니다. | |
정적 경로 | allowStaticRoutes |
STATIC_ROUTES_BLOCKED |
네트워크에서 정적 경로를 지원하지 않습니다. | |
패킷 미러링 | allowPacketMirroring |
PACKET_MIRRORING_BLOCKED |
네트워크에서 패킷 미러링을 지원하지 않습니다. | |
Cloud NAT | allowCloudNat |
CLOUD_NAT_BLOCKED |
네트워크에서 Cloud NAT를 지원하지 않습니다. | |
Cloud Router | allowCloudRouter |
CLOUD_ROUTER_BLOCKED |
네트워크에서 Cloud Router 만들기를 지원하지 않습니다. | |
Cloud Interconnect | allowInterconnect |
INTERCONNECT_BLOCKED |
네트워크에서 Cloud Interconnect를 지원하지 않습니다. | |
Cloud VPN | allowVpn |
VPN_BLOCKED |
네트워크에서 Cloud VPN을 지원하지 않습니다. | |
Cloud Load Balancing | allowLoadBalancing |
LOAD_BALANCING_BLOCKED |
네트워크에서 Cloud Load Balancing을 지원하지 않습니다. 네트워크에서 부하 분산기를 만들 수 없습니다. 또한 Google Cloud Armor 보안 정책은 외부 IP 주소가 있는 부하 분산기 및 VM에만 적용되므로 네트워크에서 Google Cloud Armor를 사용할 수 없습니다. | |
비공개 Google 액세스 | allowPrivateGoogleAccess |
PRIVATE_GOOGLE_ACCESS_BLOCKED |
네트워크에서 비공개 Google 액세스를 지원하지 않습니다. | |
Private Service Connect | allowPsc |
PSC_BLOCKED |
네트워크에서 Private Service Connect 구성을 지원하지 않습니다. |
RDMA NIC의 트래픽에 적용되지 않는 추가 기능
RDMA는 레이어 2 트래픽이므로 다른 프로토콜의 트래픽에 사용할 수 있는 일반 VPC 네트워크의 일부 기능은 RDMA 네트워크 프로필이 있는 네트워크의 트래픽에 적용되지 않습니다(예: 다음).
동일한 VPC 네트워크의 다중 NIC 성능 고려사항
교차 레일 GPU 간 통신의 이점을 활용하는 워크로드를 지원하기 위해 RDMA 네트워크 프로필을 사용하면 동일한 네트워크에 여러 MRDMA
NIC가 연결된 VM을 만들 수 있습니다. 그러나 교차 레일 연결은 지연 시간 증가와 같은 네트워크 성능에 영향을 줄 수 있습니다. MRDMA
NIC가 있는 VM은 NCCL을 사용합니다. NCCL은 교차 레일 통신의 경우에도 모든 네트워크 전송을 레일 정렬하려고 시도합니다(예: 네트워크를 통해 전송하기 전에 PXN을 사용하여 NVlink를 통해 데이터를 레일 정렬된 GPU로 복사).