Gemini용 네트워크 설정

이 페이지에서는 Google Distributed Cloud (GDC) 에어 갭 환경 내에서 Gemini를 설정하는 방법을 안내합니다. 이 가이드는 시스템 배포를 관리하는 인프라 운영자 (IO)를 대상으로 하며, 필요한 인프라, GPU 포드의 하드웨어 설정, Gemini 배포에 필요한 네트워크 구성에 관한 세부정보를 다룹니다.

시작하기 전에

Gemini의 네트워킹 구성을 설정하려면 기본 랙에 루트 관리자 클러스터가 성공적으로 설치되어 있어야 합니다. 자세한 내용은 루트 관리자 클러스터 부트스트랩을 참고하세요.

Gemini용 GPU 하드웨어 구성하기

GDC 내에서 Gemini를 실행하려면 GPU 포드 형태로 필요한 하드웨어를 배포해야 합니다. GPU 포드는 전력 소비가 많은 GPU 서버 1~8개로 구성되며 GPU 지원 랙의 최소 배포 가능 단위입니다. 각 GPU 서버는 자체 랙에 있으며 전용 관리 스위치와 두 개의 공유 TOR (Top of Rack) 스위치에 모두 연결됩니다. 랙당 서버 수는 전력 예산과 요구사항에 따라 다릅니다.

다음 다이어그램에는 두 가지 GPU 포드 구성이 나와 있습니다.

GPU 포드의 랙 구성

그림 1. GPU 포드 2개가 표시됩니다. 첫 번째 GPU 포드는 8개의 GPU 서버로 구성됩니다. 두 번째 GPU 포드는 GPU 서버 5개로 구성됩니다.

그림 1에서 첫 번째 GPU 포드는 다음으로 구성됩니다.

최대 8개의 GPU 서버를 지원할 수 있는 전용 Virtual Private Cloud (VPC) 쌍 서버 연결을 추가하려면 새 GPU 포드를 만들어야 합니다.
GPU 포드의 각 XE9680 GPU는 TOR 스위치를 독점적으로 사용합니다. GPU 포드의 TOR는 다른 컴퓨팅 또는 스토리지 리소스와 공유되지 않습니다.
GPU 서버에 고대역폭 연결을 제공하기 위해 두 개의 TOR 스위치가 연결되어 있습니다.
이 GPU 포드는 최대 8개의 GPU 서버로 구성됩니다. 각 서버는 자체 랙에 있습니다.
각 GPU 서버는 전용 관리 스위치와 VPC 쌍을 형성하는 공유 GPU TOR 스위치에 모두 연결됩니다.

그림 1에서 두 번째 GPU 포드는 동일한 아키텍처를 공유하지만 GPU 포드는 8개가 아닌 5개의 GPU 서버로 구성됩니다.

Gemini 네트워크 설정

GDC에서 Gemini용 네트워크를 구성하려면 다음 단계를 따르세요.

GPU 포드에서 동적 확장을 실행합니다. 동적 확장 실행에 나열된 단계를 따릅니다. 영역 확장 중에 SubcomponentOverride 리소스를 적용할 수 없는 문제가 발생하면 OLT-R0003 런북을 따르세요.
연결이 성공했는지 확인합니다. KUBECONFIG 환경 변수를 설정하여 루트 관리자 클러스터에 연결합니다.
```
KUBECONFIG=KUBECONFIG_PATH
```
KUBECONFIG_PATH를 루트 관리자 클러스터의 kubeconfig 파일 경로로 바꿉니다.

TOR 및 관리 스위치의 상태를 가져옵니다.

kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system

출력을 확인하고 READY 열에 두 스위치 모두에 대해 True 값이 표시되는지 확인합니다.

NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin

네트워크 구성에 영향을 미치는 하드웨어 문제가 발생하는 경우 하드웨어 장애 해결을 참고하세요.

하드웨어 오류 해결

확장된 랙의 스위치에서 하드웨어 장애가 발생하는 경우 TOR 및 관리 스위치에 대해 스위치 제품 반품 및 교체 (RMA) 프로세스를 실행합니다. PNET-R2001의 안내를 따르세요.

다음 단계

Gemini 조직 만들기