Google Distributed Cloud (GDC) 오프라인 환경에서 Gemini를 사용 설정하려면 먼저 인프라 운영자 (IO)가 필요한 네트워크와 하드웨어를 구성해야 합니다. GDC의 잠재고객에 대한 자세한 내용은 문서 잠재고객을 참고하세요.
이 가이드에서는 IO가 GDC 환경 내에서 Gemini 서비스를 설치, 프로비저닝, 배포하는 방법을 단계별로 자세히 설명합니다. 설명된 절차는 v2 조직에 적용됩니다. 안전한 격리 환경에서 고급 AI 기능을 배포하려면 이러한 가이드라인을 준수해야 합니다.
먼저 일반 GDC 배포에 비해 더 많은 전력 소비가 필요하므로 Gemini를 사용 설정하도록 네트워크를 구성해야 합니다. 이 구성에는 올바른 스위치와 랙 설정으로 GPU 포드를 설정하는 작업이 포함됩니다. 이 네트워크 구성에는 GPU 포드의 동적 확장도 필요합니다.
그런 다음 Gemini 모델을 수동으로 다운로드하고 전송해야 합니다. Google 담당자가 다운로드 URL을 제공합니다. 모델 이미지를 추출하는 오프라인 환경에 모델 이미지를 다운로드하고, 확인하고, 전송해야 합니다.
마지막으로 Gemini 모델을 추출한 후 GDC에서 로드할 수 있습니다. 이 작업을 수행하려면 기존 스토리지 버킷과 필요한 작업자 역할이 필요합니다. 모델을 스토리지 버킷에 로드한 다음 모델이 포함된 컨테이너 이미지를 Container Registry에 로드합니다.
배포 전 검사
v2 조직 아키텍처의 GDC 환경에 Gemini를 배포해야 합니다. 이 아키텍처는 고객 조직과 협력하여 AI 기능을 제공하는 전용 Gemini 조직을 사용합니다. 조직 아키텍처에 대한 자세한 내용은 조직 개요를 참고하세요.
Gemini를 설치하고 프로비저닝하기 전에 배포 요구사항을 충족해야 합니다. 이러한 조건을 확인하지 않으면 설치가 크게 지연되거나 실패할 수 있습니다. 다음 표에는 인프라가 충족해야 하는 모든 필수사항의 체크리스트가 제공된 순서대로 포함되어 있습니다.
| 단계 | 선행 조건 | 요구사항 | 확인 및 참고 | 완료 |
|---|---|---|---|---|
| 1. | GDC 버전 | 부트스트랩 버전 1.14.4 이상 | 루트 조직을 포함한 모든 조직의 부트스트랩 버전을 확인합니다. | |
| 2. | 고객의 조직 | 하나 이상의 테넌트 조직이 하나 이상의 영역에서 실행 중임 | 고객 조직 만들기 | |
| 3. | 최소 IAM 역할 | 조직을 만들고 GDC에 Gemini를 배포하는 데 필요한 권한이 있습니다. | IAM 권한 준비 | |
| 4. | 베어메탈 GPU 서버 | 머신 클래스 d3-highgpu1-256-gdc-metal가 있는 베어메탈 GPU 서버가 하나 이상 제공됩니다. |
머신 클래스가 사용 가능하고 준비되었는지 확인합니다. Dell XE9680 서버는 필요한 H200 GPU를 제공합니다. IAC로 조직 만들기를 참고하여 GPU 서버가 있는지 확인합니다.
|
Gemini 및 고객 조직
Gemini 및 고객 조직 모두에 v2 조직 아키텍처를 사용합니다. 이 아키텍처 내의 고유한 역할, 구성요소, 상호작용을 명확하게 이해하는 것은 성공적인 배포와 운영에 필수적입니다. GDC의 조직 아키텍처에 대한 자세한 내용은 조직 개요를 참고하세요.
다음 표에는 Gemini와 고객 조직의 주요 차이점이 요약되어 있습니다.
| 기능 | Gemini 조직 | 고객 조직 |
|---|---|---|
| 설명 | Gemini 모델 서버를 실행하도록 구성된 조직 리소스 | 사용자가 워크로드를 실행하고, 플랫폼 인프라에 액세스하고, 서비스를 사용하는 표준 GDC 테넌트 조직 |
| 호스팅 서비스 |
|
추론 게이트웨이 |
| 관리 책임 | Google IO | Google 또는 고객 IO |
| 워크로드 권한 | Google 승인 서드 파티 워크로드만 | 고객 워크로드 |
| 배포 영역 | 단일 전용 Gemini 영역 | Gemini 조직과 동일한 Gemini 영역 더 많은 영역에 배포할 수도 있습니다. 자세한 내용은 Gemini의 다중 영역 배포 모델을 참고하세요. |
| Gemini 서비스 액세스 | 해당 사항 없음 (서비스를 제공함) | 추론 게이트웨이를 통해 |
주요 구성요소
여러 구성요소가 함께 작동하여 Gemini 서비스를 제공합니다. 이러한 구성요소는 Gemini 조직과 고객 조직 간에 분산됩니다.
추론 게이트웨이
추론 게이트웨이는 Gemini 프런트엔드입니다. 고객 조직의 조직 인프라 클러스터 내에서 포드로 실행되며 Gemini 영역에서만 작동합니다.
고객 워크로드에서 Gemini 모델로 전송되는 모든 요청은 이 게이트웨이를 통과합니다.
생성형 AI 라우터
생성형 AI 라우터는 Gemini 백엔드입니다. Gemini 조직의 조직 인프라 클러스터 내에서 포드로 실행되며 추론 게이트웨이와 마찬가지로 Gemini 영역에서만 작동합니다.
이 서비스의 기능은 추론 게이트웨이에서 요청을 수신하고 적절한 모델 서버 인스턴스로 라우팅하는 것입니다.
모델 서버
모델 서버는 GDC에서 Gemini를 지원하는 AI 모델을 호스팅하고 실행합니다. 이러한 모델에는 핵심 Gemini 모델과 종속 토큰화 모델이 포함됩니다.
이 서버는 Gemini 조직 내 d3-highgpu1-256-gdc-metal 베어메탈 머신에 있는 H200 GPU를 사용합니다.
모델 서버에는 다음과 같은 기능이 있습니다.
- 부하 분산: GPU 세트가 두 개 이상 있는 경우 추론 요청을 분산하여 처리량과 복원력을 향상할 수 있습니다.
- 다중 모델 제공: 다양한 Gemini 모델을 동시에 실행하여 모델 배포 및 사용에 유연성을 제공합니다.
Gemini의 멀티 영역 배포 모델
멀티 영역 기능이 사용 설정되면 조직은 본질적으로 전역 리소스입니다. 즉, 에어 갭 유니버스 내의 모든 리전에서 액세스할 수 있습니다. GDC는 조직의 리소스가 전역적으로 액세스 가능하지만 서버, 스토리지, 워크로드에 해당하는 실제 배포는 특정 영역 하위 집합으로 제한되는 비대칭 조직의 생성을 지원합니다.
OrganizationZonalConfig 커스텀 리소스는 지정된 영역 내의 조직 구성을 정의합니다. 다중 영역 배포에 대한 자세한 내용은 다중 영역 개요를 참고하세요.
Gemini 배포의 핵심 보안 및 아키텍처 원칙은 Gemini 조직이 단일 영역에만 배포되어야 한다는 것입니다. 하지만 이와 상호작용하는 해당 고객 조직은 여러 영역에 배포될 수 있습니다. 이 아키텍처를 사용하면 다양한 영역의 고객 워크로드가 중앙 집중식 Gemini 서비스에 액세스할 수 있습니다.