如需在 Google Distributed Cloud (GDC) 气隙环境中启用 Gemini,基础架构运维者 (IO) 必须先配置必要的网络和硬件。如需详细了解 GDC 中的受众群体,请参阅文档受众群体。
本指南提供了全面的分步说明,帮助 IO 在 GDC 环境中安装、预配和部署 Gemini 服务。以下程序适用于第 2 版组织。遵守这些准则对于在安全隔离的环境中部署高级 AI 功能至关重要。
首先,您必须配置网络以启用 Gemini,因为与常规 GDC 部署相比,Gemini 需要消耗更多电量。此配置涉及设置具有正确交换机和机架设置的 GPU pod。此网络配置还需要动态扩展 GPU Pod。
接下来,您必须手动下载并转移 Gemini 模型。Google 联系人会提供下载网址。您必须下载、验证模型映像,然后将其转移到您要提取模型映像的隔网环境。
最后,提取 Gemini 模型后,您可以在 GDC 中加载该模型。此操作需要现有存储桶和必要的运算符角色。将模型加载到存储桶中,然后将包含该模型的容器映像加载到容器注册表中。
部署前检查
您必须在 GDC 环境中以 v2 组织架构部署 Gemini。此架构使用专用 Gemini 组织,这些组织与客户组织协同工作,以提供 AI 功能。如需详细了解组织架构,请参阅组织概览。
在安装和配置 Gemini 之前,您必须满足部署要求。未能验证这些条件可能会导致严重延迟或安装失败。下表包含一份清单,列出了基础设施必须满足的所有前提条件(按所列顺序):
| Step | 前提条件 | 要求 | 验证和备注 | 已完成 |
|---|---|---|---|---|
| 1. | GDC 版本 | Bootstrap 版本 1.14.4 或更高版本 | 检查所有组织(包括根组织)的引导版本。 | |
| 2. | 客户组织 | 至少有一个租户组织在至少一个可用区中正常运行 | 创建客户组织。 | |
| 3. | 最低限度的 IAM 角色 | 您拥有在 GDC 上创建组织和部署 Gemini 所需的权限 | 准备 IAM 权限。 | |
| 4. | 裸金属 GPU 服务器 | 至少提供一个机器类为 d3-highgpu1-256-gdc-metal 的裸金属 GPU 服务器 |
确保机器类可用且已准备就绪。Dell XE9680 服务器提供所需的 H200 GPU。 请参阅使用 IAC 创建组织,验证 GPU 服务器是否存在:
|
Gemini 和客户组织
针对 Gemini 组织和客户组织使用 v2 组织架构。清楚了解此架构中的不同角色、组件和互动对于成功部署和运营至关重要。如需详细了解 GDC 中的组织架构,请参阅组织概览。
下表总结了 Gemini 与客户组织之间的主要区别:
| 功能 | Gemini 组织 | 客户组织 |
|---|---|---|
| 说明 | 配置为运行 Gemini 模型服务器的组织资源 | 标准 GDC 租户组织,用户可以在其中运行工作负载、访问平台基础架构和使用服务 |
| 托管式服务 |
|
推理网关 |
| 管理责任 | Google IO | Google 或客户 IO |
| 工作负载权限 | 仅限 Google 批准的第三方工作负载 | 客户工作负载 |
| 部署区域 | 单个专用 Gemini 可用区 | 与 Gemini 组织相同的 Gemini 可用区 也可以部署在更多可用区中。如需了解详情,请参阅 Gemini 的多地区部署模型。 |
| Gemini 服务的使用权限 | 不适用(提供相应服务) | 通过推理网关 |
关键组件
多个组件协同工作,共同提供 Gemini 服务。这些组件分布在 Gemini 组织和客户组织之间。
推理网关
推理网关是 Gemini 前端。它在客户组织的组织基础架构集群中作为 pod 运行,并且仅在 Gemini 区域中运行。
客户工作负载向 Gemini 模型发出的所有请求都会通过此网关。
GenAI Router
GenAI 路由器是 Gemini 后端。它作为 Gemini 组织的基础设施集群中的 pod 运行,并且仅在 Gemini 区域中运行,与推理网关类似。
其功能是接收来自推理网关的请求,并将这些请求路由到相应的模型服务器实例。
模型服务器
模型服务器负责托管和执行为 GDC 上的 Gemini 提供支持的 AI 模型。这些模型包括核心 Gemini 模型及其依赖的分词器模型。
此服务器使用 Gemini 组织中 d3-highgpu1-256-gdc-metal 裸机上的 H200 GPU。
模型服务器具有以下功能:
- 负载均衡:如果有多个 GPU 集,它可以分配推理请求,从而提高吞吐量和弹性。
- 多模型服务:它可以同时运行不同的 Gemini 模型,从而灵活地部署和使用模型。
Gemini 的多可用区部署模型
启用多可用区功能后,组织本身就是全球资源。这意味着,它们可在气隙环境中的所有区域访问。GDC 支持创建非对称组织,其中组织资源可全局访问,而其与服务器、存储和工作负载对应的实际部署则仅限于特定的一组可用区。
OrganizationZonalConfig 自定义资源用于定义组织在指定区域内的配置。如需详细了解多地区部署,请参阅多地区概览。
Gemini 部署的一项关键安全性和架构原则是,Gemini 组织必须仅部署在单个可用区中。不过,与之互动的相应客户组织可以部署在多个可用区中。此架构可让各个可用区中的客户工作负载访问集中式 Gemini 服务。