本页面将引导您了解如何在 Google Distributed Cloud (GDC) 气隙环境中设置 Gemini。本指南面向管理系统部署的基础设施运维人员 (IO),其中详细介绍了所需的必要基础设施、GPU pod 的硬件设置以及部署 Gemini 所需的网络配置。
准备工作
如需为 Gemini 设置网络配置,您必须在基本机架中成功安装根管理员集群。如需了解详情,请参阅根管理员集群启动。
为 Gemini 配置 GPU 硬件
如需在 GDC 中运行 Gemini,您必须以 GPU pod 的形式部署必要的硬件。 GPU Pod 由 1 到 8 个耗电的 GPU 服务器组成,是支持 GPU 的机架的最小可部署单元。每个 GPU 服务器都放置在自己的机架中,并连接到专用管理交换机和两个共享的架顶 (TOR) 交换机。每个机架的服务器数量取决于功率预算和您的要求。
下图显示了两种不同的 GPU pod 配置:

图 1. 系统会显示两个 GPU pod。第一个 GPU Pod 由 8 个 GPU 服务器组成。第二个 GPU Pod 包含 5 个 GPU 服务器。
在图 1 中,第一个 GPU Pod 包含以下内容:
- 专用 Virtual Private Cloud (VPC) 对,最多可支持 8 个 GPU 服务器。额外的服务器连接需要创建新的 GPU pod。
- GPU pod 中的每个 XE9680 GPU 都独占一个 TOR 交换机。GPU Pod 中的 TOR 不与其他计算或存储资源共享。
- 连接了两个 TOR 交换机,为 GPU 服务器提供高带宽连接。
- 此 GPU Pod 最多包含 8 个 GPU 服务器。每台服务器都放置在自己的机架中。
- 每个 GPU 服务器都连接到专用管理交换机和构成 VPC 对的共享 GPU TOR 交换机。
在图 1 中,显示的第二个 GPU Pod 采用相同的架构,但 GPU Pod 由 5 个 GPU 服务器组成,而不是 8 个。
为 Gemini 设置网络
如需在 GDC 中为 Gemini 配置网络,请按以下步骤操作:
对 GPU pod 执行动态扩展。按照执行动态扩展中所列的步骤操作。 如果您在可用区扩展期间遇到无法应用
SubcomponentOverride资源的问题,请按照 OLT-R0003 运行手册操作。验证连接是否成功。设置
KUBECONFIG环境变量以连接到根管理员集群:KUBECONFIG=KUBECONFIG_PATH将
KUBECONFIG_PATH替换为根管理员集群的 kubeconfig 文件的路径。获取 TOR 和管理交换机的状态:
kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system检查输出,并验证
READY列是否显示两个开关的值均为True:NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin如果您遇到任何影响网络配置的硬件问题,请参阅解决硬件故障。
解决硬件故障
如果扩展机架中的交换机出现任何硬件故障,请针对 TOR 交换机和管理交换机执行交换机产品退货和更换 (RMA) 流程。请按照 PNET-R2001 中的说明操作。