为 Gemini 设置网络

本页面将引导您了解如何在 Google Distributed Cloud (GDC) 气隙环境中设置 Gemini。本指南面向管理系统部署的基础设施运维人员 (IO),其中详细介绍了所需的必要基础设施、GPU pod 的硬件设置以及部署 Gemini 所需的网络配置。

准备工作

如需为 Gemini 设置网络配置,您必须在基本机架中成功安装根管理员集群。如需了解详情,请参阅根管理员集群启动

为 Gemini 配置 GPU 硬件

如需在 GDC 中运行 Gemini,您必须以 GPU pod 的形式部署必要的硬件。 GPU Pod 由 1 到 8 个耗电的 GPU 服务器组成,是支持 GPU 的机架的最小可部署单元。每个 GPU 服务器都放置在自己的机架中,并连接到专用管理交换机和两个共享的架顶 (TOR) 交换机。每个机架的服务器数量取决于功率预算和您的要求。

下图显示了两种不同的 GPU pod 配置:

GPU pod 的机架配置

图 1. 系统会显示两个 GPU pod。第一个 GPU Pod 由 8 个 GPU 服务器组成。第二个 GPU Pod 包含 5 个 GPU 服务器。

在图 1 中,第一个 GPU Pod 包含以下内容:

  • 专用 Virtual Private Cloud (VPC) 对,最多可支持 8 个 GPU 服务器。额外的服务器连接需要创建新的 GPU pod。
  • GPU pod 中的每个 XE9680 GPU 都独占一个 TOR 交换机。GPU Pod 中的 TOR 不与其他计算或存储资源共享。
  • 连接了两个 TOR 交换机,为 GPU 服务器提供高带宽连接。
  • 此 GPU Pod 最多包含 8 个 GPU 服务器。每台服务器都放置在自己的机架中。
  • 每个 GPU 服务器都连接到专用管理交换机和构成 VPC 对的共享 GPU TOR 交换机。

在图 1 中,显示的第二个 GPU Pod 采用相同的架构,但 GPU Pod 由 5 个 GPU 服务器组成,而不是 8 个。

为 Gemini 设置网络

如需在 GDC 中为 Gemini 配置网络,请按以下步骤操作:

  1. 对 GPU pod 执行动态扩展。按照执行动态扩展中所列的步骤操作。 如果您在可用区扩展期间遇到无法应用 SubcomponentOverride 资源的问题,请按照 OLT-R0003 运行手册操作。

  2. 验证连接是否成功。设置 KUBECONFIG 环境变量以连接到根管理员集群:

    KUBECONFIG=KUBECONFIG_PATH
    

    KUBECONFIG_PATH 替换为根管理员集群的 kubeconfig 文件的路径。

  3. 获取 TOR 和管理交换机的状态:

    kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
    kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system
    
  4. 检查输出,并验证 READY 列是否显示两个开关的值均为 True

    NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
    aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
    aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin
    
  5. 如果您遇到任何影响网络配置的硬件问题,请参阅解决硬件故障

解决硬件故障

如果扩展机架中的交换机出现任何硬件故障,请针对 TOR 交换机和管理交换机执行交换机产品退货和更换 (RMA) 流程。请按照 PNET-R2001 中的说明操作。

后续步骤