在 Google Kubernetes Engine (GKE) 上启用 Ray Operator


本页面介绍了如何为 Google Kubernetes Engine (GKE) 启用 Ray Operator,让您可以使用 KubeRay API 扩缩和管理 Ray 集群。如需详细了解 Ray 和 KubeRay,请参阅 Ray on GKE 概览

准备工作

在开始之前,请确保您已执行以下任务:

  • 启用 Google Kubernetes Engine API。
  • 启用 Google Kubernetes Engine API
  • 如果您要使用 Google Cloud CLI 执行此任务,请安装initialize gcloud CLI。 如果您之前安装了 gcloud CLI,请运行 gcloud components update 以获取最新版本。

为集群启用 Ray Operator

您可以使用 Google Cloud CLI 或 Google Cloud 控制台在新的或现有 Autopilot 或 Standard GKE 集群上启用 Ray Operator。

控制台

  1. 转到 Google Cloud 控制台中的 Google Kubernetes Engine 页面。

    转到 Google Kubernetes Engine

  2. 点击 创建,然后在Standard 或 Autopilot 部分中点击配置

  3. 在导航窗格的集群下,点击功能

  4. AI 和机器学习部分中,选中启用 Ray Operator 复选框。

  5. 点击创建

gcloud

使用 --addons=RayOperator 选项创建集群:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator

替换以下内容:

  • CLUSTER_NAME:新集群的名称。
  • VERSION:GKE 版本,必须为 1.30.0-gke.1747000 或更高版本。您还可以使用 --release-channel 选项来选择发布渠道。发布渠道的默认版本必须为 1.30.0-gke.1747000 或更高版本。

您可以通过将 gcloud container clusters update 命令与 --addons=RayOperator 选项结合使用,在现有集群上启用 Ray Operator。

验证 Ray Operator 是否已启用

您可以使用 gcloud CLI 或 Google Cloud 控制台验证 Autopilot 或 Standard GKE 集群上是否启用了 Ray Operator。

控制台

  1. 转到 Google Cloud 控制台中的 Google Kubernetes Engine 页面。

    转到 Google Kubernetes Engine

  2. 在集群列表中,点击您要验证的集群的名称。

  3. 特征部分中,确认已选中 Ray Operator 复选框。

gcloud

描述您的集群:

gcloud container clusters describe CLUSTER_NAME

CLUSTER_NAME 替换为您的集群的名称。

输出类似于以下内容

# Several lines omitted
addonsConfig:
  rayOperatorConfig:
    enabled: true

此输出表明为集群启用了 Ray Operator。

后续步骤