在 Google Kubernetes Engine (GKE) 上启用 Ray Operator


本页面介绍了如何为 Google Kubernetes Engine (GKE) 启用 Ray Operator,让您可以使用 KubeRay API 扩缩和管理 Ray 集群。如需详细了解 Ray 和 KubeRay,请参阅 Ray on GKE 概览

准备工作

在开始之前,请确保您已执行以下任务:

  • 启用 Google Kubernetes Engine API。
  • 启用 Google Kubernetes Engine API
  • 如果您要使用 Google Cloud CLI 执行此任务,请安装初始化 gcloud CLI。 如果您之前安装了 gcloud CLI,请运行 gcloud components update 以获取最新版本。

为集群启用 Ray Operator

您可以使用 Google Cloud CLI、Google Cloud 控制台或 Terraform 在新的或现有的 Autopilot 或 Standard GKE 集群上启用 Ray Operator。

控制台

  1. 转到 Google Cloud 控制台中的 Google Kubernetes Engine 页面。

    转到 Google Kubernetes Engine

  2. 点击 创建,然后在Standard 或 Autopilot 部分中点击配置

  3. 对于 Standard,在导航窗格的集群下,点击功能。对于 Autopilot,点击高级设置

  4. AI 和机器学习部分中,选中启用 Ray Operator 复选框。

  5. 点击创建

gcloud

使用 --addons=RayOperator 选项创建集群:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator

替换以下内容:

  • CLUSTER_NAME:新集群的名称。
  • VERSION:GKE 版本,必须为 1.30.0-gke.1747000 或更高版本。您还可以使用 --release-channel 选项来选择发布渠道。发布渠道的默认版本必须为 1.30.0-gke.1747000 或更高版本。

您可以通过将 gcloud container clusters update 命令与 --update-addons=RayOperator=ENABLED 选项结合使用,在现有集群上启用 Ray Operator。

Terraform

以下 Terraform 示例会创建并配置 Standard 集群:

resource "google_container_cluster" "ray-cluster" {
  name     = "gke-standard-regional-ray-operator"
  location = "us-west1"

  initial_node_count = 1

  release_channel {
    channel = "RAPID"
  }

  addons_config {
    ray_operator_config {
      enabled = true
      ray_cluster_logging_config {
        enabled = true
      }
      ray_cluster_monitoring_config {
        enabled = true
      }
    }
  }

  # Set `deletion_protection` to `true` will ensure that one cannot
  # accidentally delete this instance by use of Terraform.
  deletion_protection = false
}

如需详细了解如何使用 Terraform,请参阅针对 GKE 的 Terraform 支持

版本控制

以下 GKE 次要版本中提供了 Ray Operator,并包含相应的 KubeRay 版本:

GKE 次要版本 KubeRay 版本
1.31 v1.2
1.30 v1.1
1.29 v1.1

验证 Ray Operator 是否已启用

您可以使用 gcloud CLI 或 Google Cloud 控制台验证 Autopilot 或 Standard GKE 集群上是否启用了 Ray Operator。

控制台

  1. 转到 Google Cloud 控制台中的 Google Kubernetes Engine 页面。

    转到 Google Kubernetes Engine

  2. 在集群列表中,点击您要验证的集群的名称。

  3. 特征部分中,确认已选中 Ray Operator 复选框。

gcloud

描述您的集群:

gcloud container clusters describe CLUSTER_NAME

CLUSTER_NAME 替换为您的集群的名称。

输出类似于以下内容

# Several lines omitted
addonsConfig:
  rayOperatorConfig:
    enabled: true

此输出表明为集群启用了 Ray Operator。

后续步骤