本页面介绍了如何为 Google Kubernetes Engine (GKE) 启用 Ray Operator,让您可以使用 KubeRay API 扩缩和管理 Ray 集群。如需详细了解 Ray 和 KubeRay,请参阅 Ray on GKE 概览。
准备工作
在开始之前,请确保您已执行以下任务:
- 启用 Google Kubernetes Engine API。 启用 Google Kubernetes Engine API
- 如果您要使用 Google Cloud CLI 执行此任务,请安装并初始化 gcloud CLI。 如果您之前安装了 gcloud CLI,请运行
gcloud components update
以获取最新版本。
为集群启用 Ray Operator
您可以使用 Google Cloud CLI、Google Cloud 控制台或 Terraform 在新的或现有的 Autopilot 或 Standard GKE 集群上启用 Ray Operator。
控制台
转到 Google Cloud 控制台中的 Google Kubernetes Engine 页面。
点击
创建,然后在Standard 或 Autopilot 部分中点击配置。对于 Standard,在导航窗格的集群下,点击功能。对于 Autopilot,点击高级设置。
在 AI 和机器学习部分中,选中启用 Ray Operator 复选框。
点击创建。
gcloud
使用 --addons=RayOperator
选项创建集群:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator
替换以下内容:
CLUSTER_NAME
:新集群的名称。VERSION
:GKE 版本,必须为 1.30.0-gke.1747000 或更高版本。您还可以使用--release-channel
选项来选择发布渠道。发布渠道的默认版本必须为 1.30.0-gke.1747000 或更高版本。
您可以通过将 gcloud container clusters update
命令与 --update-addons=RayOperator=ENABLED
选项结合使用,在现有集群上启用 Ray Operator。
Terraform
以下 Terraform 示例会创建并配置 Standard 集群:
如需详细了解如何使用 Terraform,请参阅针对 GKE 的 Terraform 支持。
版本控制
以下 GKE 次要版本中提供了 Ray Operator,并包含相应的 KubeRay 版本:
GKE 次要版本 | KubeRay 版本 |
---|---|
1.31 | v1.2 |
1.30 | v1.1 |
1.29 | v1.1 |
验证 Ray Operator 是否已启用
您可以使用 gcloud CLI 或 Google Cloud 控制台验证 Autopilot 或 Standard GKE 集群上是否启用了 Ray Operator。
控制台
转到 Google Cloud 控制台中的 Google Kubernetes Engine 页面。
在集群列表中,点击您要验证的集群的名称。
在特征部分中,确认已选中 Ray Operator 复选框。
gcloud
描述您的集群:
gcloud container clusters describe CLUSTER_NAME
将 CLUSTER_NAME
替换为您的集群的名称。
输出类似于以下内容
# Several lines omitted
addonsConfig:
rayOperatorConfig:
enabled: true
此输出表明为集群启用了 Ray Operator。
后续步骤
- 了解 Ray on Kubernetes。
- 了解如何收集和查看 Ray 集群的日志和指标。
- 浏览 KubeRay 文档。