大规模合理调整 GKE 工作负载容量

Standard

本教程介绍如何使用 VPA 建议和用量指标来合理调整 Google Kubernetes Engine (GKE) 工作负载的大小。

了解合理调整资源容量的重要性

预配不足可能会使容器缺少足够的必要资源来运行应用，导致应用运行缓慢并且可靠性下降。过度预配不会影响应用的性能，但可能会增加您的每月费用。

下表说明了 CPU 和内存预配不足和过度预配的影响：

资源	配置状态	风险	说明
CPU	过度	费用	预留不必要的资源，导致工作负载费用增加。
	不足	性能	导致工作负载运行缓慢或无响应。
	未设置	可靠性	CPU 可能被限制为 0，导致工作负载无响应。
内存	过度	费用	预留不必要的资源，导致工作负载费用增加。
	不足	可靠性	导致应用因内存不足 (OOM) 错误而终止。
	未设置	可靠性	`kubelet` 可能随时停止 Pod，并将其标记为失败。

目标

在本教程中，您将学习如何完成以下操作：

部署一个示例应用。
将 GKE 建议指标从 Monitoring 导出到 BigQuery。
使用 BigQuery 和 Looker Studio 查看所有项目的 GKE 容器建议。

费用

在本文档中，您将使用 Google Cloud 的以下收费组件：

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用。

完成本文档中描述的任务后，您可以通过删除所创建的资源来避免继续计费。如需了解详情，请参阅清理。

准备工作

设置项目

Cloud Shell 预装了本教程所需的软件，包括 Docker、kubectl、gcloud CLI 和 Terraform。如果您不使用 Cloud Shell，则必须安装 gcloud CLI。

登录您的 Google Cloud 账号。如果您是 Google Cloud 新手，请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金，用于运行、测试和部署工作负载。

安装 Google Cloud CLI。

如需初始化 gcloud CLI，请运行以下命令：

gcloud init

创建或选择 Google Cloud 项目。

创建 Google Cloud 项目：
```
gcloud projects create PROJECT_ID
```
将 PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。
选择您创建的 Google Cloud 项目：
```
gcloud config set project PROJECT_ID
```
将 PROJECT_ID 替换为您的 Google Cloud 项目名称。

确保您的 Google Cloud 项目已启用结算功能。

Enable the Resource Manager, Google Kubernetes Engine, Cloud Monitoring, BigQuery, Cloud Run, Cloud Build APIs:

gcloud services enable cloudresourcemanager.googleapis.com container.googleapis.com monitoring.googleapis.com bigquery.googleapis.com run.googleapis.com cloudbuild.googleapis.com cloudscheduler.googleapis.com artifactregistry.googleapis.com

安装 Google Cloud CLI。

如需初始化 gcloud CLI，请运行以下命令：

gcloud init

创建或选择 Google Cloud 项目。

创建 Google Cloud 项目：
```
gcloud projects create PROJECT_ID
```
将 PROJECT_ID 替换为您要创建的 Google Cloud 项目的名称。
选择您创建的 Google Cloud 项目：
```
gcloud config set project PROJECT_ID
```
将 PROJECT_ID 替换为您的 Google Cloud 项目名称。

确保您的 Google Cloud 项目已启用结算功能。

Enable the Resource Manager, Google Kubernetes Engine, Cloud Monitoring, BigQuery, Cloud Run, Cloud Build APIs:

gcloud services enable cloudresourcemanager.googleapis.com container.googleapis.com monitoring.googleapis.com bigquery.googleapis.com run.googleapis.com cloudbuild.googleapis.com cloudscheduler.googleapis.com artifactregistry.googleapis.com

向您的 Google 账号授予角色。对以下每个 IAM 角色运行以下命令一次： roles/serviceusage.serviceUsageAdmin, roles/container.clusterAdmin, roles/iam.serviceAccountAdmin, roles/iam.securityAdmin, roles/container.admin
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="user:EMAIL_ADDRESS" --role=ROLE
```
- 将 PROJECT_ID 替换为您的项目 ID。
- 将 EMAIL_ADDRESS 替换为您的电子邮件地址。
- 将 ROLE 替换为每个角色。

设置您的环境

如需设置您的环境，请按以下步骤操作

设置环境变量：

export PROJECT_ID=PROJECT_ID
export REGION=us-central1
export ZONE=us-central1-f
export IMAGE=$REGION-docker.pkg.dev/$PROJECT_ID/main/vpa-recs-image:latest

将 PROJECT_ID 替换为您的 Google Cloud 项目 ID。

设置默认环境变量：

gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION
gcloud config set compute/zone $ZONE

克隆代码库。

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples

切换到工作目录。

cd kubernetes-engine-samples/cost-optimization/gke-vpa-recommendations

（可选）设置示例应用

这是一个可选部分，用于部署示例应用。如需使用现有集群，请确保集群上已配置 Cloud Monitoring。

为了模拟真实环境，您将使用设置脚本来部署 Online Boutique。

以下步骤将安装示例应用并修改默认配置。例如，说明会为某些工作负载配置 Pod 横向自动扩缩器 (HPA)，并更改资源请求和限制。

运行设置脚本：
```
./scripts/setup.sh
```
设置脚本会执行以下任务：
- 创建 GKE 集群。
- 部署 Online Boutique 示例应用。
- 更新 Pod CPU 和内存资源请求。
- 为 adservice 工作负载配置 HorizontalPodAutoscaler 资源，以模拟真实环境。
设置脚本最多可能需要 10 分钟才能完成。

验证示例应用已准备就绪：

kubectl get deployment

输出类似于以下内容：

NAME                    READY   UP-TO-DATE   AVAILABLE   AGE
adservice               2/2     2            2           4m54s
cartservice             1/1     1            1           4m55s
checkoutservice         1/1     1            1           4m56s
currencyservice         1/1     1            1           4m55s
emailservice            1/1     1            1           4m56s
frontend                1/1     1            1           4m55s
loadgenerator           1/1     1            1           4m55s
paymentservice          1/1     1            1           4m55s
productcatalogservice   1/1     1            1           4m55s
recommendationservice   1/1     1            1           4m56s
redis-cart              1/1     1            1           4m54s
shippingservice         1/1     1            1           4m54s

创建代码库

创建代码库以存储指标导出器映像。

创建一个新的 Docker 代码库：

gcloud artifacts repositories create main --repository-format=docker \
    --location=$REGION \
    --description="docker repository"

设置对 Docker 代码库的身份验证：

gcloud auth configure-docker $REGION-docker.pkg.dev

运行以下命令来部署映像：

gcloud builds submit metrics-exporter --region=$REGION --tag $IMAGE

部署应用

在以下部分中，您将使用 Terraform 执行以下任务：

创建服务账号并分配管理 Google Cloud 资源并与之交互所需的权限。
向服务账号授予 Monitoring Viewer、BigQuery Data Editor、BigQuery Data Owner、BigQuery Job User 和 Cloud Run Invoker 角色。
部署 Cloud Run 作业（该作业可从 Artifact Registry 拉取 Docker 映像），并使用指定配置运行该映像。
创建每天触发 Cloud Run 服务的 Cloud Scheduler 作业。
创建 BigQuery 数据集、表和视图以存储指标数据和建议。

配置 Terraform

设置配置环境变量：
```
export TF_VAR_BIGQUERY_DATASET=gke_metrics_dataset
export TF_VAR_BIGQUERY_TABLE=gke_metrics
export TF_VAR_RECOMMENDATION_WINDOW_SECONDS=1209600
export TF_VAR_RECOMMENDATION_DISTANCE=86400
export TF_VAR_LATEST_WINDOW_SECONDS=600
export TF_VAR_METRIC_WINDOW=259200
export TF_VAR_METRIC_DISTANCE=600
```
此命令包含以下参数：
- TF_VAR_BIGQUERY_DATASET 和 TF_VAR_BIGQUERY_TABLE：用于存放 GKE 指标数据。
- TF_VAR_RECOMMENDATION_WINDOW_SECONDS：VPA 建议的时间范围。默认值为 1,209,600 秒（14 天）。
- TF_VAR_RECOMMENDATION_DISTANCE：返回 VPA 建议数据点的时间间隔。默认值为 86,400 秒（1 天）。
- TF_VAR_LATEST_WINDOW_SECONDS：获取最新请求量和限制资源值的时间范围。默认值为 600 秒（10 分钟）。
- METRIC_WINDOW：确定 GKE 用量和利用率指标的时间范围。默认值为 259,200 秒（3 天）。
- METRIC_DISTANCE：返回数据点的时间间隔。默认值为 600 秒（10 分钟）。
根据工作负载的需求调整这些值。例如，对于每月运行一次的批量工作负载，可将 TF_VAR_RECOMMENDATION_WINDOW_SECONDS 和 METRIC_WINDOW 更新为 2592000 秒（30 天）。

部署 Terraform 配置

初始化、验证并应用您的配置：
```
terraform -chdir=terraform init
terraform -chdir=terraform validate
terraform -chdir=terraform apply -var project_id=$PROJECT_ID -var region=$REGION -var image=$IMAGE
```
此命令提供执行计划，并在进行任何更改之前都请求您的批准。查看方案，如果一切符合预期，请输入 yes 以继续。

应用命令成功完成后，您的资源将由 Terraform 创建和管理。

手动运行 Cloud Scheduler 作业：

gcloud scheduler jobs run recommendation-schedule --location ${REGION}

验证 Deployment

选择 workload-recommendations 详情页面上的日志标签页。
验证 Cloud Run 控制台中正在处理指标日志：

转到 Cloud Run

日志显示写入 BigQuery 的指标。输出应类似如下所示：
```
INFO - Building Row
INFO - Successfully wrote 12 rows to BigQuery table [PROJECT_ID].gke_metric_dataset.gke_metrics.
INFO - Run Completed
```
如果输出不匹配，请等待五分钟，然后运行 gcloud scheduler jobs run recommendation-schedule --location $REGION 命令。

在 BigQuery 中查看容器建议

在 Google Cloud 控制台中，转到 BigQuery 页面。

转到 BigQuery
验证数据是否显示在 gke_metrics 表和 container_recommendations 视图中。根据工作负载的数量，将所有指标写入 BigQuery 可能需要几分钟时间。
在查询编辑器中，选择 container_recommendations 视图中的所有行：
```
SELECT * FROM `PROJECT_ID.gke_metrics_dataset.container_recommendations`
```
此程序会从 Cloud Monitoring 中提取以下指标：
- 工作负载详情：项目 ID、集群名称、控制器和容器名称。
- CPU/内存用量和利用率：工作负载正在使用的 CPU 和内存量，以及正在使用的 CPU 和内存所占的百分比。
- 请求量和限制：为工作负载请求的 CPU 和内存量，以及允许工作负载使用的 CPU 和内存量上限。
- CPU 和内存工作负载建议：为了确保工作负载平稳运行，根据针对部署的 VPA 建议和针对非部署对象的实际用量和目标利用率，应向工作负载分配多少 CPU 和内存的建议。

在 Looker Studio 中直观呈现建议

Looker Studio 是一个免费的自助式商业智能平台，您可以在其中构建和使用数据可视化、信息中心和报告。借助 Looker Studio，您可以连接到数据、创建可视化图表并与他人共享数据分析结果。

使用 Looker Studio 直观呈现 BigQuery container_recommendations 视图中的数据：

打开工作负载合理调整容量的信息中心模板
点击使用我自己的数据。
选择您的项目。
在“数据集”字段中，选择 gke_metric_dataset。
在“表”字段中，选择 container_recommendations。
点击添加。
点击添加到报告。

Looker Studio 模板详细信息

Looker Studio 模板详情页面提供以下信息：

GKE 工作负载合理调整容量概览：提供集群的概览，包括：
- 可能存在可靠性问题和性能问题的“倾尽全力”工作负载和“可爆发”工作负载的数量。
- 可能会节省的 CPU 和内存资源。正值表示过度预配，而负值表示预配不足。
工作负载建议：针对工作负载 CPU 和内存的请求和限制提供相关建议。
存在风险的 GKE 工作负载：显示最有可能遇到可靠性和性能问题的工作负载。
历史记录 - 工作负载合理调整容量 - 我们的表现如何？：提供关于工作负载合理调整容量和减少“倾尽全力”工作负载数量的实现情况的历史视图。

请求的 CPU 和 CPU 限制容器建议

如果请求的工作负载 CPU 和工作负载 CPU 限制值相等，则 QoS 被视为“Guaranteed”，并且 CPU 建议设置为 14 天时间段内的最大值。否则，将使用 14 天内请求的 CPU 建议的第 95 百分位。

当 CPU 请求和限制值相等时，CPU 限制的建议设置为仅部署对象的最大 CPU 请求 VPA 建议，目标利用率为 70%。如果工作负载的请求和限制不同，则使用现有的限制比率。

请求的内存和内存限制容器建议

内存建议仅针对 Deployment 对象使用最大 VPA 建议，并且最大目标内存利用率为 80%，以确保工作负载的可靠性。您可以更新 container_recommendation 视图的查询中的目标利用率值。

最佳做法是对请求和限制使用相同的内存量，因为内存是无法压缩的资源。内存耗尽时，必须关闭 Pod。为避免 Pod 被关闭并导致环境变得不稳定，您必须将请求的内存设置为内存限制。

设置建议的优先级

系统会为每一行分配一个优先级值，以凸显根据建议需要立即加以关注的工作负载。CPU 和内存的单位不同。为了统一单位，使用预定义 CPU 和内存的 E2 机器类型按需价格比率作为将内存单位转换为 CPU 单位的近似值。

优先级的计算公式如下：

priority = (CPU requested - CPU recommendation) + ((memory requested -
memory recommendation) / (vCPUs on-demand pricing /memory on-demand pricing ))

对于 Autopilot，部署配置请求的总资源应在支持的最小值和最大值范围内。

查看多个项目的 VPA 建议

如需查看多个项目的 VPA 容器建议，请使用新的项目作为范围项目。

在生产环境中部署此项目时，请将要分析的所有项目添加到新项目的指标范围内。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用，请删除包含这些资源的项目，或者保留项目但删除各个资源。

删除项目

为避免支付费用，最简单的方法是删除您为本教程创建的项目。

删除 Google Cloud 项目：

gcloud projects delete PROJECT_ID

后续步骤

如需详细了解 GKE 费用优化，请参阅在 GKE 上运行费用经过优化的 Kubernetes 应用的最佳做法。
在 Google Cloud 架构框架：费用优化中查找优化 Google Cloud 工作负载费用的设计建议和最佳实践。
如需详细了解如何在需求较低的时段优化集群费用，请参阅在非高峰时段缩减 GKE 集群以降低费用。
如需详细了解 GKE 费用优化，请参阅使用 Monitoring 监控 GKE 集群以优化费用。