此页面由 Cloud Translation API 翻译。

使用 Confluent 将 Apache Kafka 部署到 GKE

本指南介绍如何使用 Confluent for Kubernetes (CFK) 操作器在 Google Kubernetes Engine (GKE) 上部署 Apache Kafka 集群。

Kafka 是一个开源分布式发布-订阅消息传递系统，用于处理大量、高吞吐量和实时的流式数据。您可以使用 Kafka 构建流式数据流水线，以在不同系统和应用之间可靠地移动数据来进行处理和分析。

本指南适用于有意在 GKE 上部署 Kafka 集群的平台管理员、云架构师和运营专家。

您还可以使用 CFK 操作器部署 Confluent Platform 的其他组件，例如基于网络的 Confluent 控制中心、Schema Registry 或 KsqlDB。但是，本指南仅重点介绍 Kafka 部署。

准备环境

在本教程中，您将使用 Cloud Shell 来管理 Google Cloud上托管的资源。Cloud Shell 预安装了本教程所需的软件，包括 kubectl、gcloud CLI、Helm 和 Terraform。

如需使用 Cloud Shell 设置您的环境，请按照以下步骤操作：

点击Google Cloud 控制台中的 激活 Cloud Shell，从 Google Cloud 控制台启动 Cloud Shell 会话。此操作会在 Google Cloud 控制台的底部窗格中启动会话。

设置环境变量：

export PROJECT_ID=PROJECT_ID
export KUBERNETES_CLUSTER_PREFIX=kafka
export REGION=us-central1

将 PROJECT_ID 替换为您的 Google Cloud 项目 ID。

克隆 GitHub 代码库：

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples

切换到工作目录：
```
cd kubernetes-engine-samples/streaming
```

创建集群基础架构

在本部分中，您将运行 Terraform 脚本以创建可用性高的专用区域级 GKE 集群。通过执行以下步骤，可以公开访问控制平面。如需限制访问权限，请创建专用集群。

您可以使用 Standard 或 Autopilot 集群安装操作器。

标准

下图显示了部署在三个不同可用区中的专用区域级 Standard GKE 集群：

若要部署此基础架构，请从 Cloud Shell 运行以下命令：

export GOOGLE_OAUTH_ACCESS_TOKEN=$(gcloud auth print-access-token)
terraform -chdir=kafka/terraform/gke-standard init
terraform -chdir=kafka/terraform/gke-standard apply -var project_id=${PROJECT_ID} \
  -var region=${REGION} \
  -var cluster_prefix=${KUBERNETES_CLUSTER_PREFIX}

出现提示时，请输入 yes。完成此命令并使集群显示就绪状态可能需要几分钟时间。

Terraform 会创建以下资源：

Kubernetes 节点的 VPC 网络和专用子网。
用于通过 NAT 访问互联网的路由器。
专用 GKE 集群（在 us-central1 区域中）。
2 个启用了自动扩缩功能的节点池（每个可用区 1-2 个节点，每个可用区至少 1 个节点）
具有日志记录和监控权限的 ServiceAccount。
用于灾难恢复的 Backup for GKE
Google Cloud Managed Service for Prometheus，用于监控集群。

输出类似于以下内容：

...
Apply complete! Resources: 14 added, 0 changed, 0 destroyed.

Outputs:

kubectl_connection_command = "gcloud container clusters get-credentials kafka-cluster --region us-central1"

Autopilot

下图显示了专用区域级 Autopilot GKE 集群：

若要部署此基础架构，请从 Cloud Shell 运行以下命令：

export GOOGLE_OAUTH_ACCESS_TOKEN=$(gcloud auth print-access-token)
terraform -chdir=kafka/terraform/gke-autopilot init
terraform -chdir=kafka/terraform/gke-autopilot apply -var project_id=${PROJECT_ID} \
  -var region=${REGION} \
  -var cluster_prefix=${KUBERNETES_CLUSTER_PREFIX}

出现提示时，请输入 yes。完成此命令并使集群显示就绪状态可能需要几分钟时间。

Terraform 会创建以下资源：

Kubernetes 节点的 VPC 网络和专用子网。
用于通过 NAT 访问互联网的路由器。
专用 GKE 集群（在 us-central1 区域中）。
具有日志记录和监控权限的 ServiceAccount
Google Cloud Managed Service for Prometheus，用于监控集群。

输出类似于以下内容：

...
Apply complete! Resources: 12 added, 0 changed, 0 destroyed.

Outputs:

kubectl_connection_command = "gcloud container clusters get-credentials kafka-cluster --region us-central1"

连接到集群

配置 kubectl 以与集群通信：

gcloud container clusters get-credentials ${KUBERNETES_CLUSTER_PREFIX}-cluster --region ${REGION}

将 CFK 操作器部署到您的集群

在本部分中，您将使用 Helm Chart 部署 Confluent for Kubernetes (CFK) 操作器，然后部署 Kafka 集群。

添加 Confluent Helm 图表库：

helm repo add confluentinc https://packages.confluent.io/helm

为 CFK 操作器和 Kafka 集群添加命名空间：
```
kubectl create ns kafka
```
使用 Helm 部署 CFK 集群操作器：
```
helm install confluent-operator confluentinc/confluent-for-kubernetes -n kafka
```
要使 CFK 能够管理所有命名空间中的资源，请将参数 --set-namespaced=false 添加到 Helm 命令。

使用 Helm 验证 Confluent 操作器是否已成功部署：

helm ls -n kafka

输出类似于以下内容：

NAME                  NAMESPACE  REVISION UPDATED                                  STATUS      CHART                                APP VERSION
confluent-operator    kafka      1        2023-07-07 10:57:45.409158 +0200 CEST    deployed    confluent-for-kubernetes-0.771.13    2.6.0

部署 Kafka

在本部分中，您将在基本配置中部署 Kafka，然后尝试各种高级配置场景以满足可用性、安全性和可观测性要求。

基本配置

Kafka 实例的基本配置包括以下组成部分：

Kafka 代理的三个副本，至少需要两个可用副本来实现集群一致性。
ZooKeeper 节点的三个副本，形成一个集群。
两个 Kafka 监听器：一个不使用身份验证，另一个利用 TLS 身份验证（使用 CFK 生成的证书）。
对于 Kafka，Java MaxHeapSize 和 MinHeapSize 设置为 4 GB。
CPU 资源分配：1 个 CPU 请求和 2 个 CPU 限制，同时 Kafka 的内存请求和限制为 5 GB（主服务为 4 GB，指标导出器为 0.5 GB），Zookeeper 为 3 GB（主服务为 2 GB，指标导出为 0.5 GB）。
使用 premium-rwo storageClass 为每个 Pod 分配 100 GB 存储空间（Kafka 数据分配 100 GB，Zookeeper 数据/日志分别分配 90 GB/10 GB）。
为每个工作负载配置容忍、nodeAffinity 和 podAntiAffinity，利用其各自的节点池和不同的可用区，确保跨节点适当分布。
集群内通信（使用您提供的证书授权机构通过自签名证书提供保护）。

此配置表示创建可直接用于生产环境的 Kafka 集群所需的最少设置。以下部分演示的自定义配置可解决集群安全、访问控制列表 (ACL)、主题管理、证书管理等方面的需要。

创建基本 Kafka 集群

生成 CA 对：

openssl genrsa -out ca-key.pem 2048
openssl req -new -key ca-key.pem -x509 \
  -days 1000 \
  -out ca.pem \
  -subj "/C=US/ST=CA/L=Confluent/O=Confluent/OU=Operator/CN=MyCA"

Confluent for Kubernetes 为 Confluent Platform 组件提供了自动生成的证书，以用于 TLS 网络加密。您必须生成并提供证书授权机构 (CA)。

为证书授权机构创建 Kubernetes Secret：

kubectl create secret tls ca-pair-sslcerts --cert=ca.pem --key=ca-key.pem -n kafka

Secret 的名称是预定义的

使用基本配置创建新的 Kafka 集群：
```
kubectl apply -n kafka -f kafka-confluent/manifests/01-basic-cluster/my-cluster.yaml
```
此命令会创建 CFK 操作器的 Kafka 自定义资源和 Zookeeper 自定义资源，这些资源包含 CPU 和内存的请求与限制、块存储请求以及污点和亲和性，用于在 Kubernetes 节点之间分配预配的 Pod。

请等待几分钟，让 Kubernetes 启动所需的工作负载：

kubectl wait pods -l app=my-cluster --for condition=Ready --timeout=300s -n kafka

验证是否已创建 Kafka 工作负载：

kubectl get pod,svc,statefulset,deploy,pdb -n kafka

输出类似于以下内容：

NAME                                    READY   STATUS  RESTARTS   AGE
pod/confluent-operator-864c74d4b4-fvpxs   1/1   Running   0        49m
pod/my-cluster-0                        1/1   Running   0        17m
pod/my-cluster-1                        1/1   Running   0        17m
pod/my-cluster-2                        1/1   Running   0        17m
pod/zookeeper-0                         1/1   Running   0        18m
pod/zookeeper-1                         1/1   Running   0        18m
pod/zookeeper-2                         1/1   Running   0        18m

NAME                          TYPE      CLUSTER-IP   EXTERNAL-IP   PORT(S)                                                        AGE
service/confluent-operator    ClusterIP   10.52.13.164   <none>      7778/TCP                                                       49m
service/my-cluster            ClusterIP   None         <none>      9092/TCP,8090/TCP,9071/TCP,7203/TCP,7777/TCP,7778/TCP,9072/TCP   17m
service/my-cluster-0-internal   ClusterIP   10.52.2.242  <none>      9092/TCP,8090/TCP,9071/TCP,7203/TCP,7777/TCP,7778/TCP,9072/TCP   17m
service/my-cluster-1-internal   ClusterIP   10.52.7.98   <none>      9092/TCP,8090/TCP,9071/TCP,7203/TCP,7777/TCP,7778/TCP,9072/TCP   17m
service/my-cluster-2-internal   ClusterIP   10.52.4.226  <none>      9092/TCP,8090/TCP,9071/TCP,7203/TCP,7777/TCP,7778/TCP,9072/TCP   17m
service/zookeeper             ClusterIP   None         <none>      2181/TCP,7203/TCP,7777/TCP,3888/TCP,2888/TCP,7778/TCP          18m
service/zookeeper-0-internal  ClusterIP   10.52.8.52   <none>      2181/TCP,7203/TCP,7777/TCP,3888/TCP,2888/TCP,7778/TCP          18m
service/zookeeper-1-internal  ClusterIP   10.52.12.44  <none>      2181/TCP,7203/TCP,7777/TCP,3888/TCP,2888/TCP,7778/TCP          18m
service/zookeeper-2-internal  ClusterIP   10.52.12.134   <none>      2181/TCP,7203/TCP,7777/TCP,3888/TCP,2888/TCP,7778/TCP          18m

NAME                        READY   AGE
statefulset.apps/my-cluster   3/3   17m
statefulset.apps/zookeeper  3/3   18m

NAME                               READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/confluent-operator   1/1   1          1         49m

NAME                                  MIN AVAILABLE   MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
poddisruptionbudget.policy/my-cluster   N/A           1               1                   17m
poddisruptionbudget.policy/zookeeper  N/A           1               1                   18m

操作器创建以下资源：

用于 Kafka 和 ZooKeeper 的两个 StatefulSet。
用于 Kafka 代理副本的三个 Pod。
用于 ZooKeeper 副本的三个 Pod。
两个 PodDisruptionBudget 资源，确保最多只有一个不可用的副本以实现集群一致性。
Service my-cluster，用作从 Kubernetes 集群内连接的 Kafka 客户端的引导服务器。所有内部 Kafka 监听器在此 Service 中都可用。
Service zookeeper，允许 Kafka 代理作为客户端连接到 ZooKeeper 节点。

身份验证和用户管理

本部分介绍如何启用身份验证和授权，以保护 Kafka 监听器并与客户端共享凭据。

Confluent for Kubernetes 支持 Kafka 的各种身份验证方法，例如：

SASL/PLAIN 身份验证：客户端使用用户名和密码进行身份验证。用户名和密码存储在服务器端的 Kubernetes Secret 中。
使用 LDAP 的 SASL/PLAIN 身份验证：客户端使用用户名和密码进行身份验证。凭据存储在 LDAP 服务器中。
mTLS 身份验证：客户端使用 TLS 证书进行身份验证。

限制

CFK 不为用户管理提供自定义资源。但是，您可以将凭据存储在 Secret 中，并在监听器规范中引用 Secret。
虽然没有直接管理 ACL 的自定义资源，但官方的 Confluent for Kubernetes 提供了有关使用 Kafka CLI 配置 ACL 的指导。

创建用户

本部分介绍如何部署可演示用户管理功能的 CFK 操作器，包括：

在一个监听器上启用了基于密码的身份验证 (SASL/PLAIN) 的 Kafka 集群
包含 3 个副本的 KafkaTopic
具有读写权限的用户凭据

创建包含用户凭据的 Secret：

export USERNAME=my-user
export PASSWORD=$(openssl rand -base64 12)
kubectl create secret generic my-user-credentials -n kafka \
  --from-literal=plain-users.json="{\"$USERNAME\":\"$PASSWORD\"}"

凭据应按以下格式存储：

{
"username1": "password1",
"username2": "password2",
...
"usernameN": "passwordN"
}

将 Kafka 集群配置为在端口 9094 上使用监听器，该监听器使用基于密码的身份验证 SCRAM-SHA-512 身份验证：
```
kubectl apply -n kafka -f kafka-confluent/manifests/02-auth/my-cluster.yaml
```

设置主题和客户端 Pod，以便与 Kafka 集群进行交互并执行 Kafka 命令：

kubectl apply -n kafka -f kafka-confluent/manifests/02-auth/my-topic.yaml
kubectl apply -n kafka -f kafka-confluent/manifests/02-auth/kafkacat.yaml

GKE 将 Secret my-user-credentials 作为卷装载到客户端 Pod。

客户端 Pod 准备就绪后，连接到它并开始使用提供的凭据生成和使用消息：

kubectl wait pod kafkacat --for=condition=Ready --timeout=300s -n kafka
kubectl exec -it kafkacat -n kafka -- /bin/sh

使用 my-user 凭据生成消息，然后使用该消息来验证其收据。

export USERNAME=$(cat /my-user/plain-users.json|cut -d'"' -f 2)
export PASSWORD=$(cat /my-user/plain-users.json|cut -d'"' -f 4)
echo "Message from my-user" |kcat \
  -b my-cluster.kafka.svc.cluster.local:9094 \
  -X security.protocol=SASL_SSL \
  -X sasl.mechanisms=PLAIN \
  -X sasl.username=$USERNAME \
  -X sasl.password=$PASSWORD  \
  -t my-topic -P
kcat -b my-cluster.kafka.svc.cluster.local:9094 \
  -X security.protocol=SASL_SSL \
  -X sasl.mechanisms=PLAIN \
  -X sasl.username=$USERNAME \
  -X sasl.password=$PASSWORD  \
  -t my-topic -C

输出类似于以下内容：

Message from my-user
% Reached end of topic my-topic [1] at offset 1
% Reached end of topic my-topic [2] at offset 0
% Reached end of topic my-topic [0] at offset 0

按 CTRL+C 以停止使用方进程。如果您收到 Connect refused 错误，请等待几分钟，然后重试。

退出 Pod shell
```
exit
```

备份和灾难恢复

使用 Confluent 操作器，您可以按照某些模式实施高效的备份策略。

您可以使用 Backup for GKE 备份：

Kubernetes 资源清单。
从正在备份的集群的 Kubernetes API 服务器中提取的 Confluent API 自定义资源及其定义。
与清单中找到的 PersistentVolumeClaim 资源相对应的卷。

如需详细了解如何使用 Backup for GKE 备份和恢复 Kafka 集群，请参阅为灾难恢复做好准备。

您还可以对 Kafka 集群执行手动备份。您应该备份：

Kafka 配置，其中包含 Confluent API 的所有自定义资源，例如 KafkaTopics 或 Connect
数据，存储在 Kafka 代理的 PersistentVolume 中

通过将 Kubernetes 资源清单（包括 Confluent 配置）存储在 Git 代码库中，无需单独备份 Kafka 配置，因为可以根据需要将资源重新应用于新的 Kubernetes 集群。

为了在 Kafka 服务器实例或部署了 Kafka 的 Kubernetes 集群丢失的情况下保护 Kafka 数据恢复，我们建议您配置用于为 Kafka 代理预配卷的 Kubernetes 存储类别，并将 reclaimPolicy 选项设置为 Retain。我们还建议您截取 Kafka 代理卷的快照。

以下清单描述了使用 reclaimPolicy 选项 Retain 的 StorageClass：

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: premium-rwo-retain
...
reclaimPolicy: Retain
volumeBindingMode: WaitForFirstConsumer

以下示例展示了 StorageClass 被添加到了 Kafka 集群自定义资源的 spec 中：

...
spec:
  ...
  dataVolumeCapacity: 100Gi
  storageClass:
  name: premium-rwo-retain

使用此配置时，即使删除了相应的 PersistentVolumeClaim，使用该存储类别预配的 PersistentVolume 也不会被删除。

如需使用现有配置和代理实例数据在新的 Kubernetes 集群上恢复 Kafka 实例，请执行以下操作：

将现有 Confluent 自定义资源（Kafka、KafkaTopic、Zookeeper 等）应用于新的 Kubernetes 集群
使用 PersistentVolumeClaim 上的 spec.volumeName 属性，将采用新 Kafka 代理实例名称的 PersistentVolumeClaim 更新为旧的 PersistentVolume。