GKE 和 GKE On-Prem 上的多区域部署

本主题介绍 GKE 和本地部署的 Anthos GKE 上 Apigee Hybrid 的多区域部署。

多区域部署的拓扑包括以下内容:

  • 主动-主动:您的应用部署在多个地理位置,并且您的部署需要低延迟时间 API 响应时。您可以选择在距离您客户端最近的多个地理位置部署 Hybrid。例如:美国西海岸、美国东海岸、欧洲、亚太区域。
  • 主动-被动:您拥有主要区域和故障切换或灾难恢复区域时。

多区域混合部署中的区域通过 Cassandra 通信,如下图所示:

对 MART 连接进行负载平衡

每个区域级集群都必须有自己的 MART IP 和主机名;但是,您只需将管理层面连接到其中一项即可。Cassandra 将信息传播到所有集群。MART 的高可用性的最佳方案是对各个 MART IP 地址进行负载平衡,并将您的组织配置为与负载平衡的 MART 网址进行通信。

前提条件

在为多个区域配置 Hybrid 之前,您必须先满足以下前提条件:

  • 在多个具有不同 CIDR 块的区域中设置 Kubernetes 集群
  • 设置跨区域通信
  • 在跨所有地区的 Kubernetes 集群之间打开 Cassandra 端口 7000 和 7001(在问题排查期间可能会使用 7000 作为备用选项)另请参阅配置端口

如需了解详情,请参阅 Kubernetes 文档。

配置多区域种子主机

本部分介绍如何将现有 Cassandra 集群扩展到新区域。此设置允许新区域引导集群并加入现有数据中心。如果没有此配置,多区域 Kubernetes 集群不会相互了解。

  1. 运行以下 kubectl 命令,确定当前区域中 Cassandra 的种子主机地址。

    种子主机地址允许新区域实例在第一次启动时查找原始集群,以了解集群的拓扑。种子主机地址被指定为集群中的联络点。

    kubectl get pods -o wide -n apigee
    
    NAME                      READY   STATUS      RESTARTS   AGE   IP          NODE                                          NOMINATED NODE
    apigee-cassandra-0        1/1     Running     0          5d    10.0.0.11   gke-k8s-dc-2-default-pool-a2206492-p55d
    apigee-cassandra-1        1/1     Running     0          5d    10.0.2.4    gke-k8s-dc-2-default-pool-e9daaab3-tjmz
    apigee-cassandra-2        1/1     Running     0          5d    10.0.3.5    gke-k8s-dc-2-default-pool-e589awq3-kjch
  2. 确定上一个命令返回的哪些 IP 将成为多区域种子主机。
  3. 此步骤中的配置取决于您是使用的是 GKE 还是 GKE On-Prem:

    仅限 GKE:在数据中心 2 中,在管理运行时层面组件中配置 cassandra.multiRegionSeedHostcassandra.datacenter,其中 multiRegionSeedHost 是上一个命令返回的其中一个 IP 地址:

    cassandra:
      multiRegionSeedHost: seed_host_IP
      datacenter: data_center_name
      rack: rack_name

    例如:

    cassandra:
      multiRegionSeedHost: 10.0.0.11
      datacenter: "dc-2"
      rack: "ra-1"

    仅限 GKE On-Prem :在数据中心 2 中,在替换文件中配置 cassandra.multiRegionSeedHost,其中 multiRegionSeedHost 是上一个命令返回的其中一个 IP:

    cassandra:
      hostNetwork: true
      dnsPolicy: ClusterFirstWithHostNet
      multiRegionSeedHost: seed_host_IP
    

    例如:

    cassandra:
      hostNetwork: true
      dnsPolicy: ClusterFirstWithHostNet
      multiRegionSeedHost: 10.0.0.11
    

  4. 在新数据中心/区域中,安装 Hybrid 之前,在 overrides.yaml 中设置您在第一个区域中设置的相同 TLS 证书和凭据。

设置新区域

配置种子主机后,您可以设置新区域。

要设置新区域,请执行以下操作

  1. 将证书从现有集群复制到新集群。Cassandra 和其他混合组件会将新 CA 根用于 mTLS。因此,务必确保集群具有一致的证书。
    1. 将上下文设置为原始命名空间:
      kubectl config use-context original-cluster-name
    2. 将当前命名空间配置导出到文件:
      $ kubectl get namespace  -o yaml > apigee-namespace.yaml
    3. apigee-ca 密钥导出到文件:
      kubectl -n cert-manager get secret apigee-ca -o yaml > apigee-ca.yaml
    4. 将上下文设置为新区域的集群名称:
      kubectl config use-context new-cluster-name
    5. 将命名空间配置导入新集群。如果您在新区域中使用不同的命名空间,请务必更新文件中的“命名空间”:
      kubectl apply -f apigee-namespace.yaml
    6. 将密钥导入新集群:

      kubectl -n cert-manager apply -f apigee-ca.yaml
  2. 在新区域中安装 Hybrid。确保 overrides-DC_name.yaml 文件包含在第一个区域中配置的相同 TLS 证书,如上一部分所述。

    执行以下两个命令以在新区域中安装 Hybrid:

    apigeectl init -f overrides/overrides-DC_name.yaml
    apigeectl apply -f overrides/overrides-DC_name.yaml
  3. 扩展所有 Apigee 键空间。

    以下步骤会将 Cassandra 数据扩展到新数据中心:

    1. 在 Cassandra Pod 中打开一个 shell:
      kubectl run -i --tty --restart=Never --rm --image google/apigee-hybrid-cassandra-client:1.0.0 cqlsh
    2. 连接到 Cassandra 服务器:
      cqlsh apigee-cassandra-0.apigee-cassandra.apigee.svc.cluster.local -u ddl_user --ssl
      Password:
      
      Connected to apigeecluster at apigee-cassandra-0.apigee-cassandra.apigee.svc.cluster.local:9042.
      [cqlsh 5.0.1 | Cassandra 3.11.3 | CQL spec 3.4.4 | Native protocol v4]
      Use HELP for help.
    3. 获取可用键空间:
      SELECT * from system_schema.keyspaces ;
       keyspace_name              | durable_writes | replication
      ----------------------------+----------------+--------------------------------------------------------------------------------------------------------
         rtc_hybrid_test_7_hybrid |           True |                  {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3'}
                      system_auth |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '1', 'dc-2': '1'}
                    system_schema |           True |                                                {'class': 'org.apache.cassandra.locator.LocalStrategy'}
       cache_hybrid_test_7_hybrid |           True |                  {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3'}
         kms_hybrid_test_7_hybrid |           True |                  {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3'}
         kvm_hybrid_test_7_hybrid |           True |                  {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3'}
               system_distributed |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '1', 'dc-2': '1'}
                           system |           True |                                                {'class': 'org.apache.cassandra.locator.LocalStrategy'}
                           perses |           True |                  {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3'}
       quota_hybrid_test_7_hybrid |           True |                  {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3'}
                    system_traces |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '1', 'dc-2': '1'}
      
      (10 rows)
    4. 更新/扩展 Apigee 键空间:
      ALTER KEYSPACE cache_hybrid_test_7_hybrid WITH replication = {'class': 'NetworkTopologyStrategy', 'dc-1':3, 'dc-2':3};
      ALTER KEYSPACE kms_hybrid_test_7_hybrid WITH replication = {'class': 'NetworkTopologyStrategy', 'dc-1':3, 'dc-2':3};
      ALTER KEYSPACE kvm_hybrid_test_7_hybrid WITH replication = {'class': 'NetworkTopologyStrategy', 'dc-1':3, 'dc-2':3};
      ALTER KEYSPACE perses WITH replication = {'class': 'NetworkTopologyStrategy', 'dc-1':3, 'dc-2':3};
      ALTER KEYSPACE quota_hybrid_test_7_hybrid  WITH replication = {'class': 'NetworkTopologyStrategy', 'dc-1':3, 'dc-2':3};
      ALTER KEYSPACE rtc_hybrid_test_7_hybrid  WITH replication = {'class': 'NetworkTopologyStrategy', 'dc-1':3, 'dc-2':3};
    5. 验证键空间扩展:
      SELECT * from system_schema.keyspaces ;
       keyspace_name              | durable_writes | replication
      ----------------------------+----------------+--------------------------------------------------------------------------------------------------------
                      system_auth |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '1', 'dc-2': '1'}
                    system_schema |           True |                                                {'class': 'org.apache.cassandra.locator.LocalStrategy'}
       cache_hybrid_test_7_hybrid |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3', 'dc-2': '3'}
         kms_hybrid_test_7_hybrid |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3', 'dc-2': '3'}
         kvm_hybrid_test_7_hybrid |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3', 'dc-2': '3'}
               system_distributed |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '1', 'dc-2': '1'}
                           system |           True |                                                {'class': 'org.apache.cassandra.locator.LocalStrategy'}
                           perses |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3', 'dc-2': '3'}
       quota_hybrid_test_7_hybrid |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3', 'dc-2': '3'}
       rtc_hybrid_test_7_hybrid   |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '3', 'dc-2': '3'}
                    system_traces |           True | {'class': 'org.apache.cassandra.locator.NetworkTopologyStrategy', 'dc-1': '1', 'dc-2': '1'}
      
      (10 rows)
      ddl@cqlsh>
  4. 在新数据中心的所有节点上依序运行 nodetool rebuild。这可能需要几分钟到几小时的时间,具体取决于数据大小。
    kubectl exec apigee-cassandra-0 -n apigee  -- nodetool rebuild -- dc-1
  5. 从日志中验证重建进程。此外,使用 nodetool status 命令验证数据大小:
    kubectl logs apigee-cassandra-0 -f -n apigee

    以下示例显示了日志条目示例:

    INFO  01:42:24 rebuild from dc: dc-1, (All keyspaces), (All tokens)
    INFO  01:42:24 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Executing streaming plan for Rebuild
    INFO  01:42:24 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Starting streaming to /10.12.1.45
    INFO  01:42:25 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889, ID#0] Beginning stream session with /10.12.1.45
    INFO  01:42:25 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Starting streaming to /10.12.4.36
    INFO  01:42:25 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889 ID#0] Prepare completed. Receiving 1 files(0.432KiB), sending 0 files(0.000KiB)
    INFO  01:42:25 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Session with /10.12.1.45 is complete
    INFO  01:42:25 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889, ID#0] Beginning stream session with /10.12.4.36
    INFO  01:42:25 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Starting streaming to /10.12.5.22
    INFO  01:42:26 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889 ID#0] Prepare completed. Receiving 1 files(0.693KiB), sending 0 files(0.000KiB)
    INFO  01:42:26 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Session with /10.12.4.36 is complete
    INFO  01:42:26 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889, ID#0] Beginning stream session with /10.12.5.22
    INFO  01:42:26 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889 ID#0] Prepare completed. Receiving 3 files(0.720KiB), sending 0 files(0.000KiB)
    INFO  01:42:26 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] Session with /10.12.5.22 is complete
    INFO  01:42:26 [Stream #3a04e810-580d-11e9-a5aa-67071bf82889] All sessions completed
  6. 更新种子主机。从 overrides-DC_name.yaml 中移除 multiRegionSeedHost: 10.0.0.11 并重新应用。
    apigeectl apply -f overrides/overrides-DC_name.yaml

检查 Cassandra 集群状态

以下命令可用于查看该集群在两个数据中心中是否成功设置。该命令将检查两个区域的 nodetool 状态。

kubectl exec apigee-cassandra-0 -n apigee -- nodetool status


Datacenter: us-central1
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address     Load       Tokens       Owns (effective)  Host ID                               Rack
UN  10.12.1.45  112.09 KiB  256          100.0%            3c98c816-3f4d-48f0-9717-03d0c998637f  ra-1
UN  10.12.4.36  95.27 KiB  256          100.0%            0a36383d-1d9e-41e2-924c-7b62be12d6cc  ra-1
UN  10.12.5.22  88.7 KiB   256          100.0%            3561f4fa-af3d-4ea4-93b2-79ac7e938201  ra-1
Datacenter: us-west1
====================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address     Load       Tokens       Owns (effective)  Host ID                               Rack
UN  10.0.4.33   78.69 KiB  256          0.0%              a200217d-260b-45cd-b83c-182b27ff4c99  ra-1
UN  10.0.0.21   78.68 KiB  256          0.0%              9f3364b9-a7a1-409c-9356-b7d1d312e52b  ra-1
UN  10.0.1.26   15.46 KiB  256          0.0%              1666df0f-702e-4c5b-8b6e-086d0f2e47fa  ra-1