Google Kubernetes Engine 可靠性指南

Last reviewed 2023-07-19 UTC

Google Kubernetes Engine (GKE) 是用于在云中大规模运行容器化应用的系统。GKE 可为容器化应用部署、管理和预配资源。GKE 环境由许多 Compute Engine 实例构成,这些实例组合在一起形成集群。

最佳实践

  • 操作容器的最佳实践 - 如何使用日志记录机制、确保容器无状态且不可变、监控应用以及进行活跃性和就绪性探测。
  • 构建容器的最佳实践 - 如何将单个应用封装到一个容器中、处理进程标识符 (PID)、针对 Docker 构建缓存进行优化以及构建较小的映像以提高上传和下载速度。
  • Google Kubernetes Engine 网络的最佳实践 - 使用 VPC 原生集群以更轻松地扩缩、规划 IP 地址、扩缩集群连接、使用 Google Cloud Armor 阻止分布式拒绝服务 (DDoS) 攻击、实现容器原生负载均衡以缩短延迟时间、使用外部应用负载均衡器的健康状况检查功能以进行正常故障切换,并使用区域级集群提高集群中应用的可用性。
  • 准备云端 Kubernetes 应用 - 了解规划应用容量的最佳实践、横向或纵向扩大应用、根据内存和 CPU 的资源请求设置资源限制、使容器精简以加快应用启动速度,并通过设置 Pod Disruption Budget (PDB) 来限制 Pod 中断。此外,了解如何设置活跃性探测和就绪性探测以正常启动应用,确保无中断的关停,并为重试请求实现指数退避算法以防止流量激增而导致应用超负荷。
  • GKE 多租户最佳实践 - 如何设计多租户集群架构以实现高可用性和可靠性,使用 Google Kubernetes Engine (GKE) 用量计量来满足每个租户的用量指标,并提供特定于租户的监控信息。