排查导致 App Engine 应用延迟时间变长的问题

在许多情况下，应用的延迟时间增加最终会导致 5xx 服务器错误。由于错误和延迟时间激增的根本原因可能相同，因此请应用以下策略来排查延迟问题：

确定延迟问题的范围
确定原因
问题排查

确定延迟问题的范围

通过考虑以下问题定义问题的范围：

此问题会影响哪些应用、服务和版本？
此问题会影响服务上的哪些特定端点？
此问题是否会影响全球所有客户端，还是只影响特定部分的客户端？
突发事件的开始时间和结束时间是什么？考虑指定时区。
具体错误是什么？
观察到的延迟时间增量（通常指定为特定百分位的增加）是多少？例如，第 90 百分位的延迟时间增加了 2 秒。
如何测量延迟时间？具体来说，您是否在客户端测量延迟时间，或者在 App Engine 服务基础设施提供的 Cloud Logging 或 Cloud Monitoring 延迟时间数据中能够看到延迟时间？
您的服务的依赖项有哪些？其中的任何依赖项是否会发生突发事件？
您最近是否进行了任何触发此问题的代码、配置或工作负载更改？

服务可能具有自己的自定义监控和日志记录功能，您可以使用这些功能进一步缩小问题的范围。定义问题的范围将引导您找到可能的根本原因，并确定接下来的问题排查步骤。

确定原因

确定请求路径中的哪个组成部分最有可能导致延迟或错误。请求路径中的主要组成部分如下所示：

客户端 --> 互联网 --> Google Front End (GFE) --> App Engine 服务基础设施 --> 服务实例

如果上述信息未指明失败原因，请在查看服务实例的健康状况和性能时应用以下策略：

监控 App Engine 请求日志。如果您在这些日志中看到 HTTP 状态代码错误或延迟时间增加，则问题可能出在运行服务的实例。
如果服务实例数量未扩容到与流量水平相匹配，则实例可能会过载，导致错误和延迟时间增加。
如果您在 Cloud Monitoring 中看到错误或延迟时间增加，问题可能出在用于记录 App Engine 指标的负载均衡器上游。在大多数情况下，这表明服务实例存在问题。
如果您在监控指标中看到延迟时间或错误增加，但未在请求日志中看到，则表示负载均衡出现故障，或者实例出现严重故障，导致负载均衡器无法路由请求。如需区分这些情况，请在突发事件开始之前查看请求日志。如果请求日志在出现故障前显示延迟时间增加，则表示应用实例在负载均衡器停止将请求路由到它们之前就开始出现故障。

问题排查

本部分介绍了针对请求路径中以下组件导致的延迟时间增加问题的问题排查策略：

互联网
Google Front End (GFE)
App Engine 服务基础架构
应用实例
应用依赖项

互联网

您的应用可能会因连接不佳或带宽较低而出现延迟问题。

互联网连接状况欠佳

如需确定问题是否是互联网连接状况不佳，请在您的客户端上运行以下命令：

$ curl -s -o /dev/null -w '%{time_connect}\n' <hostname>

time_connect 的值表示客户端与最近的 Google Front End 的连接的延迟时间。如果连接速度较慢，请使用 traceroute 进一步排查问题，以确定网络上的哪个跃点导致延迟。

从不同地理位置的客户端运行测试。App Engine 会自动将请求路由到最近的 Google 数据中心，该数据中心因客户端的位置而异。

带宽低

应用可能会快速响应；但网络瓶颈会延迟 App Engine 服务基础设施通过网络快速发送数据包，从而减慢响应速度。

Google Front End (GFE)

您的应用可能会因路由不正确、从 HTTP/2 客户端发送的并行请求或 SSL 连接终止而出现延迟问题。

将客户端 IP 映射到地理区域

Google 会根据 App Engine 应用在 DNS 查找中使用的客户端 IP 地址将该应用的主机名解析为离客户端最近的 GFE。如果客户端的 DNS 解析器未使用 EDNS0 协议，Google 可能无法将客户端请求路由到最近的 GFE。

HTTP/2 队头阻塞

由于 GFE 处的队头阻塞，并行发送多个请求的 HTTP/2 客户端可能会出现延迟时间增加。如需解决此问题，客户端必须使用 QUIC 协议。

自定义网域的 SSL 终止服务

GFE 可能会终止 SSL 连接。如果您使用的是自定义网域，而不是 appspot.com 网域，则需要额外的跃点来终止 SSL。这可能会增加在某些区域运行的应用的延迟时间。如需了解详情，请参阅映射自定义网域。

App Engine 服务基础架构

由于服务范围的问题或自动扩缩，您可能会看到应用的延迟时间增加。

服务范围的突发事件

Google 会在 Service Health 信息中心内发布服务范围的严重问题的详细信息。但是，Google 会逐步发布，因此服务范围的突发事件不太可能一次影响所有实例。

自动扩缩

以下自动扩缩场景可能会导致延迟时间或错误增加：

流量扩容过快：App Engine 自动扩缩可能无法以流量增加的速度快速扩缩实例，从而导致临时过载。通常，当流量由计算机程序（而非最终用户）生成时，就会发生过载。如需解决此问题，请限制生成流量的系统。
流量激增：如果自动扩缩的服务需要在不影响延迟时间的情况下更快地扩容，则流量激增可能会导致延迟时间增加。最终用户流量通常不会导致流量频繁激增。如果您看到流量激增，则应调查原因。如果批处理系统按时间间隔运行，您可以平滑流量或使用不同的扩缩设置。
自动扩缩器设置：您可以根据服务的扩缩特性配置自动扩缩器。在以下场景中，扩缩参数可能会变为非最佳：
- App Engine 柔性环境服务根据 CPU 利用率进行扩缩。在突发事件发生期间，您的应用可能会受 I/O 限制，导致具有大量请求的实例过载，因为不会发生基于 CPU 的扩缩。

我们建议您使用默认扩缩设置对性能进行基准测试，然后在每次更改这些设置后运行新的基准测试。

部署

部署后不久会出现延迟时间增加，表示您在迁移流量之前尚未充分扩容。新实例可能未预热本地缓存，因此处理速度比旧实例慢。

为了避免延迟时间激增，请勿使用与现有服务版本相同的版本名称部署 App Engine 服务。如果您重复使用现有版本名称，则无法缓慢地将流量迁移到新版本。由于 App Engine 会在短时间内重启每个实例，因此请求速度可能会变慢。如果您要还原到先前版本，也必须重新部署。

应用实例

本部分介绍了您可以应用于应用实例和源代码的常见策略，以优化性能并缩短延迟时间。

应用代码

应用代码中的问题可能很难调试，尤其是在问题是间歇性的或无法重现的情况下。

如需解决问题，请执行以下操作：

为了诊断问题，我们建议您使用日志记录、监控和跟踪记录对应用进行插桩。您还可以使用 Cloud Profiler。
尝试在本地开发环境中重现问题，以便让您运行可能无法在 App Engine 中运行的特定语言的调试工具。
您可以通过 SSH 连接到实例并收集线程转储，以查看应用的当前状态。在负载测试中或在本地运行应用来重现问题。您可以增加实例大小，看看这是否可以解决问题。例如，对于由于垃圾回收而遇到延迟的应用，增加 RAM 可以解决问题。
为了更好地了解应用出现故障的原因以及存在的瓶颈，请对应用进行负载测试，直到出现故障。设置实例数上限，然后逐步增加负载，直到应用出现故障。
如果延迟问题与新版本的应用代码的部署相关，请回滚以确定新版本是否导致了突发事件。但是，如果您连续部署，则频繁部署很难根据开始时间来确定部署是否导致了突发事件。
您的应用可能会将配置设置存储在 Datastore 或其他位置。创建配置更改的时间线，以确定其中任何一项更改是否与延迟时间增加的开始一致。

工作负载变化

工作负载变化可能会导致延迟时间增加。一些可能指示工作负载更改的监控指标包括 qps、API 使用情况和延迟时间。您还需要检查请求和响应大小的变化。

健康检查失败

App Engine 柔性环境负载均衡器会停止将请求路由到导致健康检查失败的实例。这可能会增加其他实例的负载，从而可能导致级联故障。Nginx 日志显示未通过健康检查的实例。分析日志和监控以确定实例健康状况不佳的原因，或将健康检查配置为对瞬时故障不太敏感。在负载均衡器停止将流量路由到健康状况不佳的实例之前，会出现短暂延迟。如果负载均衡器无法重试请求，则此延迟可能会导致错误峰值。

内存压力

如果监控显示内存用量呈锯齿状，或者与部署相关的内存用量下降，则性能问题可能是由内存泄漏引起的。内存泄漏也可能会导致频繁进行垃圾回收，从而导致延迟时间增加。如果您无法跟踪代码中的问题，请尝试预配具有更多内存的较大实例。

资源泄露

如果应用实例的延迟时间不断增加与实例存在时间相关，则可能会出现资源泄露，导致性能问题。部署完成后，延迟时间会缩短。例如，由于 CPU 使用率较高，数据结构随着时间的推移而变慢，可能会导致任何受 CPU 限制的工作负载变慢。

代码优化

如需缩短 App Engine 的延迟时间，请使用以下方法优化代码：

离线工作：使用 Cloud Tasks 可防止用户请求阻止应用等待工作（例如发送邮件）完成。
异步 API 调用：确保您的代码在等待 API 调用完成时不会被阻止。
批量 API 调用：批量版本 API 调用通常比发送单个调用更快。
对数据进行反规范化：通过对数据进行反规范化，缩短对数据持久层的调用的延迟时间。

应用依赖项

监控应用的依赖项，以检测延迟时间激增是否与依赖项故障相关。

工作负载变化和流量增加可能会导致依赖项的延迟时间增加。

非扩容依赖项

如果应用的依赖项未随着 App Engine 实例数量的增加而扩容，则当流量增加时，依赖项可能会过载。一个依赖项可能无法扩缩的示例是 SQL 数据库。应用实例数量越多，数据库连接数量就越多，可能会导致数据库无法启动，造成级联故障。如需解决此问题，请执行以下操作：

部署未连接到数据库的新默认版本。
关停以前的默认版本。
部署连接到数据库的新非默认版本。
将流量缓慢迁移到新版本。

作为预防措施，请设计应用以使用自适应限制来丢弃对依赖项的请求。

缓存层故障

如需加快请求速度，请使用多个缓存层，例如边缘缓存、Memcache 和实例中内存。其中一个缓存层出现故障可能会导致延迟时间突然增加。例如，Memcache 刷新可能会导致更多请求到达速度较慢的 Datastore。