对标准主题进行问题排查

本文档提供了将消息发布到标准 Pub/Sub 主题时的一些常见问题排查提示。

详细了解如何向主题发布消息及各种功能。

发布延迟时间较长

发布延迟时间是指完成发布商客户端发出的发布请求所需的时间。发布延迟时间与端到端传送延迟时间不同,端到端传送延迟时间是指发布到 Pub/Sub 的消息传送至订阅者客户端所用的时间。您可能会发现发布延迟或端到端延迟较高,即使其他延迟类型的值较低也是如此。Pub/Sub 发布者客户端、客户端和 Pub/Sub 后端之间的传输或者 Pub/Sub 后端可能会出现较长的发布延迟。您可以使用 topic/send_request_latencies 指标来检查 Pub/Sub 后端中产生的发布延迟时间。后端发布延迟时间较长可能与以下因素有关:

  • Pub/Sub 专为低延迟、高吞吐量的传送而设计。如果主题的吞吐量较低,则与该主题关联的资源可能需要更长时间进行初始化。

  • 如果您使用了消息存储政策,则可能会影响发送到主题和订阅的请求的总体延迟时间。查看使用此配置时性能和可用性的影响

如果您的发布商客户端观察到的发布延迟时间明显长于指标中反映的延迟时间,这可能表明存在以下客户端因素:

  • 确保您没有为每个发布内容创建新的发布商。建议为每个应用的每个主题使用一个发布者客户端来发布所有消息。启动新的发布者对象和添加新线程会产生延迟成本。如果您使用 Cloud Functions 发布消息,请注意,调用也可能会影响发布延迟时间。

  • 如果您发现默认的重试设置不足以满足您的用例,请进行相应的调整。但是,请确认新值不会过高。了解如何配置重试请求

请注意,较长的发布延迟时间可能会导致 DEADLINE_EXCEEDED 错误,下一部分将对此进行讨论。

发布操作失败并显示 DEADLINE_EXCEEDED

发布请求期间出现 DEADLINE_EXCEEDED 错误表示请求未能在分配的时间内完成。这可能是由于各种因素造成的,例如请求未到达 Pub/Sub 服务或影响请求的性能问题。

如需验证发布请求是否到达 Pub/Sub 服务,请使用 topic/send_request_count 指标(按 response_code 分组)监控主题。此指标可帮助您确定请求在到达 Pub/Sub 主题之前是否失败。如果指标为空,则表示存在外部因素阻止消息到达 Pub/Sub 服务。此外,为了排除间歇性问题的可能性,请检查错误率。如果错误率非常低,这可能是一个间歇性问题。

如果请求到达 Pub/Sub,则可能是以下一些原因导致发布操作失败并出现 DEADLINE_EXCEEDED 错误:

客户端瓶颈

发布失败可能是由客户端瓶颈导致的,例如内存不足、CPU 压力、线程运行状况不佳或托管发布商客户端的虚拟机中出现网络拥塞。如果 Publish 调用返回 DEADLINE_EXCEEDED,可能是因为异步 Publish 调用排队速度要快于将其发送到服务的速度,这会逐渐增加请求延迟时间。此外,请检查下列方法是否有助于确定系统中可能存在的瓶颈:

  • 检查发布消息的速度是否快于客户端发送消息的速度。通常,每个异步 Publish 调用都会返回一个 Future 对象。如需跟踪等待发送的消息数,请存储要通过每次 Publish 调用发送的消息数,并且仅在 Future 对象的回调中将其删除。

  • 确保在发布商运行的机器与 Google Cloud 之间有足够的上传带宽。开发 Wi-Fi 网络的带宽通常为 1-10MB/秒,或每秒 1000-10000 条典型的消息。如果在没有速率限制的情况下循环发布消息,可能会在短时间内产生短时间的高带宽突发。为避免这种情况,您可以在 Google Cloud 内的机器上运行发布者,或降低发布消息的速率,使其与您的可用带宽保持一致。

  • 出于任何原因(例如启动网络拥塞或防火墙)检查主机和 Google Cloud 之间的延迟时间是否非常高。计算网络吞吐量提供了有关如何找出不同场景下的带宽和延迟时间的提示。

  • 归根结底,一个机器能发布的数据量有限。您可能需要尝试横向扩缩或在多台计算机上运行发布者客户端的多个实例。测试 Cloud Pub/Sub 客户端以最大限度地提高流式处理性能演示了 Pub/Sub 如何在单个 Google Cloud 虚拟机上随着 CPU 数量的增加而扩缩。例如,您可以在 16 核 Compute Engine 实例上为 1 KB 消息实现 500 MB/秒到 700 MB/秒的吞吐量。

发布超时时长不足

如需降低发布调用的超时率,请务必在发布商客户端的重试设置中指定足够长的超时。对于重试设置,将初始截止时间设置为 10 秒,将总超时设置为 600 秒。即使您没有积累大量未发送的消息,也可能会导致发布调用超时。但是,如果您的问题是由持续性瓶颈而不是偶尔超时导致的,则重试更多次可能会导致更多错误。

客户端库问题

您可能运行的客户端库版本存在已知问题。以下列表包含所有客户端库的问题跟踪器。如果您发现某个已知问题会影响您正在使用的客户端库版本,请升级到最新版本的客户端库。这样可确保您接收所有相关更新,包括修复和性能提升。

架构问题

如果您的发布内容开始返回 INVALID_ARGUMENT,则可能是有人更新了主题以更改关联的架构删除了架构删除了与主题关联的架构修订版本。在这种情况下,请将主题的架构设置更新为与所发布消息匹配的架构和修订版本集,或调整消息格式以匹配当前架构。

邮件加密问题

如果您已将 Pub/Sub 主题配置为使用客户管理的加密密钥来加密发布的消息,则发布可能会失败并出现 FAILED_PRECONDITION 错误。如果 Cloud KMS 密钥被停用,或者无法再通过 Cloud EKM 访问外部管理的密钥,则可能会发生此错误。要继续发布,请恢复对密钥的访问权限