排查 Cloud Spanner 超出期限错误的问题

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

本页面简要介绍了 Cloud Spanner 的超出截止时间错误,包括错误、错误发生的原因以及如何排查和解决这些错误。

访问 Spanner API 时,请求可能会因 DEADLINE_EXCEEDED 错误而失败。此错误表示未在配置的超时期限内收到响应。

导致超出截止时间的错误可能有很多原因,例如 Spanner 实例过载、架构未经优化或查询未经优化。本页将介绍最后期限超过错误的常见情况,并就如何调查和解决这些问题提供了指南。

Cloud Spanner 的截止日期和重试理念

Spanner 的截止日期和重试原理与许多其他系统不同。在 Spanner 中,您应将超时截止时间指定为响应可用的最长时间。不建议您仅人为地短时间立即重试同一操作,因为这会导致操作永远无法完成。在这种情况下,不建议使用以下策略和操作;它们会适得其反,并且会违反 Spanner 的内部重试行为:

  • 设置的截止时间过短。这意味着操作无法适应偶尔的尾延迟时间增加,并且无法在超时之前完成。相反,请设置一个截止时间,即响应的最长使用时间。

  • 设置的时间太长,并在截止日期之前取消操作。这会导致重试,并浪费每次尝试的工作。总体而言,这可能会为您的实例带来大量额外负载。

什么是“已超出期限”错误?

当您使用某个 Spanner 客户端库时,底层 gRPC 层负责处理通信、编组、取消编组和截止期限。截止期限可让应用指定在等待期限结束之前由于请求超出截止期限而等待请求完成的时间。

超时配置指南演示了如何在每个支持的 Spanner 客户端库中指定截止期限(或超时)。Spanner 客户端库使用默认超时和重试政策设置,可在以下配置文件中定义:

如需详细了解 gRPC 截止时间,请参阅 gRPC 和截止时间

如何调查和解决“截止期限”常见错误

数据访问 API 问题

您必须针对您的特定工作负载适当配置 Spanner 实例,以避免数据访问 API 问题。以下部分介绍了如何调查和解决不同的数据访问 API 问题。

检查 Spanner 实例的 CPU 负载

当 CPU 利用率超过建议的状况良好判断阈值时,请求延迟时间可能会显著增加。您可以在 Google Cloud 控制台提供的 Monitoring 控制台中检查 Spanner CPU 利用率。您还可以根据实例的 CPU 利用率创建提醒

解决方法

如需了解降低实例的 CPU 利用率的步骤,请参阅降低 CPU 利用率

查看请求的端到端延迟时间细分

在请求从客户端传输到 Spanner 服务器并返回的过程中,您需要进行多次网络跃点:从客户端库到 Google 前端 (GFE);从 GFE 到 Spanner API 前端;最后从 Spanner API 前端到 Spanner 数据库。如果在上述任何阶段出现网络问题,您可能会看到截止期限错误。

您可以在每个阶段捕获延迟时间(请参阅延迟时间指南)。如需详细了解如何使用诊断指南,请参阅如何诊断延迟时间问题

解决方法

在获得延迟明细并诊断延迟问题后,您可以使用此问题排查指南来找出导致延迟的原因,并了解发生这种情况的原因。

Data API 问题

Spanner 的数据 API 的某些非最佳使用模式可能会导致超出期限的错误。本部分介绍了如何检查这些非最佳使用模式。

检查是否有成本较高的查询

如果尝试运行未在客户端库的已配置超时期限内执行的成本高昂的查询,可能会导致超出截止时间的错误。开销大的查询的一些示例包括但不限于:对大型表进行全面扫描、对多个大型表进行交叉联接,或者对谓词对非键列执行查询(同时执行全表扫描)。

您可以使用查询统计信息表事务统计信息表检查昂贵的查询。这些表显示了有关运行缓慢的查询和事务的信息,例如平均读取行数、读取的平均字节数、扫描的平均行数等。此外,您可以生成查询执行计划以进一步检查查询的执行方式。

解决方法

如需优化查询,请参阅 SQL 查询最佳做法指南。 您还可以使用通过上述统计信息表和执行计划获得的数据来优化查询并对数据库进行架构更改。这些最佳做法有助于缩短语句的执行时间,并且有助于消除截止时间超出错误。

检查锁争用

Spanner 事务需要获取才能提交。高吞吐量应用可能会导致事务争用相同的资源,从而导致锁的等待时间增加,并影响整体性能。这可能会导致任何读取或写入请求的截止期限超过。

您可以通过使用锁定统计信息表格并参阅以下博文,找出导致读写延迟时间长的根本原因。在锁定统计信息表格中,您可以找到具有最长锁定等待时间的行键。

锁定冲突问题排查指南介绍了如何查找正在访问锁定冲突所涉及的列的事务。您还可以参阅“使用事务代码进行问题排查”指南,了解锁定冲突中涉及哪些事务。

解决方法

遵循这些最佳做法以减少锁争用。此外,对于只读读取用例,请使用只读事务以避免与写入发生锁定冲突。使用读写事务时应预留用于写入或混合读写工作流。遵循这些步骤应该能够缩短事务执行时间的总延迟时间,并缩短超过截止时间的错误。

检查是否存在未优化的架构

在为 Spanner 数据库设计最佳数据库架构之前,您应该考虑要在数据库中执行的查询种类。运行次优架构时,运行某些查询可能会导致性能问题。这些性能问题可能会导致请求无法在配置的截止时间内完成。

解决方法

最佳架构设计将取决于对数据库执行的读写操作。无论架构细节如何,均应遵循架构设计最佳做法SQL 最佳做法指南。通过遵循这些指南,您可以避免最常见的架构设计问题。其他一些导致性能不佳的根本原因是:您的主键选择、表布局(请参阅使用交错表加快访问速度)、架构设计(请参阅优化架构的性能),以及 Spanner 实例中配置的节点的性能(请参阅单区域限制多区域限制)。

检查热点

由于 Spanner 是一个分布式数据库,因此架构设计需要考虑防止出现热点。例如,创建单调递增的列会限制 Spanner 可用于均衡工作负载的分片数量。这些瓶颈可能会导致超时。此外,您还可以使用 Key Visualizer 排查热点导致的性能问题。

解决方法

如需解决此问题,请参阅上一部分中检查是否存在未优化的架构部分中列出的解决方法。重新设计数据库架构并使用交错索引,以避免可能引起热点的索引问题。如果按照这些步骤操作没有解决问题,请参阅“选择主键以防止生成热点”指南。最后,避免使用不理想的流量模式,例如大范围读取,这样可能导致基于负载的拆分。

检查超时配置是否有误

客户端库为 Spanner 中的所有请求提供合理的超时默认值。但是,您可能需要针对您的特定工作负载调整这些默认配置。您需要留意查询费用,并根据您的特定用例调整截止期限。

解决方法

超时默认设置适用于大多数用例。用户可以替换这些配置(请参阅自定义超时和重试指南),但不建议使用比默认超时更激进的超时。如果您决定更改超时时间,请将其设置为应用愿意等待结果的实际时间。您可以尝试配置更长的超时时间,但切勿将超时时间设置为短于应用实际等待的时间,因为这会导致操作重试频率增加。

Admin API 问题

与数据 API 请求相比,Admin API 请求的操作成本高昂。CreateInstanceCreateDatabaseCreateBackups 等管理员请求可能需要几秒钟才能返回响应。Spanner 客户端库为实例数据库管理员请求设置了长达 60 分钟的截止时间。这是为了确保服务器有机会在客户端重试或失败之前完成请求。

解决方法

如果您使用 Google Spanner 客户端库访问 Admin API,请确保客户端库已更新并使用最新版本。如果您是直接通过您创建的客户端库访问 Spanner API,请确保您为实例数据库管理员请求设定的截止期限设置没有超出默认设置(60 分钟)。

Google Cloud 控制台问题

从 Google Cloud Console 查询页面发出的查询不能超过五分钟。如果您创建一个运行时间超过五分钟且成本高昂的查询,您将看到以下错误消息:

Cloud Console 已超出截止期限的错误消息的屏幕截图

后端将取消失败的查询,如有必要,事务可能会回滚。

解决方法

您可以按照 SQL 查询最佳做法指南重写查询。

Dataflow 问题

在 Apache Beam 中,读取操作的默认超时配置是两小时,提交操作的默认超时配置是 15 秒。与独立客户端库的截止时间超时相比,这些配置允许更长时间的操作。不过,当工作项太大时,仍然可能会收到超时和截止时间超出错误。目前,只能在必要时自定义 Apache Beam 提交超时配置。

解决方法

如果步骤 ReadFromSpanner / Execute query / Read from Cloud Spanner / Read from Partitions 中发生的超出截止期限错误,请查看查询统计信息表,以找出哪个查询扫描了大量行。然后,修改此类查询以尝试缩短执行时间。

以下异常消息显示了另一个 Dataflow 截止期限错误示例:

exception:
     org.apache.beam.sdk.util.UserCodeException:
     com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED:
     io.grpc.StatusRuntimeException: DEADLINE_EXCEEDED: deadline exceeded after
     3599.999905380s.
     [remote_addr=batch-spanner.googleapis.com/172.217.5.234:443] at
 org.apache.beam.runners.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:184)

之所以会导致超时,是因为工作项太大。在上述情况中,以下两项建议可能会有所帮助。首先,您可以尝试启用重排服务(如果尚未启用)。其次,您可以尝试调整数据库读取的配置(例如 maxPartitionspartitionSizeBytes)。如需了解详情,请参阅 PartitionOptions 以尝试减小工作项大小。您可以在此 Dataflow 模板中找到有关如何执行此操作的示例。

超出问题排查期限已过

如果您在执行上述问题排查步骤后仍然看到截止期限超出错误,请使用以下细分来确定是否需要创建支持请求(请参阅问题排查延迟问题表中的完整支持请求列表)。总而言之,如果您遇到以下情况,请创建支持服务工单:

  • Google 前端延迟时间较长,但 Spanner API 请求延迟时间较短
  • Spanner API 请求延迟时间较长,但查询延迟时间较短

您还可以参阅以下问题排查资源: