本页介绍了 Spanner 中的事务,并包含用于执行事务的示例代码。
简介
Spanner 中的事务是一组读写操作,它们跨数据库中的列、行和表,在单个逻辑时间点以原子方式执行。
Spanner 支持以下事务模式:
锁定读写。这些事务依赖于悲观锁定和(如有必要)两阶段提交。锁定读写事务可能会中止,需要应用重试。
只读。这种事务类型可保证多次读取之间的一致性,但禁止写入。默认情况下,只读事务会在系统选择的时间戳处执行,以保证外部一致性,但也可以配置为在过去的时间戳处读取。只读事务不需要提交,也不会锁定。此外,只读事务可能会等待正在进行的写入操作完成,然后再执行。
分区 DML。此事务类型将数据操纵语言 (DML) 语句作为分区 DML 执行。分区 DML 专为批量更新和删除(尤其是定期清理和回填)而设计。如果您需要提交大量盲目写入,但不需要原子事务,则可以使用批量写入来批量修改 Spanner 表。如需了解详情,请参阅使用批量写入修改数据。
本页介绍了 Spanner 中事务的常规特性和语义,并介绍了 Spanner 中的读写、只读和分区 DML 事务接口。
读写事务
在下列情况下,应该使用锁定读写事务:
- 如果您执行的写入操作依赖于一项或多项读取的结果,则应该在同一项读写事务中执行读写。
- 例如:银行账户 A 的余额翻倍。对 A 余额的读取应该与写入在同一项事务中进行,以将余额替换为双倍值。
- 如果您执行的一项或多项写入需要以原子方式提交,则应该在同一项读写事务中执行这些写入。
- 例如:将 200 美元从账户 A 转到账户 B。两项写入(一项写入是让账户 A 减少 200 美元,另一项写入是让账户 B 增加 200美元)和初始账户余额读取应在同一项事务中进行。
- 如果根据一项或多项读取的结果,您可能会执行一项或多项写入,那么您就应该在同一项读写事务中执行这些读写(哪怕您最终没有执行写入)。
- 例如:如果银行账户 A 的当前余额大于 500 美元,则将账户 A 中的 200 美元转到银行账户 B。您的事务应包含对账户 A 余额的读取和一个包含写入的条件语句。
在以下情况下,不应该使用锁定读写事务:
- 如果您只执行读取,并且可以使用单次读取方法来表达您的读取,则应该使用该单次读取方法或只读事务。与读写事务不同,单次读取不会锁定。
属性
Spanner 中的读写事务在单个逻辑时间点以原子方式执行一组读写。此外,读写事务执行的时间戳与挂钟时间匹配,并且序列化顺序与时间戳顺序匹配。
为什么使用读写事务?读写事务可提供 ACID 属性(事实上,Spanner 支持读写 与传统 ACID 相比,事务能够提供更强大的保证;请参阅 语义部分)。
隔离
以下是读写和只读的隔离属性 事务。
读写事务
成功提交包含一系列读取(或查询)和写入的事务后,您可获得以下隔离特性:
- 事务内的所有读取都返回反映在事务提交时间戳时拍摄的一致快照的值。
- 空行或空范围在提交时保持不变。
- 事务内的所有写入都在事务的提交时间戳提交。
- 在事务提交之前,任何事务都看不到写入。
某些 Spanner 客户端驱动程序包含事务重试逻辑,用于掩盖暂时性错误,具体方法是重新运行事务并验证客户端观察到的数据。
其结果是所有读写操作似乎是在 (无论是从事务本身还是从事务 并分析 Spanner 数据库的其他读取者和写入者的角度。换句话说,读取和写入最终发生在相同的时间戳(有关说明,请参阅下面的可序列化和外部一致性部分)。
只读事务
对于只执行读取的读写事务,其保证是相似的:该事务中的所有读取都返回来自同一时间戳的数据,即使行不存在也是如此。一个不同点在于,如果您读取了数据,稍后又提交了没有任何写入的读写事务,则不能保证在读取之后与提交之前的这段时间内,数据库中的数据没有发生变化。如果您想知道自从您上次读取数据后数据是否发生了变化,最好的方法是再次读取它(在读写事务中或者使用强读)。另外,为了提高效率,如果您事先知道您只执行读取而不写入,则应该使用只读事务而不是读写事务。
原子性、一致性、持久性
除了隔离特性之外,Spanner 还提供原子性(如果事务中的任何写入得到提交,则它们会全部得到提交)、一致性(数据库在事务之后保持一致状态)和持久性(提交的数据会保持已提交的状态)。
这些特性的优势
得益于 Cloud Spanner 的这些特性,应用开发者可以专注于每项事务本身的正确性,而不必想方设法让其执行不受可能同时执行的其他事务干扰。
接口
Spanner 客户端库提供了一个接口,用于在读写事务的情境中执行操作,并在事务中止的情况下重试。下面提供一些相关背景信息来对此加以说明:一项 Spanner 事务可能需要尝试多次才能成功提交。例如,如果两项事务以可能导致死锁的方式同时尝试处理数据,则 Spanner 会中止其中一项事务,以便另一项事务可以继续进行。(更少见的情况是,Spanner 中的瞬态事件可能导致某些事务中止)。由于事务具有原子性,被中止的事务不会对数据库有可见的影响。因此,应该不断重新尝试执行这些事务,直至成功。
在 Spanner 客户端库中使用事务时,您以函数对象的形式定义事务的正文(即,在数据库中的一个或多个表上执行的读取和写入)。在后台,Spanner 客户端库会反复运行该函数,直到事务得到提交或遇到不可重试的错误。
示例
假设您向“架构和数据模型”页面中所示的 Albums
表 添加了 MarketingBudget
列:
CREATE TABLE Albums ( SingerId INT64 NOT NULL, AlbumId INT64 NOT NULL, AlbumTitle STRING(MAX), MarketingBudget INT64 ) PRIMARY KEY (SingerId, AlbumId);
您的营销部门决定为专辑 Albums (1, 1)
做市场推广,要求您从 Albums
(2, 2)
的预算中划拨 200000 美元(但前提是该专辑的预算资金充裕)。您应该为此操作使用锁定读写事务,因为该事务可能会根据读取结果执行写入。
下面演示了如何执行读写事务:
C++
C#
Go
Java
Node.js
PHP
Python
Ruby
语义
可序列化和外部一致性
Spanner 提供“可序列化”特性,这意味着,即使不同事务的某些读取、写入和其他操作实际上是并行发生的,所有事务也看似按顺序执行一样。为实现此特性,Spanner 在为事务分配提交时间戳时,会使其与所提交事务的顺序相符。事实上,Spanner 提供了比可序列化更强有力的保证,称为外部一致性:事务按其提交时间戳中反映的顺序进行提交,而这些提交时间戳反映真实的时间,因此您可以将它们与您的手表时间进行比较。事务中的读取可以看到在该事务提交之前所提交的所有内容,而在该事务提交之后开始的所有操作都可以看到该事务中的写入。
例如,假设要执行两项事务,如下图所示:
蓝色事 Txn1
读取数据 A
,缓冲对 A
的写入,然后成功提交。绿色事务 Txn2
在 Txn1
之后开始,读取数据 B
,然后读取数据 A
。由于 Txn2
在 Txn1
提交其对 A
的写入之后才读取 A
的值,因此 Txn2
会看到 Txn1
写入到 A
这一效果,即使 Txn2
实际上是在 Txn1
完成之前开始的也是如此。
尽管 Txn1
和 Txn2
的执行时间部分重叠,但它们的提交时间戳 c1
和 c2
都遵循线性的事务顺序,也就是说,Txn1
的所有读写效果看起来发生在单个时间点 (c1
),而 Txn2
的所有读写操作看起来也发生在单个时间点 (c2
)。此外,c1 < c2
(由于 Txn1
和 Txn2
均提交了写入,因此这一点具有保证;即使写入发生在不同的机器上也是如此),其遵循 Txn1
在 Txn2
之前发生这一顺序(但是,如果 Txn2
只在事务中执行读取,则 c1 <= c2
)。
读取操作会观察到提交历史记录的前缀;如果其可看到 Txn2
的效果,则也会看到 Txn1
的效果。所有成功提交的事务都具有此特性。
读写保证
如果运行事务的调用失败,那么您所获得的读写保证取决于底层的提交调用是因什么错误而失败。
例如,“未找到行”或“行已存在”等错误意味着写入缓冲的数据变动时遇到了一些错误,例如客户端试图更新的行不存在。在这种情况下,读取保证一致,写入不会得到执行,行不存在的情形也保证与读取一致。
取消事务操作
用户可以随时取消异步读取操作(例如,当更高级层的操作被取消或您根据初始读取结果而决定停止读取时),这样做不会影响事务内的任何其他现有操作。
但是,即使您尝试取消读取,Spanner 也不保证读取实际上会取消。在您请求取消读取之后,该读取仍可能会成功完成或因其他原因(例如中止)而失败。此外,取消的读取可能实际上会向您返回一些结果,并且那些可能不完整的结果将作为事务提交的一部分进行验证。
请注意,与读取不同,如果取消事务提交操作,将导致事务中止(除非事务已经提交或因其他原因而失败)。
性能
锁定
Spanner 允许多个客户端同时与同一个数据库进行交互。为了确保多个并发事务保持一致,Spanner 结合使用共享锁定和独占锁定来控制对数据的访问。当您将读取作为事务的一部分执行时,Spanner 会获取共享读取锁定,这让其他读取操作仍然可以访问数据,直到您的事务准备好提交。当系统提交您的事务并执行写入时,事务将尝试升级到独占锁定。它会阻止对数据施加新的共享读取锁定,并等待现有的共享读取锁定被清除,然后施加独占锁定,以独占数据访问权。
有关锁定的注意事项:
- 锁定是在行和列的粒度进行的。如果事务 T1 锁定了行“foo”的“A”列,并且事务 T2 想要写入行“foo”的“B”列,则不存在冲突。
- 如果对某项数据的写入操作不会读取相应数据(亦称“盲写”),则这些写入不会与同一项数据的其他盲写发生冲突(每项写入的提交时间戳决定其应用于数据库的顺序)。这样做的结果是,只有当您已读取所要写入的数据时,Spanner 才需要升级到独占锁定。否则,Spanner 将使用称为写入方共享锁定的一种共享锁定。
- 在读写事务中执行行查询时,请使用二级索引将扫描的行限制为较小的范围。这会导致 Spanner 锁定表中更少的行,从而允许对范围之外的行进行并发修改。
不应使用锁定来确保独享 Spanner 外部的资源。Spanner 可能会出于多种原因而中止事务,例如,在允许数据在实例的计算资源之间移动时。如果重试事务(无论是通过应用代码明确进行,还是通过 Spanner JDBC 驱动程序等客户端代码隐式进行),则只能保证在实际提交的尝试期间保持锁定。
您可以使用锁定统计信息内省工具来调查数据库中的锁定冲突。
死锁检测
Spanner 会检测多项事务可能导致死锁的情况,并强制除一项事务以外的所有其他事务中止。例如,设想以下场景:事务 Txn1
持有记录 A
的锁定,并正在等待记录 B
的锁定解除,而 Txn2
持有记录 B
的锁定并正在等待记录 A
的锁定解除。在这种情况下,取得进展的唯一方法是放弃其中一项事务,以便释放其锁定,从而允许另一项事务继续进行。
Spanner 使用标准的“受伤-等待”算法来处理死锁检测。Spanner 会在后台跟踪哪些事务申请的锁定存在冲突及这些事务的时间戳,并允许较早的事务中止较晚的事务(其中,“较早”意味着事务的最早读取、查询或提交开始的时间更早)。
通过优先处理较早的事务,Spanner 可确保每项事务最终都有机会获取锁定,因为较早事务的存在时间更长,优先级比其他事务要高。例如,获取了读取方共享锁定的事务可被需要写入方共享锁定的较早事务中止。
分布式执行
Spanner 可对跨多个服务器的数据运行事务。与单服务器事务相比,这项功能会导致一定的性能损失。
哪些类型的事务可能是分布式的?在后台,Spanner 可能会将数据库中的行划分给许多不同的服务器来负责。某行和交错表中的相应行通常由同一台服务器处理,就像同一个表中键邻近的两行。Spanner 可以跨不同服务器上的行执行事务;然而,相比那些涉及分散在整个数据库或一个大型表中的许多行的事务,只涉及相邻的许多行的事务通常执行速度更快、开销更小。
Spanner 中最高效的事务仅包括应以原子方式应用的读取和写入操作。当所有读取和写入操作均访问位于键空间同一部分的数据时,事务处理速度最快。
只读事务
除了锁定读写事务外,Spanner 还提供只读事务。
当您需要在同一时间戳执行多项读取时,请使用只读事务。如果您可以使用 Spanner 的某个单次读取方法来表达您的读取,则应该使用该单次读取方法。使用这种单次读取调用的性能应该与在只读事务中执行单次读取的性能相当。
如果要读取大量数据,请考虑使用分区来并行读取数据。
由于只读事务不会写入,它们不会持有锁定,也不会阻止其他事务。只读事务会观察到一致的事务提交历史记录前缀,因此您的应用始终可获得一致的数据。
属性
无论是从只读事务本身的角度,还是从 Spanner 数据库中其他读取方和写入方的角度来看,Spanner 只读事务都是在单个逻辑时间点执行一组读取。这意味着,只读事务始终可在事务历史记录的选定点处观察到一致的数据库状态。
接口
Spanner 提供了一个接口,用于在只读事务的情境中执行操作,并在事务中止的情况下重试。
示例
下面演示了如何使用只读事务,为同一时间戳的两次读取获取一致的数据:
C++
C#
Go
Java
Node.js
PHP
Python
Ruby
分区 DML 事务
通过使用分区数据操纵语言(分区 DML),您可以执行大量的 UPDATE
和 DELETE
语句,并且不会遇到事务限制或锁定整个表。Spanner 对键空间进行分区,并在单独的读写事务中对每个分区执行 DML 语句。
您可以在代码中明确创建的读写事务中运行 DML 语句。如需了解详情,请参阅使用 DML。
属性
无论是使用客户端库方法还是使用 Google Cloud CLI,一次只能执行一个分区 DML 语句。
分区事务不支持提交或回滚。Spanner 立即执行并应用 DML 语句。如果您取消操作或操作失败,则 Spanner 将取消所有正在执行的分区,并且不会启动其他任何分区。Spanner 不会回滚已执行的任何分区。
接口
Spanner 提供了一个用于执行单个分区 DML 语句的接口。
示例
以下代码示例更新 Albums
表的 MarketingBudget
列。
C++
您可以使用 ExecutePartitionedDml()
函数来执行分区 DML 语句。
C#
使用 ExecutePartitionedUpdateAsync()
方法来执行分区 DML 语句。
Go
使用 PartitionedUpdate()
方法来执行分区 DML 语句。
Java
使用 executePartitionedUpdate()
方法来执行分区 DML 语句。
Node.js
使用 runPartitionedUpdate()
方法来执行分区 DML 语句。
PHP
使用 executePartitionedUpdate()
方法来执行分区 DML 语句。
Python
使用 execute_partitioned_dml()
方法来执行分区 DML 语句。
Ruby
使用 execute_partitioned_update()
方法来执行分区 DML 语句。
以下代码示例根据 SingerId
列从 Singers
表中删除行。