创建和管理生成的列

生成的列始终是由某行中的其他列计算得出的列。这些列可简化查询、查询时评估表达式的费用，并可编织索引或作为外键。本页介绍了如何在数据库中管理此列类型，适用于 GoogleSQL 方言数据库和 PostgreSQL 方言数据库。

向新表添加生成的列

在以下 CREATE TABLE 代码段中，我们将创建一个表来存储用户的相关信息。我们有 FirstName 和 LastName 的列，并为 FullName（它由 FirstName 与 LastName 串联而成）定义了一个生成的列。英文括号中的 SQL 称为 generation expression。

生成的列可以标记为 STORED，以节省查询时对表达式求值的费用。因此，只有在插入新行或为现有行更新 FirstName 或 LastName 时，系统才会计算 FullName 的值。计算值与表中的其他列一起存储。

GoogleSQL

CREATE TABLE Users (
Id STRING(20) NOT NULL,
FirstName STRING(50),
LastName STRING(50),
Age INT64 NOT NULL,
FullName STRING(100) AS (FirstName || ' ' || LastName) STORED
) PRIMARY KEY (Id);

PostgreSQL

CREATE TABLE users (
id VARCHAR(20) NOT NULL,
firstname VARCHAR(50),
lastname VARCHAR(50),
age BIGINT NOT NULL,
fullname VARCHAR(100) GENERATED ALWAYS AS (firstname || ' ' || lastname) STORED,
PRIMARY KEY(id)
);

您可以通过在 DDL 中省略 STORED 属性来创建非存储生成的列。这种类型的生成列会在查询时进行评估，可简化查询。在 PostgreSQL 中，您可以使用 VIRTUAL 属性创建非存储生成列。

GoogleSQL

FullName STRING(MAX) AS (CONCAT(FirstName, " ", LastName))

PostgreSQL

fullname text GENERATED ALWAYS AS (firstname || ' ' || lastname) VIRTUAL

expression 可以是可分配给列数据类型的任何有效 SQL 表达式，但存在以下限制。
- 表达式只能引用同一表中的列。
- 表达式不能包含子查询。
- 包含非确定性函数的表达式（例如 PENDING_COMMIT_TIMESTAMP()、CURRENT_DATE() 和 CURRENT_TIMESTAMP()）无法转换为 STORED 生成的列或已编入索引的生成的列。
- 您无法修改 STORED 或已编入索引的生成列的表达式。
表达式后的 STORED 属性会将表达式结果与表的其他列一起存储。对任何被引用的列的后续更新都将导致 Spanner 重新评估和存储表达式。
非 STORED 的生成列无法标记为 NOT NULL。
不允许直接写入生成的列。
生成的列或生成的列引用的任何列都不允许使用列选项 allow_commit_timestamp。
对于已编入索引的 STORED 或生成的列，您无法更改该列或生成的列引用的任何列的数据类型。
您无法删除生成列引用的列。
您可以将生成的列用作主键，但需遵守以下额外限制：
- 生成的主键不能引用其他生成的列。
- 生成的主键最多可以引用一个非键列。
- 生成的主键不能依赖于带有 DEFAULT 子句的非键列。
使用生成的键列时，请遵循以下规则：
- 读取 API：您必须完全指定键列，包括生成的键列。
- 变更 API：对于 INSERT、INSERT_OR_UPDATE 和 REPLACE，Spanner 不允许您指定生成的键列。对于 UPDATE，您可以选择指定生成的键列。对于 DELETE，您需要完全指定键列，包括生成的键。
- DML：您无法在 INSERT 或 UPDATE 语句中显式写入生成的键。
- 查询：通常情况下，我们建议您在查询中使用生成的键列作为过滤条件。（可选）如果生成的键列的表达式仅使用一列作为引用，则查询可以对引用的列应用等式 (=) 或 IN 条件。如需了解详情并查看示例，请参阅创建由值列派生的唯一键。

生成的列可以像任何其他列一样进行查询，如以下示例所示。

GoogleSQL

SELECT Id, FullName
FROM Users;

PostgreSQL

SELECT id, fullname
FROM users;

使用 Fullname 的查询等效于使用生成的表达式的查询。因此，生成的列可以简化查询。

GoogleSQL

SELECT Id, ARRAY_TO_STRING([FirstName, LastName], " ") as FullName
FROM Users;

PostgreSQL

SELECT id, firstname || ' ' || lastname as fullname
FROM users;

为生成的列创建索引

您还可以为生成的列编制索引或将其用作外键。

为了帮助查询我们 FullName 生成的列，我们可以创建二级索引，如以下代码段所示。

GoogleSQL

CREATE INDEX UsersByFullName ON Users (FullName);

PostgreSQL

CREATE INDEX UserByFullName ON users (fullname);

将生成的列添加到现有表中

使用以下 ALTER TABLE 语句，我们可以将生成的列添加到 Users 表中以生成并存储用户名的首写字母。

GoogleSQL

ALTER TABLE Users ADD COLUMN Initials STRING(2)
AS (ARRAY_TO_STRING([SUBSTR(FirstName, 0, 1), SUBSTR(LastName, 0, 1)], "")) STORED;

PostgreSQL

ALTER TABLE users ADD COLUMN initials VARCHAR(2)
GENERATED ALWAYS AS (SUBSTR(firstname, 0, 1) || SUBSTR(lastname, 0, 1)) STORED;

如果您将存储的生成列添加到现有表，系统会启动一个长时间运行的操作来回填列值。回填期间，无法读取或查询存储的列。回填状态会反映在 INFORMATION_SCHEMA 表中。

使用生成的列创建部分索引

如果我们只想查询 18 岁以上的用户，该怎么办？对表进行完整扫描的效率很低，因此我们使用部分索引。

使用以下语句添加另一个生成的列，如果用户年龄超过 18 岁，将返回用户年龄；否则返回 NULL。

GoogleSQL

ALTER TABLE Users ADD COLUMN AgeAbove18 INT64
AS (IF(Age > 18, Age, NULL));

PostgreSQL

ALTER TABLE Users ADD COLUMN AgeAbove18 BIGINT
GENERATED ALWAYS AS (nullif( Age , least( 18, Age) )) VIRTUAL;

为该新列创建索引，并使用 GoogleSQL 中的 NULL_FILTERED 关键字或 PostgreSQL 中的 IS NOT NULL 谓词停用对 NULL 值的索引。部分索引比普通索引更小、更高效，因为它排除了年满 18 周岁或不足 18 周岁的所有人。
GoogleSQL
```
CREATE NULL_FILTERED INDEX UsersAbove18ByAge
ON Users (AgeAbove18);
```
PostgreSQL
```
CREATE INDEX UsersAbove18ByAge ON users (AgeAbove18)
WHERE AgeAbove18 IS NOT NULL;
```

如需检索所有 18 岁以上的用户的 Id 和 Age，请运行以下查询。

GoogleSQL

SELECT Id, Age
FROM Users@{FORCE_INDEX=UsersAbove18ByAge}
WHERE AgeAbove18 IS NOT NULL;

PostgreSQL

SELECT Id, Age
FROM users /*@ FORCE_INDEX = UsersAbove18ByAge */
WHERE AgeAbove18 IS NOT NULL;

要按不同年龄过滤用户，例如，要检索超过 21 岁的所有用户，请对生成的列使用同一索引和过滤条件，如下所示：
GoogleSQL
```
SELECT Id, Age
FROM Users@{FORCE_INDEX=UsersAbove18ByAge}
WHERE AgeAbove18 > 21;
```
PostgreSQL
```
SELECT Id, Age
FROM users /*@ FORCE_INDEX = UsersAbove18ByAge */
WHERE AgeAbove18 > 21;
```
与 STORED 生成的列相比，编入索引的生成的列可以节省在查询时对表达式求值的费用，并避免将值存储两次（在基本表和索引中）。

移除生成的列

以下 DDL 语句会从 Users 表中删除生成列：

GoogleSQL

  ALTER TABLE Users DROP COLUMN Initials;

PostgreSQL

  ALTER TABLE users DROP COLUMN initials;

修改生成的列表达式

GoogleSQL

ALTER TABLE Users ALTER COLUMN FullName STRING(100)
AS (ARRAY_TO_STRING(ARRAY_TO_STRING([LastName, FirstName ], " ")));

PostgreSQL

ALTER TABLE users ADD COLUMN Initials VARCHAR(2)
GENERATED ALWAYS AS (lastname || ' ' || firstname) VIRTUAL;

不允许更新 STORED 生成列或已编入索引的非存储生成列的表达式。

为生成的列创建主键

在 Spanner 中，您可以在主键中使用 STORED 生成的列。

以下示例展示了使用 ShardId 生成列创建 UserInfoLog 表的 DDL 语句。ShardId 列的值取决于另一列。它是通过对 UserId 列使用 MOD 函数派生而来的。ShardId 声明为主键的一部分。

GoogleSQL

CREATE TABLE UserInfoLog (
  ShardId INT64 NOT NULL
  AS (MOD(UserId, 2048)) STORED,
  UserId INT64 NOT NULL,
  FullName STRING(1024) NOT NULL,
) PRIMARY KEY (ShardId, UserId);

PostgreSQL

CREATE TABLE UserInfoLog (
  ShardId BIGINT GENERATED ALWAYS
  AS (MOD(UserId, '2048'::BIGINT)) STORED NOT NULL,
  UserId BIGINT NOT NULL,
  FullName VARCHAR(1024) NOT NULL,
  PRIMARY KEY(ShardId, UserId));

通常，如需高效地访问特定行，您需要指定所有键列。在前面的示例中，这意味着需要提供 ShardId 和 UserId。不过，如果生成的主键列依赖于单个其他列，并且该列的值已完全确定，Spanner 有时可以推断出该主键列的值。如果生成的主键列引用的列满足以下任一条件，则会出现这种情况：

它等于 WHERE 子句中的常量值或绑定参数，或者
其值由 WHERE 子句中的 IN 运算符设置
它会从等值联接条件中获取值

例如，对于以下查询：

GoogleSQL

SELECT * FROM UserInfoLog
AS T WHERE T.UserId=1;

PostgreSQL

SELECT * FROM UserInfoLog
AS T WHERE T.UserId=1;

Spanner 可以根据提供的 UserId 推断 ShardId 的值。上述查询在经过查询优化后等效于以下查询：

GoogleSQL

SELECT * FROM UserInfoLog
AS T WHERE T.ShardId = MOD(1, 2048)
AND T.UserId=1;

PostgreSQL

SELECT * FROM UserInfoLog
AS T WHERE T.ShardId = MOD(1, 2048)
AND T.UserId=1;

以下示例展示了如何创建 Students 表并使用表达式，该表达式检索 StudentInfo JSON 列的 id 字段并将其用作主键：

GoogleSQL

CREATE TABLE Students (
  StudentId INT64 NOT NULL
  AS (INT64(StudentInfo.id)) STORED,
  StudentInfo JSON NOT NULL,
) PRIMARY KEY (StudentId);

PostgreSQL

CREATE TABLE Students (
  StudentId BIGINT GENERATED ALWAYS
  AS ((StudentInfo ->> 'id')::BIGINT) STORED NOT NULL,
  StudentInfo JSONB NOT NULL,
  PRIMARY KEY(StudentId));

查看生成的列的属性

Spanner 的 INFORMATION_SCHEMA 包含有关数据库中的生成的列的信息。以下示例介绍了您在查询信息架构时可以回答的一些问题。

我的数据库中定义了哪些生成的列？

GoogleSQL

SELECT c.TABLE_NAME, c.COLUMN_NAME, C.IS_STORED
FROM INFORMATION_SCHEMA.COLUMNS as c
WHERE c.GENERATION_EXPRESSION IS NOT NULL;

PostgreSQL

SELECT c.TABLE_NAME, c.COLUMN_NAME, C.IS_STORED
FROM INFORMATION_SCHEMA.COLUMNS as c
WHERE c.GENERATION_EXPRESSION IS NOT NULL;

IS_STORED 是YES（对于存储的生成列）、NO（对于非存储的生成列）或 NULL（对于非生成列）。

表 Users 中生成的列的当前状态如何？

如果您向现有表添加了生成的列，则可能需要在查询中传递 SPANNER_STATE 以查找该列的当前状态。SPANNER_STATE 会返回以下值：

COMMITTED：该列完全可用。
WRITE_ONLY：正在回填列。不允许读取。

使用以下查询查找列的状态：

GoogleSQL

SELECT c.TABLE_NAME, c.COLUMN_NAME, c.SPANNER_STATE
FROM INFORMATION_SCHEMA.COLUMNS AS c
WHERE c.TABLE_NAME="Users" AND c.GENERATION_EXPRESSION IS NOT NULL;

PostgreSQL

SELECT c.TABLE_NAME, c.COLUMN_NAME, c.SPANNER_STATE
FROM INFORMATION_SCHEMA.COLUMNS AS c
WHERE c.TABLE_NAME='users' AND c.GENERATION_EXPRESSION IS NOT NULL;

注意：对于非存储的生成列，只能使用 SQL 查询进行访问。不过，如果该列已编入索引，您可以使用读取 API 从索引中访问值。

性能

STORED 生成的列不会影响读取或查询操作的性能。不过，查询中使用的非存储生成的列可能会影响其性能，因为生成的列表达式需要进行评估，这会产生开销。

使用 STORED 生成的列或已编入索引的生成的列时，写入操作（DML 语句和变更）的性能会受到影响。写入操作插入或修改生成的列表达式中引用的任何列时，系统会评估生成的列表达式，因此会产生开销。由于开销因应用的写入工作负载、架构设计和数据集特性而异，因此我们建议您在使用生成的列之前对应用进行基准测试。

后续步骤

详细了解 Spanner 的 GoogleSQL 方言数据库的信息架构和 PostgreSQL 方言数据库的信息架构。
如需详细了解生成的列，请参阅 CREATE TABLE 参数详细信息。

创建和管理生成的列 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

向新表添加生成的列

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

为生成的列创建索引

GoogleSQL

PostgreSQL

将生成的列添加到现有表中

GoogleSQL

PostgreSQL

使用生成的列创建部分索引

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

移除生成的列

GoogleSQL

PostgreSQL

修改生成的列表达式

GoogleSQL

PostgreSQL

为生成的列创建主键

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

查看生成的列的属性

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

性能

后续步骤

创建和管理生成的列