联合查询简介

本页面介绍了如何使用联合查询，并提供了有关如何从 BigQuery 查询 Spanner、AlloyDB 和 Cloud SQL 数据的指导。

借助联合查询，您可以将查询语句发送到 AlloyDB、Spanner 或 Cloud SQL 数据库，并将结果作为临时表返回。联合查询使用 BigQuery Connection API 与 AlloyDB、Spanner 或 Cloud SQL 建立连接。在查询中，您可以使用 EXTERNAL_QUERY 函数，通过该数据库的 SQL 方言向外部数据库发送查询语句。结果将转换为 GoogleSQL 数据类型。

支持的数据存储区

您可以将联合查询与以下数据存储区搭配使用：

工作流

确定包含您要查询的数据源的 Google Cloud 项目。
bigquery.admin 用户在 BigQuery 中创建连接资源。
管理员用户向用户 B 授予使用该连接资源的权限。
- 如果管理员和用户 B 是同一个人，则无需授予权限。
用户 B 使用新的 EXTERNAL_QUERY SQL 函数在 BigQuery 中编写查询。

联合查询的替代方案：外部表和数据集

如需查询 Bigtable、Spanner、Cloud Storage、Google 云端硬盘和 Salesforce Data Cloud 等运营数据库，另一种方法是使用外部表和数据集。借助外部数据集和表，您可以查看表及其架构，并在不使用 EXTERNAL_QUERY SQL 函数的情况下对其进行查询。您无需将数据重新导入 BigQuery，并且可以使用 BigQuery 语法，而无需使用 SQL 的特定 SQL 数据库方言进行编写。

支持的区域

如需查看受支持位置的列表，请参阅以下部分：

AlloyDB 和 Cloud SQL

只有同时支持外部数据源和 BigQuery 的区域才支持联合查询。

您可以创建连接并根据以下规则跨区域运行联合查询：

单区域

BigQuery 单区域只能查询同一区域中的资源。

例如，如果您的数据集位于 us-east4，则您可以查询位于 us-east4 的 Cloud SQL 实例或 AlloyDB 实例。查询处理位置是 BigQuery 单区域。

多区域

BigQuery 多区域可以查询同一大型地理区域（美国、欧盟）中的任何数据源区域。多区域级位置不适用于 Cloud SQL 实例，因为这些位置仅用于备份。

在 BigQuery 美国多区域中运行的查询可以查询美国地理区域中的任何单个区域，例如 us-central1、us-east4 或 us-west2。

注意：不支持从美国多区域的 BigQuery 数据集中查询 southamerica-east1 中的外部数据源。
在 BigQuery 欧盟多区域中运行的查询可以查询欧盟成员国中的任何单个区域，例如 europe-north1 或 europe-west3。
查询运行的位置必须与连接资源的位置相同。例如，在美国多区域执行的查询必须使用位于美国多区域的连接。

注意：源于多地区的查询无法再引用单地区中的连接。如果您有受影响的连接，请在查询所在的多区域中重新创建该连接。

查询性能因数据集与外部数据源之间的距离而异。例如，美国多区域的数据集与 us-central1 中的 Cloud SQL 实例之间的联合查询速度很快。但是，如果您在美国多区域和 us-east4 中的 Cloud SQL 实例之间运行同一查询，则性能可能会下降。

查询处理位置是多区域位置（US 或 EU）。

Spanner

对于 Spanner，则区域级配置和多区域级配置受到支持。BigQuery 单区域/多区域可以查询任何受支持的 Spanner 区域中的 Spanner 实例。如需了解详情，请参阅跨区域查询。

数据类型映射

执行联合查询时，外部数据源中的数据将转换为 GoogleSQL 类型。如需了解详情，请参阅 Cloud SQL 联合查询。

配额和限制

跨区域联合查询。如果 BigQuery 查询处理位置与外部数据源位置不同，则表示此查询是一个跨区域查询。您每天最多可以为每个项目运行 1 TB 的跨区域查询。以下是一个跨区域查询示例。
- Cloud SQL 实例位于 us-west1，而 BigQuery 连接位于美国多区域。BigQuery 查询处理位置是 US。
Quota。用户应控制外部数据源（例如 Cloud SQL 或 AlloyDB）中的查询配额。联合查询没有额外的配额设置。为了实现工作负载隔离，建议仅查询数据库读取副本。
允许的计费字节数上限。联合查询不支持此字段。您无法在实际执行联合查询之前计算计费字节数。
连接数：一个联合查询最多可以有 10 个唯一连接。
Cloud SQL MySQL 和 PostgreSQL。需遵循配额和限制。

限制

联合查询存在以下限制：

性能。联合查询可能不如仅查询 BigQuery 存储那么快。BigQuery 需要等待源数据库执行外部查询并暂时将数据从外部数据源移动到 BigQuery。此外，源数据库可能未针对复杂的分析查询进行优化。

查询性能还因数据集与外部数据源之间的距离而异。如需了解详情，请参阅支持的区域。
联合查询是只读的。在源数据库中执行的外部查询必须是只读的。因此，DML 或 DDL 语句不受支持。
不支持的数据类型。如果外部查询包含 BigQuery 中不支持的数据类型，查询将立即失败。您可以将不受支持的数据类型转换为受支持的其他数据类型。
客户管理的加密密钥 (CMEK)。您需要为 BigQuery 和外部数据源分别配置 CMEK。如果您将源数据库配置为使用 CMEK 而非 BigQuery，则包含联合查询结果的临时表会使用 Google-owned and Google-managed encryption key进行加密。

价格

如果您使用的是按需价格模式，从 BigQuery 执行联合查询时，需要为从外部查询返回的字节数付费。如需了解详情，请参阅按需分析价格。
如果您使用的是 BigQuery 版本，则需要根据所使用的槽数付费。如需了解详情，请参阅容量计算价格。

SQL 下推

联合查询受到称为 SQL 下推的优化技术的约束。该技术通过将过滤等操作委托给外部数据源（而不是在 BigQuery 中执行这些操作）来提高查询的性能。减少从外部数据源转移的数据量可以缩短查询执行时间并降低费用。SQL 下推包括列删减（SELECT 子句）和过滤下推（WHERE 子句）。

使用 EXTERNAL_QUERY 函数时，SQL 下推通过重写原始查询来实现。在以下示例中，EXTERNAL_QUERY 函数用于与 Cloud SQL 数据库通信：

SELECT COUNT(*)
FROM (
  SELECT * FROM EXTERNAL_QUERY("CONNECTION_ID", "select * from operations_table")
  )
WHERE a = 'Y' AND b NOT IN ('COMPLETE','CANCELLED');

将 CONNECTION_ID 替换为 BigQuery 连接的 ID。

如果不使用 SQL 下推，以下查询会发送到 Cloud SQL：

SELECT *
FROM operations_table

执行此查询时，即使只需要部分行和列，整个表也会发送回 BigQuery。

如果使用 SQL 下推，以下查询会发送到 Cloud SQL：

SELECT `a`, `b`
FROM (
  SELECT * FROM operations_table) t
WHERE ((`a` = 'Y') AND (NOT `b` IN ('COMPLETE', 'CANCELLED')))

执行此查询时，只有两列以及与过滤谓词匹配的行会发送回 BigQuery。

使用 Spanner 外部数据集运行联合查询时，也会应用 SQL 下推。

您可以在查询计划中检查已应用的下推（如果有）。

限制

SQL 下推有各种限制，具体取决于外部数据源以及您查询数据的方式。

使用 `EXTERNAL_QUERY` 时查询联合的限制

SQL 下推仅适用于 SELECT * FROM T 形式的联合查询。
仅支持列剪除和过滤下推。具体来说，不支持计算、联接、限制、排序和聚合下推。
对于过滤下推，字面量必须是以下类型之一：BOOL、INT64、FLOAT64、STRING、DATE、DATETIME、TIMESTAMP。不支持结构体形式的字面量。
SQL 函数下推仅适用于 BigQuery 和目标数据库都支持的函数。
仅 AlloyDB、Cloud SQL 和 Spanner 支持 SQL 下推。
SAP Datasphere 不支持 SQL 下推。

使用 Spanner 外部数据集时查询联合的限制

支持列剪除、过滤、计算和部分汇总下推。具体来说，不支持联接、限制和按聚合排序。
对于过滤下推，字面量必须是以下类型之一：BOOL、INT64、FLOAT64、STRING、DATE、DATETIME、TIMESTAMP、BYTE 或数组。不支持结构体形式的字面量。
SQL 函数下推仅适用于 BigQuery 和 Spanner 都支持的函数。

数据源支持的函数

以下是按数据源支持的 SQL 函数。SAP Datasphere 不支持任何函数。

Cloud SQL MySQL

逻辑运算符：AND、OR、NOT。
比较运算符：=、>、>=、<、<=、<>、IN、BETWEEN、IS NULL。
算术运算符：+、-、*（仅适用于 INT64 和 FLOAT64）。

Cloud SQL PostgreSQL 和 AlloyDB

逻辑运算符：AND、OR、NOT。
比较运算符：=、>、>=、<、<=、<>、IN、BETWEEN、IS NULL。
算术运算符：+、-、*、/（仅适用于 INT64、FLOAT64 和 DATE 类型，DATE 减法除外）。

Spanner - PostgreSQL 方言

逻辑运算符：AND、OR、NOT。
比较运算符：=、>、>=、<、<=、<>、IN、BETWEEN、IS NULL。
算术运算符：+、-、*、/（仅适用于 INT64、FLOAT64、NUMERIC）。
使用外部数据集时，还需要：
- 计算下推
- 部分汇总下推
- 字符串函数
- 数学函数
- 转换函数
- 数组函数
运行查询时，预期采用的是 GoogleSQL 语义，而不是 PostgreSQL 语义。例如：
- NULL 值默认按升序排序，这与 PostgreSQL 不同，在 PostgreSQL 中，它们默认按降序排序。
- 从 Spanner 读取的 PostgreSQL NUMERIC 值会根据 Spanner 到 BigQuery 的类型映射进行处理。例如，如果某个数值列具有 1.1234567891 值，则以下查询会返回 0 行：
```
SELECT * FROM EXTERNAL_QUERY("CONNECTION_ID", "SELECT * from
operations_table where numeric_col = 1.123456789")
```
  不过，根据 GoogleSQL 语义，以下语句会返回 1 行：
```
SELECT * from operations_table where numeric_col = 1.123456789
```
- JSON 对象规范化的行为有所不同。在 Spanner JSON 中，键按严格的字典顺序排序，但在 PostgreSQL PG JSONB 中，键首先按键长度排序，然后按等效键长度以字典顺序排序。

Spanner - GoogleSQL 方言

逻辑运算符：AND、OR、NOT。
比较运算符：=、>、>=、<、<=、<>、IN、BETWEEN、IS NULL。
算术运算符：+、-、*、/（仅适用于 INT64、FLOAT64、NUMERIC）。
安全算术运算符：SAFE_ADD、SAFE_SUBTRACT、SAFE_MULTIPLY、SAFE_DIVIDE（仅适用于 INT64、FLOAT64、NUMERIC）。
使用外部数据集时，还需要：
- 计算下推
- 部分汇总下推
- 字符串函数
- 数学函数
- 转换函数
- 数组函数

在外部数据源中使用排序规则

外部数据源可能在列上设置了排序规则（例如不区分大小写）。执行联合查询时，远程数据库会考虑配置的排序规则。

请考虑以下示例，其中外部数据源中有一个 flag 列，其排序规则不区分大小写：

SELECT * FROM EXTERNAL_QUERY("CONNECTION_ID", "select * from operations_table where flag = 'Y'")