BigQuery
借助 BigQuery 连接器,您可以对 Google BigQuery 数据执行插入、删除、更新和读取操作。
准备工作
在使用 BigQuery 连接器之前,请先完成以下任务:
- 在您的 Google Cloud 项目中:
- 向配置连接器的用户授予 roles/connectors.admin IAM 角色。
- 将以下 IAM 角色授予您要用其来使用连接器的服务账号:
roles/bigquery.dataEditor
服务账号是一种特殊类型的 Google 账号,用于表示需要验证身份并获得授权以访问 Google API 数据的非人类用户。如果您没有服务账号,则必须创建一个服务账号。如需了解详情,请参阅创建服务账号。
- 启用以下服务:
secretmanager.googleapis.com
(Secret Manager API)connectors.googleapis.com
(Connectors API)
如需了解如何启用服务,请参阅启用服务。
如果之前没有为您的项目启用这些服务或权限,则在您配置连接器时,系统会提示您启用。
配置连接器
配置连接器时,您需要创建与数据源(即后端系统)的连接。一个连接需专用于一个数据源。这意味着,如果您有许多数据源,则必须为每个数据源创建单独的连接。如需创建连接,请执行以下步骤:
- 在 Cloud 控制台 中,进入 Integration Connectors > 连接页面,然后选择或创建一个 Google Cloud 项目。
- 点击 + 新建以打开创建连接页面。
- 在位置部分中,选择连接的位置。
- 区域:从下拉列表中选择一个位置。
如需查看所有受支持区域的列表,请参阅位置。
- 点击下一步。
- 区域:从下拉列表中选择一个位置。
- 在连接详情部分中,完成以下操作:
- 连接器:从可用连接器的下拉列表中选择 BigQuery。
- 连接器版本:从可用版本的下拉列表中选择一个连接器版本。
- 在连接名称字段中,输入连接实例的名称。
连接名称必须符合以下条件:
- 连接名称可以使用字母、数字或连字符。
- 字母必须小写。
- 连接名称必须以字母开头,以字母或数字结尾。
- 连接名称不能超过 49 个字符。
- (可选)输入连接实例的说明。
- (可选)启用 Cloud Logging。
然后选择一个日志级别默认情况下,日志级别设置为
Error
。 - 服务账号:选择具有所需角色的服务账号。
- (可选)配置连接节点设置:
- 节点数下限:输入连接节点数下限。
- 节点数上限:输入连接节点数上限。
节点是处理事务的连接单元(或副本)。 连接处理越多事务就需要越多节点,相反,处理越少事务需要越少节点。 如需了解节点如何影响连接器价格,请参阅连接节点的价格。如果未输入任何值,则默认情况下,节点数下限设置为 2(以便提高可用性),节点数上限设置为 50。
- 项目 ID:数据所在的 Google Cloud 项目的 ID。
- 数据集 ID:BigQuery 数据集的 ID。
- 使用代理:选中此复选框可为连接配置代理服务器并配置以下值:
-
代理身份验证方案:选择要通过代理服务器进行身份验证的身份验证类型。支持以下身份验证类型:
- 基本:基本 HTTP 身份验证。
- 摘要:摘要 HTTP 身份验证。
- 代理用户:用于向代理服务器进行身份验证的用户名。
- 代理密码:用户密码的 Secret Manager 密文。
-
代理 SSL 类型:连接到代理服务器时使用的 SSL 类型。支持以下身份验证类型:
- 自动:默认设置。如果网址是 HTTPS 网址,则使用“隧道”选项。如果网址是 HTTP 网址,则使用“永不”选项。
- 始终:连接始终启用 SSL。
- 永不:连接未启用 SSL。
- 隧道:连接通过隧道代理建立。代理服务器会打开与远程主机的连接,并且流量会流经该代理。
- 在代理服务器部分中,输入代理服务器的详细信息。
- (可选)点击 + 添加标签,以键值对的形式向连接添加标签。
- 点击下一步。
-
在 Authentication(身份验证)部分中,输入身份验证详细信息。
- 选择是使用 OAuth 2.0 - 授权代码进行身份验证,还是不进行身份验证直接继续。
如需了解如何配置身份验证,请参阅配置身份验证。
- 点击下一步。
- 选择是使用 OAuth 2.0 - 授权代码进行身份验证,还是不进行身份验证直接继续。
- 查看:查看您的连接和身份验证详细信息。
- 点击创建。
配置身份验证
根据您要使用的身份验证输入详细信息。
- 无需身份验证:如果您不需要身份验证,请选择此选项。
- OAuth 2.0 - 授权代码:选择此选项可使用基于 Web 的用户登录流程进行身份验证。请指定以下详细信息:
- 客户端 ID :连接到后端 Google 服务所需的客户端 ID。
- 范围 :所需范围的列表(以英文逗号分隔)。如需查看所需 Google 服务支持的所有 OAuth 2.0 范围,请参阅适用于 Google API 的 OAuth 2.0 范围页面中的相关部分。
- 客户端密钥:选择 Secret Manager 密钥。您必须先创建 Secret Manager 密钥,然后再配置此授权。
- 密钥版本:客户端密钥的 Secret Manager 密钥版本。
对于 Authorization code
身份验证类型,在创建连接后,您必须执行一些额外的步骤来配置身份验证。如需更多信息
请参阅创建连接后的其他步骤。
创建连接后的其他步骤
如果您选择OAuth 2.0 - Authorization code
身份验证,您必须在创建连接后执行以下额外步骤:
- 在“连接”页面中,
找到新创建的连接。
请注意,新连接器的状态将为需要授权。
- 点击需要授权。
此时将显示修改授权窗格。
- 将重定向 URI 值复制到您的外部应用。
- 验证授权详细信息。
- 点击 Authorize(授权)。
如果授权成功,连接状态将在 “连接”页面。
为授权代码重新授权
如果您使用的是 Authorization code
身份验证类型,并且在 BigQuery 中进行了任何配置更改,则必须重新授权您的 BigQuery 连接。如需重新授权关联,请执行以下步骤:
- 在“连接”页面中,点击所需的连接。
系统随即会打开连接详情页面。
- 点击修改以修改关联详情。
- 在身份验证部分中,验证 OAuth 2.0 - 授权代码详细信息。
根据需要进行必要的更改。
- 点击保存。系统随即会转到连接详情页面。
- 点击身份验证部分中的修改授权。此时将显示授权窗格。
- 点击 Authorize(授权)。
如果授权成功,“连接”页面中的连接状态将设为活跃。
实体、操作和动作
所有集成连接器都会为所连接应用的对象提供抽象层。您只能通过此抽象访问应用的对象。抽象作为实体、操作和动作向您展示。
- 实体:实体可以被视为连接的应用或服务中的对象或属性集合。不同连接器的实体定义也会有所不同。例如,在数据库连接器中,表是实体;在文件服务器连接器中,文件夹是实体;在消息传递系统连接器中,队列是实体。
但是,连接器可能不支持或不支持任何实体,在这种情况下, “
Entities
”列表将为空。 - 操作:操作是指您可以对实体执行的操作。您可以对实体执行以下任一操作:
从可用列表中选择一个实体,系统会生成该实体可用的操作列表。如需了解操作的详细说明,请参阅连接器任务的实体操作。但是,如果连接器不支持任何实体操作, 操作未在
Operations
列表中列出。 - 动作:动作是可通过连接器接口提供给集成的头等函数。动作可让您对一个或多个实体进行更改,并且动作因连接器而异。通常,操作有一些输入参数和一个输出
参数。但可能的情况是,连接器不支持任何动作,在这种情况下,
Actions
列表将为空。
系统限制
BigQuery 连接器每个节点每秒最多可处理 8 笔事务,并会节流超出此限制的所有事务。默认情况下,Integration Connectors 会为连接分配 2 个节点(以提高可用性)。
如需了解适用于 Integration Connectors 的限制,请参阅限制。
支持的数据类型
以下是此连接器支持的数据类型:
- BIGINT
- BINARY
- BIT
- BOOLEAN
- CHAR
- DATE
- DECIMAL
- DOUBLE
- FLOAT
- INTEGER
- 长 VARCHAR
- LONG VARCHAR
- NCHAR
- NUMERIC
- NVARCHAR
- REAL
- 小范围的
- 时间
- TIMESTAMP
- 小小的内侧
- VARBINARY
- VARCHAR
已知问题
BigQuery 连接器不支持 BigQuery 表中的主键。这意味着,您无法使用 entityId
执行 Get、Update 和 Delete 实体操作。或者,您也可以使用过滤条件子句根据 ID 过滤记录。
操作
本部分介绍了 BigQuery 连接器中提供的操作。
CancelJob 操作
通过此操作,您可以取消正在运行的 BigQuery 作业。
下表介绍了 CancelJob
操作的输入参数。
参数名称 | 数据类型 | 说明 |
---|---|---|
JobId | 字符串 | 要取消的作业的 ID。此字段是必填字段。 |
区域 | 字符串 | 当前执行作业的区域。如果职位位于美国或欧盟区域,则不需要填写。 |
GetJob 操作
通过此操作,您可以检索现有作业的配置信息和执行状态。
下表介绍了 GetJob
操作的输入参数。
参数名称 | 数据类型 | 说明 |
---|---|---|
JobId | 字符串 | 您要为其检索配置的作业的 ID。此字段是必填字段。 |
区域 | 字符串 | 作业当前正在执行的区域。如果职位位于美国或欧盟区域,则不需要填写。 |
InsertJob 操作
通过此操作,您可以插入 BigQuery 作业,以便稍后选择该作业来检索查询结果。
下表介绍了 InsertJob
操作的输入参数。
参数名称 | 数据类型 | 说明 |
---|---|---|
查询 | 字符串 | 要提交到 BigQuery 的查询。此字段是必填字段。 |
IsDML | 字符串 | 如果查询是 DML 语句,则应设置为 true ;否则,应设置为 false 。默认值为 false 。 |
DestinationTable | 字符串 | 查询的目标表,采用 DestProjectId:DestDatasetId.DestTable 格式。 |
WriteDisposition | 字符串 | 指定如何将数据写入目标表;例如截断现有结果、附加现有结果,或仅在表为空时写入。以下是支持的
值:
|
DryRun | 字符串 | 指定作业的执行是否为试运行。 |
MaximumBytesBilled | 字符串 | 指定作业可处理的字节数上限。BigQuery 会将 如果作业尝试处理的字节数超过指定值,则运行作业。 |
区域 | 字符串 | 指定应执行作业的区域。 |
InsertLoadJob 操作
您可以插入 BigQuery 加载作业,将 Google Cloud Storage 中的数据添加到现有表中。
下表介绍了 InsertLoadJob
操作的输入参数。
参数名称 | 数据类型 | 说明 |
---|---|---|
SourceURI | 字符串 | 以空格分隔的 Google Cloud Storage URI 列表。 |
SourceFormat | 字符串 | 文件的来源格式。支持的值如下:
|
DestinationTable | 字符串 | 查询的目标表,采用 DestProjectId.DestDatasetId.DestTable 格式。 |
DestinationTableProperties | 字符串 | 一个 JSON 对象,用于指定表的易记名称、说明和标签列表。 |
DestinationTableSchema | 字符串 | 一个 JSON 列表,用于指定用于创建表的字段。 |
DestinationEncryptionConfiguration | 字符串 | 一个 JSON 对象,用于指定表的 KMS 加密设置。 |
SchemaUpdateOptions | 字符串 | 一个 JSON 列表,用于指定更新目标表架构时要应用的选项。 |
TimePartitioning | 字符串 | 用于指定时间分区类型和字段的 JSON 对象。 |
RangePartitioning | 字符串 | 用于指定范围分区字段和分桶的 JSON 对象。 |
聚簇 | 字符串 | 一个 JSON 对象,用于指定要用于聚类的字段。 |
自动检测 | 字符串 | 指定是否应自动确定 JSON 和 CSV 文件的选项和架构。 |
CreateDisposition | 字符串 | 指定在目标表不存在时是否需要创建该表。支持的值如下:
|
WriteDisposition | 字符串 | 指定如何将数据写入目标表,例如;截断现有结果,
附加现有结果,或仅在表为空时写入。以下是
支持的值:
|
区域 | 字符串 | 指定作业应在哪个区域执行。Google Cloud Storage 资源和 BigQuery 数据集必须位于同一区域。 |
DryRun | 字符串 | 指定作业的执行是否为试运行。默认值为 false 。 |
MaximumBadRecords | 字符串 | 指定在整个作业被取消之前可以有多少条记录无效。默认情况下,所有记录都必须有效。默认值为 0 。 |
IgnoreUnknownValues | 字符串 | 指定是否必须忽略输入文件中的未知字段,还是将其视为错误。默认情况下,系统会将错误视为错误。默认值为 false 。 |
AvroUseLogicalTypes | 字符串 | 指定是否必须使用 Avro 逻辑类型将 Avro 数据转换为 BigQuery 类型。默认
值为 true 。 |
CSVSkipLeadingRows | 字符串 | 指定在 CSV 文件开头要跳过的行数。这通常用于跳过标题行。 |
CSVEncoding | 字符串 | CSV 文件的编码类型。支持的值如下:
|
CSVNullMarker | 字符串 | 如果提供,此字符串将用于 CSV 文件中的 NULL 值。默认情况下,CSV 文件 不能使用 NULL。 |
CSVFieldDelimiter | 字符串 | 用于分隔 CSV 文件中各列的字符。默认值为英文逗号 (, )。 |
CSVQuote | 字符串 | CSV 文件中带英文引号的字段使用的字符。可设置为空,以停用引号。默认值为英文双引号 (" )。 |
CSVAllowQuotedNewlines | 字符串 | 指定 CSV 文件是否可以在引用字段中包含换行符。默认值为 false 。 |
CSVAllowJaggedRows | 字符串 | 指定 CSV 文件是否可以包含缺失的字段。默认值为 false 。 |
DSBackupProjectionFields | 字符串 | 要从 Cloud Datastore 备份加载的字段的 JSON 列表。 |
ParquetOptions | 字符串 | 一个指定 Parquet 专属导入选项的 JSON 对象。 |
DecimalTargetTypes | 字符串 | 一个 JSON 列表,用于指定对数字类型应用的偏好顺序。 |
HivePartitioningOptions | 字符串 | 指定源端分区选项的 JSON 对象。 |
执行自定义 SQL 查询
如需创建自定义查询,请按照下列步骤操作:
- 按照详细说明添加连接器任务。
- 配置连接器任务时,在要执行的动作类型中选择动作。
- 在动作列表中,选择执行自定义查询,然后点击完成。
- 展开任务输入部分,然后执行以下操作:
- 在在以下时间后超时字段中,输入查询执行前要等待的秒数。
默认值:
180
秒。 - 在最大行数字段中,输入要从数据库返回的最大行数。
默认值:
25
。 - 要更新自定义查询,请点击修改自定义脚本。系统随即会打开脚本编辑器对话框。
- 在脚本编辑器对话框中,输入 SQL 查询,然后点击保存。
您可以在 SQL 语句中使用问号 (?) 表示必须在查询参数列表中指定的单个参数。例如,以下 SQL 查询会从
Employees
表中选择与为LastName
列指定的值匹配的所有行:SELECT * FROM Employees where LastName=?
- 如果您在 SQL 查询中使用了问号,则必须点击 + 添加参数名称,针对每个问号添加参数。执行集成时,这些参数按顺序替换 SQL 查询中的问号 (?)。例如,如果您添加了三个问号 (?),那么必须按顺序添加三个参数。
如需添加查询参数,请执行以下操作:
- 从类型列表中,选择参数的数据类型。
- 在值字段中,输入参数的值。
- 要添加多个参数,请点击 + 添加查询参数。
- 在在以下时间后超时字段中,输入查询执行前要等待的秒数。
使用 Terraform 创建连接
您可以使用 Terraform 资源创建新的连接。如需了解如何应用或移除 Terraform 配置,请参阅基本 Terraform 命令。
如需查看用于创建连接的 Terraform 模板示例,请参阅示例模板。
使用 Terraform 创建此连接时,您必须在 Terraform 配置文件中设置以下变量:
参数名称 | 数据类型 | 必需 | 说明 |
---|---|---|---|
project_id | STRING | True | 包含 BigQuery 数据集的项目的 ID,例如 myproject。 |
dataset_id | STRING | 错误 | 不含项目名称的 BigQuery 数据集的 ID。例如。 |
proxy_enabled | BOOLEAN | 错误 | 选中此复选框可为连接配置代理服务器。 |
proxy_auth_scheme | ENUM | 错误 | 用于向 ProxyServer 代理进行身份验证的身份验证类型。支持的值包括:BASIC、DIGEST、NONE |
proxy_user | STRING | 错误 | 用于向 ProxyServer 代理进行身份验证的用户名。 |
proxy_password | SECRET | 错误 | 用于向 ProxyServer 代理进行身份验证的密码。 |
proxy_ssltype | ENUM | 错误 | 连接到 ProxyServer 代理时使用的 SSL 类型。支持的值包括:AUTO、ALWAYS、NEVER、TUNNEL |
在集成中使用 BigQuery 连接
创建连接后,该连接将在 Apigee Integration 和 Application Integration 中可用。您可以使用连接 通过连接器任务在集成中进行集成。