BigQuery

借助 BigQuery 连接器,您可以对 Google BigQuery 数据执行插入、删除、更新和读取操作。

准备工作

在使用 BigQuery 连接器之前,请先完成以下任务:

  • 在您的 Google Cloud 项目中:
    • 向配置连接器的用户授予 roles/connectors.admin IAM 角色。
    • 将以下 IAM 角色授予您要用其来使用连接器的服务账号:
      • roles/bigquery.dataEditor

      服务账号是一种特殊类型的 Google 账号,用于表示需要验证身份并获得授权以访问 Google API 数据的非人类用户。如果您没有服务账号,则必须创建一个服务账号。如需了解详情,请参阅创建服务账号

    • 启用以下服务:
      • secretmanager.googleapis.com (Secret Manager API)
      • connectors.googleapis.com (Connectors API)

      如需了解如何启用服务,请参阅启用服务

    如果之前没有为您的项目启用这些服务或权限,则在您配置连接器时,系统会提示您启用。

配置连接器

配置连接器时,您需要创建与数据源(即后端系统)的连接。一个连接需专用于一个数据源。这意味着,如果您有许多数据源,则必须为每个数据源创建单独的连接。如需创建连接,请执行以下步骤:

  1. Cloud 控制台 中,进入 Integration Connectors > 连接页面,然后选择或创建一个 Google Cloud 项目。

    转到“连接”页面

  2. 点击 + 新建以打开创建连接页面。
  3. 位置部分中,选择连接的位置。
    1. 区域:从下拉列表中选择一个位置。

      如需查看所有受支持区域的列表,请参阅位置

    2. 点击下一步
  4. 连接详情部分中,完成以下操作:
    1. 连接器:从可用连接器的下拉列表中选择 BigQuery
    2. 连接器版本:从可用版本的下拉列表中选择一个连接器版本。
    3. 连接名称字段中,输入连接实例的名称。

      连接名称必须符合以下条件:

      • 连接名称可以使用字母、数字或连字符。
      • 字母必须小写。
      • 连接名称必须以字母开头,以字母或数字结尾。
      • 连接名称不能超过 49 个字符。
    4. (可选)输入连接实例的说明
    5. (可选)启用 Cloud Logging。 然后选择一个日志级别默认情况下,日志级别设置为 Error
    6. 服务账号:选择具有所需角色的服务账号。
    7. (可选)配置连接节点设置

      • 节点数下限:输入连接节点数下限。
      • 节点数上限:输入连接节点数上限。

      节点是处理事务的连接单元(或副本)。 连接处理越多事务就需要越多节点,相反,处理越少事务需要越少节点。 如需了解节点如何影响连接器价格,请参阅连接节点的价格。如果未输入任何值,则默认情况下,节点数下限设置为 2(以便提高可用性),节点数上限设置为 50。

    8. 项目 ID:数据所在的 Google Cloud 项目的 ID。
    9. 数据集 ID:BigQuery 数据集的 ID。
    10. 使用代理:选中此复选框可为连接配置代理服务器并配置以下值:
      • 代理身份验证方案:选择要通过代理服务器进行身份验证的身份验证类型。支持以下身份验证类型:
        • 基本:基本 HTTP 身份验证。
        • 摘要:摘要 HTTP 身份验证。
      • 代理用户:用于向代理服务器进行身份验证的用户名。
      • 代理密码:用户密码的 Secret Manager 密文。
      • 代理 SSL 类型:连接到代理服务器时使用的 SSL 类型。支持以下身份验证类型:
        • 自动:默认设置。如果网址是 HTTPS 网址,则使用“隧道”选项。如果网址是 HTTP 网址,则使用“永不”选项。
        • 始终:连接始终启用 SSL。
        • 永不:连接未启用 SSL。
        • 隧道:连接通过隧道代理建立。代理服务器会打开与远程主机的连接,并且流量会流经该代理。
      • 代理服务器部分中,输入代理服务器的详细信息。
        1. 点击+ 添加目标
        2. 选择目标类型
          • 主机地址:指定目标的主机名或 IP 地址。

            如果要与后端系统建立专用连接,请执行以下操作:

    11. (可选)点击 + 添加标签,以键值对的形式向连接添加标签。
    12. 点击下一步
  5. Authentication(身份验证)部分中,输入身份验证详细信息。
    1. 选择是使用 OAuth 2.0 - 授权代码进行身份验证,还是不进行身份验证直接继续。

      如需了解如何配置身份验证,请参阅配置身份验证

    2. 点击下一步
  6. 查看:查看您的连接和身份验证详细信息。
  7. 点击创建

配置身份验证

根据您要使用的身份验证输入详细信息。

  • 无需身份验证:如果您不需要身份验证,请选择此选项。
  • OAuth 2.0 - 授权代码:选择此选项可使用基于 Web 的用户登录流程进行身份验证。请指定以下详细信息:
    • 客户端 ID :连接到后端 Google 服务所需的客户端 ID。
    • 范围 :所需范围的列表(以英文逗号分隔)。如需查看所需 Google 服务支持的所有 OAuth 2.0 范围,请参阅适用于 Google API 的 OAuth 2.0 范围页面中的相关部分。
    • 客户端密钥:选择 Secret Manager 密钥。您必须先创建 Secret Manager 密钥,然后再配置此授权。
    • 密钥版本:客户端密钥的 Secret Manager 密钥版本。

    对于 Authorization code 身份验证类型,在创建连接后,您必须执行一些额外的步骤来配置身份验证。如需更多信息 请参阅创建连接后的其他步骤

创建连接后的其他步骤

如果您选择OAuth 2.0 - Authorization code 身份验证,您必须在创建连接后执行以下额外步骤:

  1. “连接”页面中, 找到新创建的连接。

    请注意,新连接器的状态将为需要授权

  2. 点击需要授权

    此时将显示修改授权窗格。

  3. 重定向 URI 值复制到您的外部应用。
  4. 验证授权详细信息。
  5. 点击 Authorize(授权)。

    如果授权成功,连接状态将在 “连接”页面

为授权代码重新授权

如果您使用的是 Authorization code 身份验证类型,并且在 BigQuery 中进行了任何配置更改,则必须重新授权您的 BigQuery 连接。如需重新授权关联,请执行以下步骤:

  1. “连接”页面中,点击所需的连接。

    系统随即会打开连接详情页面。

  2. 点击修改以修改关联详情。
  3. 身份验证部分中,验证 OAuth 2.0 - 授权代码详细信息。

    根据需要进行必要的更改。

  4. 点击保存。系统随即会转到连接详情页面。
  5. 点击身份验证部分中的修改授权。此时将显示授权窗格。
  6. 点击 Authorize(授权)。

    如果授权成功,“连接”页面中的连接状态将设为活跃

实体、操作和动作

所有集成连接器都会为所连接应用的对象提供抽象层。您只能通过此抽象访问应用的对象。抽象作为实体、操作和动作向您展示。

  • 实体:实体可以被视为连接的应用或服务中的对象或属性集合。不同连接器的实体定义也会有所不同。例如,在数据库连接器中,表是实体;在文件服务器连接器中,文件夹是实体;在消息传递系统连接器中,队列是实体。

    但是,连接器可能不支持或不支持任何实体,在这种情况下, “Entities”列表将为空。

  • 操作:操作是指您可以对实体执行的操作。您可以对实体执行以下任一操作:

    从可用列表中选择一个实体,系统会生成该实体可用的操作列表。如需了解操作的详细说明,请参阅连接器任务的实体操作。但是,如果连接器不支持任何实体操作, 操作未在 Operations 列表中列出。

  • 动作:动作是可通过连接器接口提供给集成的头等函数。动作可让您对一个或多个实体进行更改,并且动作因连接器而异。通常,操作有一些输入参数和一个输出 参数。但可能的情况是,连接器不支持任何动作,在这种情况下,Actions 列表将为空。

系统限制

BigQuery 连接器每个节点每秒最多可处理 8 笔事务,并会节流超出此限制的所有事务。默认情况下,Integration Connectors 会为连接分配 2 个节点(以提高可用性)。

如需了解适用于 Integration Connectors 的限制,请参阅限制

支持的数据类型

以下是此连接器支持的数据类型:

  • BIGINT
  • BINARY
  • BIT
  • BOOLEAN
  • CHAR
  • DATE
  • DECIMAL
  • DOUBLE
  • FLOAT
  • INTEGER
  • 长 VARCHAR
  • LONG VARCHAR
  • NCHAR
  • NUMERIC
  • NVARCHAR
  • REAL
  • 小范围的
  • 时间
  • TIMESTAMP
  • 小小的内侧
  • VARBINARY
  • VARCHAR

已知问题

BigQuery 连接器不支持 BigQuery 表中的主键。这意味着,您无法使用 entityId 执行 Get、Update 和 Delete 实体操作。或者,您也可以使用过滤条件子句根据 ID 过滤记录。

操作

本部分介绍了 BigQuery 连接器中提供的操作。

CancelJob 操作

通过此操作,您可以取消正在运行的 BigQuery 作业。

下表介绍了 CancelJob 操作的输入参数。

参数名称 数据类型 说明
JobId 字符串 要取消的作业的 ID。此字段是必填字段。
区域 字符串 当前执行作业的区域。如果职位位于美国或欧盟区域,则不需要填写。

GetJob 操作

通过此操作,您可以检索现有作业的配置信息和执行状态。

下表介绍了 GetJob 操作的输入参数。

参数名称 数据类型 说明
JobId 字符串 您要为其检索配置的作业的 ID。此字段是必填字段。
区域 字符串 作业当前正在执行的区域。如果职位位于美国或欧盟区域,则不需要填写。

InsertJob 操作

通过此操作,您可以插入 BigQuery 作业,以便稍后选择该作业来检索查询结果。

下表介绍了 InsertJob 操作的输入参数。

参数名称 数据类型 说明
查询 字符串 要提交到 BigQuery 的查询。此字段是必填字段。
IsDML 字符串 如果查询是 DML 语句,则应设置为 true;否则,应设置为 false。默认值为 false
DestinationTable 字符串 查询的目标表,采用 DestProjectId:DestDatasetId.DestTable 格式。
WriteDisposition 字符串 指定如何将数据写入目标表;例如截断现有结果、附加现有结果,或仅在表为空时写入。以下是支持的 值:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
默认值为 WRITE_TRUNCATE。
DryRun 字符串 指定作业的执行是否为试运行。
MaximumBytesBilled 字符串 指定作业可处理的字节数上限。BigQuery 会将 如果作业尝试处理的字节数超过指定值,则运行作业。
区域 字符串 指定应执行作业的区域。

InsertLoadJob 操作

您可以插入 BigQuery 加载作业,将 Google Cloud Storage 中的数据添加到现有表中。

下表介绍了 InsertLoadJob 操作的输入参数。

参数名称 数据类型 说明
SourceURI 字符串 以空格分隔的 Google Cloud Storage URI 列表。
SourceFormat 字符串 文件的来源格式。支持的值如下:
  • AVRO
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
  • PARQUET
  • ORC
  • CSV
DestinationTable 字符串 查询的目标表,采用 DestProjectId.DestDatasetId.DestTable 格式。
DestinationTableProperties 字符串 一个 JSON 对象,用于指定表的易记名称、说明和标签列表。
DestinationTableSchema 字符串 一个 JSON 列表,用于指定用于创建表的字段。
DestinationEncryptionConfiguration 字符串 一个 JSON 对象,用于指定表的 KMS 加密设置。
SchemaUpdateOptions 字符串 一个 JSON 列表,用于指定更新目标表架构时要应用的选项。
TimePartitioning 字符串 用于指定时间分区类型和字段的 JSON 对象。
RangePartitioning 字符串 用于指定范围分区字段和分桶的 JSON 对象。
聚簇 字符串 一个 JSON 对象,用于指定要用于聚类的字段。
自动检测 字符串 指定是否应自动确定 JSON 和 CSV 文件的选项和架构。
CreateDisposition 字符串 指定在目标表不存在时是否需要创建该表。支持的值如下:
  • CREATE_IF_NEEDED
  • CREATE_NEVER
默认值为 CREATE_IF_NEEDED。
WriteDisposition 字符串 指定如何将数据写入目标表,例如;截断现有结果, 附加现有结果,或仅在表为空时写入。以下是 支持的值:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
默认值为 WRITE_APPEND。
区域 字符串 指定作业应在哪个区域执行。Google Cloud Storage 资源和 BigQuery 数据集必须位于同一区域。
DryRun 字符串 指定作业的执行是否为试运行。默认值为 false
MaximumBadRecords 字符串 指定在整个作业被取消之前可以有多少条记录无效。默认情况下,所有记录都必须有效。默认值为 0
IgnoreUnknownValues 字符串 指定是否必须忽略输入文件中的未知字段,还是将其视为错误。默认情况下,系统会将错误视为错误。默认值为 false
AvroUseLogicalTypes 字符串 指定是否必须使用 Avro 逻辑类型将 Avro 数据转换为 BigQuery 类型。默认 值为 true
CSVSkipLeadingRows 字符串 指定在 CSV 文件开头要跳过的行数。这通常用于跳过标题行。
CSVEncoding 字符串 CSV 文件的编码类型。支持的值如下:
  • ISO-8859-1
  • UTF-8
默认值为 UTF-8。
CSVNullMarker 字符串 如果提供,此字符串将用于 CSV 文件中的 NULL 值。默认情况下,CSV 文件 不能使用 NULL。
CSVFieldDelimiter 字符串 用于分隔 CSV 文件中各列的字符。默认值为英文逗号 (,)。
CSVQuote 字符串 CSV 文件中带英文引号的字段使用的字符。可设置为空,以停用引号。默认值为英文双引号 (")。
CSVAllowQuotedNewlines 字符串 指定 CSV 文件是否可以在引用字段中包含换行符。默认值为 false
CSVAllowJaggedRows 字符串 指定 CSV 文件是否可以包含缺失的字段。默认值为 false
DSBackupProjectionFields 字符串 要从 Cloud Datastore 备份加载的字段的 JSON 列表。
ParquetOptions 字符串 一个指定 Parquet 专属导入选项的 JSON 对象。
DecimalTargetTypes 字符串 一个 JSON 列表,用于指定对数字类型应用的偏好顺序。
HivePartitioningOptions 字符串 指定源端分区选项的 JSON 对象。

执行自定义 SQL 查询

如需创建自定义查询,请按照下列步骤操作:

  1. 按照详细说明添加连接器任务
  2. 配置连接器任务时,在要执行的动作类型中选择动作
  3. 动作列表中,选择执行自定义查询,然后点击完成

    此图片展示了 execute-custom-query-action 此图片展示了 execute-custom-query-action

  4. 展开任务输入部分,然后执行以下操作:
    1. 在以下时间后超时字段中,输入查询执行前要等待的秒数。

      默认值:180 秒。

    2. 最大行数字段中,输入要从数据库返回的最大行数。

      默认值:25

    3. 要更新自定义查询,请点击修改自定义脚本。系统随即会打开脚本编辑器对话框。

      此图片展示了 custom-sql-query 此图片展示了 custom-sql-query

    4. 脚本编辑器对话框中,输入 SQL 查询,然后点击保存

      您可以在 SQL 语句中使用问号 (?) 表示必须在查询参数列表中指定的单个参数。例如,以下 SQL 查询会从 Employees 表中选择与为 LastName 列指定的值匹配的所有行:

      SELECT * FROM Employees where LastName=?

    5. 如果您在 SQL 查询中使用了问号,则必须点击 + 添加参数名称,针对每个问号添加参数。执行集成时,这些参数按顺序替换 SQL 查询中的问号 (?)。例如,如果您添加了三个问号 (?),那么必须按顺序添加三个参数。

      此图片展示了 add-query-param 此图片展示了 add-query-param

      如需添加查询参数,请执行以下操作:

      1. 类型列表中,选择参数的数据类型。
      2. 字段中,输入参数的值。
      3. 要添加多个参数,请点击 + 添加查询参数

使用 Terraform 创建连接

您可以使用 Terraform 资源创建新的连接。

如需了解如何应用或移除 Terraform 配置,请参阅基本 Terraform 命令

如需查看用于创建连接的 Terraform 模板示例,请参阅示例模板

使用 Terraform 创建此连接时,您必须在 Terraform 配置文件中设置以下变量:

参数名称 数据类型 必需 说明
project_id STRING True 包含 BigQuery 数据集的项目的 ID,例如 myproject。
dataset_id STRING 错误 不含项目名称的 BigQuery 数据集的 ID。例如。
proxy_enabled BOOLEAN 错误 选中此复选框可为连接配置代理服务器。
proxy_auth_scheme ENUM 错误 用于向 ProxyServer 代理进行身份验证的身份验证类型。支持的值包括:BASIC、DIGEST、NONE
proxy_user STRING 错误 用于向 ProxyServer 代理进行身份验证的用户名。
proxy_password SECRET 错误 用于向 ProxyServer 代理进行身份验证的密码。
proxy_ssltype ENUM 错误 连接到 ProxyServer 代理时使用的 SSL 类型。支持的值包括:AUTO、ALWAYS、NEVER、TUNNEL

在集成中使用 BigQuery 连接

创建连接后,该连接将在 Apigee Integration 和 Application Integration 中可用。您可以使用连接 通过连接器任务在集成中进行集成。

  • 如需了解如何在 Apigee Integration 中创建和使用连接器任务,请参阅连接器任务
  • 如需了解如何在应用集成中创建和使用连接器任务,请参阅连接器任务

向 Google Cloud 社区寻求帮助

您可以在 Google Cloud 社区的 Cloud 论坛中发布您的问题以及讨论此连接器。

后续步骤