数据库批量来源

本页面介绍了如何配置数据库批量源。 Cloud Data Fusion 中的插件。

在需要从数据库读取数据时,您可以使用此通用源。对于 例如,您可以使用它来为通用数据库表创建每日快照 并将输出写入 BigQuery。

配置插件

  1. 前往 Cloud Data Fusion 网页界面,然后点击 Studio
  2. 检查是否选择了 Data Pipeline - Batch(而非 Realtime)。
  3. 菜单中,点击数据库
  4. 要配置插件,请将指针悬停在插件节点上,然后点击 属性
  5. 输入以下属性。如需详细了解每项媒体资源 请参阅属性

    1. 输入数据库节点的标签 示例 database tables
    2. 输入连接详情。您可以设置新的一次性连接 或可重复使用的现有连接。

      新增关联项

      如需添加与数据库的一次性连接,请按照以下说明操作 步骤:

      1. 使用连接保持关闭状态。
      2. 输入以下连接属性:
        1. 在“JDBC 驱动程序名称”字段中,输入驱动程序的名称。 如果有的话否则,保留无 JDBC 插件处于选中状态。
        2. Connection string 字段中,输入 JDBC 连接 字符串,包括数据库名称。
        3. 可选:如果您的数据库需要身份验证,请输入数据库用户名和密码凭据。
        4. 可选:如果您的 JDBC 驱动程序需要其他配置, 在连接参数字段中,输入键值对 参数。

      可重复使用的连接

      如需重复使用现有连接,请按以下步骤操作:

      1. 开启使用网络连接
      2. 点击浏览连接
      3. 选择相应连接。

      4. 可选:如果连接不存在,并且您想要创建一个 新建可重复使用的连接,请点击添加连接并参阅 本页面的新建连接标签页中的步骤。

    3. 可选:如需测试连接,请点击获取架构。此架构将取代从查询返回的任何架构。它必须 该架构与查询所返回的架构一致 将字段标记为可为 null,并且可以包含字段的子集。

    4. 导入查询字段中,输入用于导入数据的 SELECT 查询 (例如 select id, name, email, phone from users;)。

    5. 可选:在边界查询字段中,输入要读取的最小值和最大值,例如 SELECT * FROM table WHERE $CONDITIONS

    6. 可选:在拆分依据字段名称字段中,输入 字段。

    7. 可选:在要生成的拆分数量字段中,输入 数字,例如 2

    8. 可选:在提取大小字段中输入一个数字,例如 1000

    9. 可选:输入高级属性,例如更改 列名称。

  6. 可选:点击验证,并解决发现的所有错误。

  7. 点击关闭。 已保存属性,您可以继续构建 Cloud Data Fusion Studio 中的数据流水线。

属性

属性 已启用宏 必填 说明
标签 数据流水线中节点的名称。
使用连接 浏览以查找与来源的连接。如果 使用连接选项,则无需提供 凭据。
连接 要使用的连接的名称。如果选择使用连接 系统就会显示此字段数据库和表信息为 由连接提供。
JDBC 驱动程序名称 要使用的 JDBC 驱动程序。
默认值为无 JDBC 插件
连接字符串 JDBC 连接字符串,包括数据库名称。
用户名 连接到数据库的用户身份。数据库必需 需要身份验证。对于不需要的数据库,此元素是可选的 身份验证。
密码 用于连接到指定数据库的密码。必须使用 需要身份验证的数据库。对于不需要身份验证的数据库,此参数为可选参数。
连接参数 作为连接参数的任意字符串标记/值对的列表。 对于需要额外配置的 JDBC 驱动程序,这些参数包括 以下部分中作为连接参数传递给 JDBC 驱动程序 格式:key1=value1;key2=value
参考名称 此来源可唯一标识此来源,以便沿袭和添加注释 元数据。通常是表或视图的名称。
获取架构 来源输出的记录架构。它用于代替 查询返回的架构它必须与 只不过它允许您将字段标记为可为 null 以及 它可以包含一部分字段
导入查询 SELECT 查询,用于从指定的 表格。您可以指定任意数量的要导入的列,或者 使用 * 导入所有列。查询应包含 $CONDITIONS 字符串。例如: SELECT * FROM table WHERE $CONDITIONS。通过 $CONDITIONS 字符串已替换为 splitBy 字段 边界查询字段中指定的上限。通过 $CONDITIONS如果 Number of splits 字段设置为 1。
边界查询 返回值的最小值和最大值的边界查询 拆分列。例如,SELECT MIN(id),MAX(id) FROM table。如果 拆分数量设置为 1。
拆分依据字段名称 用于生成分块的字段名称。如果 设置为 1。
要生成的拆分数量 要生成的拆分数量。
默认值为 1
提取大小 每个分块每次要提取的行数。更大的提取规模 可以加快导入速度,但需要支付更高的内存用量。
默认值为 1000
启用自动提交 是否为此来源运行的查询启用自动提交。保留 请将此项设为 False,除非您使用 会导致在运行提交操作时出错。
默认值为 False
列名称大小写 设置从查询返回的列名称的字母大小写。您 可以选择大写或小写默认情况下,对于其他任何输入 列名称不会修改, 数据库。设置此属性可实现以下目的的可预测性: 不同数据库中的列名称采用大写形式,但可能会导致 如果多个列名称相同,则列名称会冲突 被忽略。
默认值为无变化
事务隔离级别 此接收器运行的查询的事务隔离级别。有关 请参阅 setTransactionIsolation()。 如果出现 Phoenix 数据库,Phoenix JDBC 驱动程序会抛出异常 未启用交易,并且此字段设置为 true。对于此类驱动程序,请将此字段设置为 TRANSACTION_NONE
默认值为 TRANSACTION_SERIALIZABLE
要替换的图案 表中字段名称中要替换的模式(通常使用 替换为替换为属性)。如果 未设置替换为属性,则模式已被移除 。
替换为 在表中的字段名称中被替换的字符串。您必须 还可以配置要替换的图案字段。
输出架构 指定输出的架构。仅限架构中定义的列 会包含在输出记录中。

最佳做法

检查您的数据库是否有可用的更具体的插件。例如,如果您有 Oracle 数据库源,请改用 Oracle 数据库批量源插件,因为它专为与 Oracle 架构搭配使用而设计。

后续步骤