在需要从数据库读取数据时,您可以使用此通用源。对于 例如,您可以使用它来为通用数据库表创建每日快照 并将输出写入 BigQuery。
配置插件
- 前往 Cloud Data Fusion 网页界面,然后点击 Studio。
- 检查是否选择了 Data Pipeline - Batch(而非 Realtime)。
- 在源菜单中,点击数据库。
- 要配置插件,请将指针悬停在插件节点上,然后点击 属性。
输入以下属性。如需详细了解每项媒体资源 请参阅属性。
- 输入数据库节点的标签
示例
database tables
。 输入连接详情。您可以设置新的一次性连接 或可重复使用的现有连接。
新增关联项
如需添加与数据库的一次性连接,请按照以下说明操作 步骤:
- 让使用连接保持关闭状态。
- 输入以下连接属性:
- 在“JDBC 驱动程序名称”字段中,输入驱动程序的名称。 如果有的话否则,保留无 JDBC 插件处于选中状态。
- 在 Connection string 字段中,输入 JDBC 连接 字符串,包括数据库名称。
- 可选:如果您的数据库需要身份验证,请输入数据库用户名和密码凭据。
- 可选:如果您的 JDBC 驱动程序需要其他配置, 在连接参数字段中,输入键值对 参数。
可重复使用的连接
如需重复使用现有连接,请按以下步骤操作:
- 开启使用网络连接。
- 点击浏览连接。
选择相应连接。
可选:如果连接不存在,并且您想要创建一个 新建可重复使用的连接,请点击添加连接并参阅 本页面的新建连接标签页中的步骤。
可选:如需测试连接,请点击获取架构。此架构将取代从查询返回的任何架构。它必须 该架构与查询所返回的架构一致 将字段标记为可为 null,并且可以包含字段的子集。
在导入查询字段中,输入用于导入数据的
SELECT
查询 (例如select id, name, email, phone from users;
)。可选:在边界查询字段中,输入要读取的最小值和最大值,例如
SELECT * FROM table WHERE $CONDITIONS
。可选:在拆分依据字段名称字段中,输入 字段。
可选:在要生成的拆分数量字段中,输入 数字,例如
2
。可选:在提取大小字段中输入一个数字,例如
1000
。可选:输入高级属性,例如更改 列名称。
- 输入数据库节点的标签
示例
可选:点击验证,并解决发现的所有错误。
点击关闭。 已保存属性,您可以继续构建 Cloud Data Fusion Studio 中的数据流水线。
属性
属性 | 已启用宏 | 必填 | 说明 |
---|---|---|---|
标签 | 否 | 是 | 数据流水线中节点的名称。 |
使用连接 | 否 | 否 | 浏览以查找与来源的连接。如果 使用连接选项,则无需提供 凭据。 |
连接 | 是 | 是 | 要使用的连接的名称。如果选择使用连接 系统就会显示此字段数据库和表信息为 由连接提供。 |
JDBC 驱动程序名称 | 是 | 是 | 要使用的 JDBC 驱动程序。 默认值为无 JDBC 插件。 |
连接字符串 | 是 | 是 | JDBC 连接字符串,包括数据库名称。 |
用户名 | 是 | 否 | 连接到数据库的用户身份。数据库必需 需要身份验证。对于不需要的数据库,此元素是可选的 身份验证。 |
密码 | 是 | 否 | 用于连接到指定数据库的密码。必须使用 需要身份验证的数据库。对于不需要身份验证的数据库,此参数为可选参数。 |
连接参数 | 是 | 否 | 作为连接参数的任意字符串标记/值对的列表。
对于需要额外配置的 JDBC 驱动程序,这些参数包括
以下部分中作为连接参数传递给 JDBC 驱动程序
格式:key1=value1;key2=value 。 |
参考名称 | 否 | 是 | 此来源可唯一标识此来源,以便沿袭和添加注释 元数据。通常是表或视图的名称。 |
获取架构 | 否 | 否 | 来源输出的记录架构。它用于代替 查询返回的架构它必须与 只不过它允许您将字段标记为可为 null 以及 它可以包含一部分字段 |
导入查询 | 是 | 是 | SELECT 查询,用于从指定的
表格。您可以指定任意数量的要导入的列,或者
使用 * 导入所有列。查询应包含
$CONDITIONS 字符串。例如:
SELECT * FROM table WHERE $CONDITIONS 。通过
$CONDITIONS 字符串已替换为 splitBy 字段
边界查询字段中指定的上限。通过
$CONDITIONS 如果 Number of
splits 字段设置为 1。 |
边界查询 | 是 | 否 | 返回值的最小值和最大值的边界查询
拆分列。例如,SELECT MIN(id),MAX(id) FROM table 。如果
拆分数量设置为 1。 |
拆分依据字段名称 | 是 | 否 | 用于生成分块的字段名称。如果 设置为 1。 |
要生成的拆分数量 | 是 | 否 | 要生成的拆分数量。 默认值为 1。 |
提取大小 | 是 | 否 | 每个分块每次要提取的行数。更大的提取规模
可以加快导入速度,但需要支付更高的内存用量。 默认值为 1000。 |
启用自动提交 | 否 | 否 | 是否为此来源运行的查询启用自动提交。保留
请将此项设为 False,除非您使用
会导致在运行提交操作时出错。 默认值为 False。 |
列名称大小写 | 是 | 否 | 设置从查询返回的列名称的字母大小写。您
可以选择大写或小写默认情况下,对于其他任何输入
列名称不会修改,
数据库。设置此属性可实现以下目的的可预测性:
不同数据库中的列名称采用大写形式,但可能会导致
如果多个列名称相同,则列名称会冲突
被忽略。 默认值为无变化。 |
事务隔离级别 | 是 | 否 | 此接收器运行的查询的事务隔离级别。有关
请参阅
setTransactionIsolation() 。
如果出现 Phoenix 数据库,Phoenix JDBC 驱动程序会抛出异常
未启用交易,并且此字段设置为
true 。对于此类驱动程序,请将此字段设置为
TRANSACTION_NONE 。默认值为 TRANSACTION_SERIALIZABLE。 |
要替换的图案 | 否 | 否 | 表中字段名称中要替换的模式(通常使用 替换为替换为属性)。如果 未设置替换为属性,则模式已被移除 。 |
替换为 | 否 | 否 | 在表中的字段名称中被替换的字符串。您必须 还可以配置要替换的图案字段。 |
输出架构 | 否 | 否 | 指定输出的架构。仅限架构中定义的列 会包含在输出记录中。 |
最佳做法
检查您的数据库是否有可用的更具体的插件。例如,如果您有 Oracle 数据库源,请改用 Oracle 数据库批量源插件,因为它专为与 Oracle 架构搭配使用而设计。
后续步骤
- 详细了解 Cloud Data Fusion 中的插件。