本页面介绍了如何在 Cloud Data Fusion 流水线。
关键词
- 宏
- 宏是 Cloud Data Fusion 插件中的占位符
配置。它们由
${ }
内包含的变量表示,例如${input_file_path}
。宏通过以下方式为流水线提供灵活性: 让您可以使用占位符值,这些占位符值会在 运行时。这样可以为文件路径等参数启用动态配置 和表名称。 - 偏好设置
- 偏好设置是预定义的配置,适用于各种 包括系统本身、命名空间、 应用(包含流水线)以及其中的各个程序 流水线。通过偏好设置,您可以为常用资源设置默认值 配置。较低级别的流水线和程序可以继承默认值 减少重复的配置任务。
- 运行时参数
- 运行时参数是提供 宏,还可能会替换偏好设置。 它们是高度可定制的,可让您调整 而无需修改底层流水线或 偏好设置。
设置宏
要为插件属性值使用宏,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,前往插件节点并点击 属性。
- 转到您要使用宏的字段,然后点击接下来的** M** 。
- 输入宏的键。例如,在 File source 的插件中,
属性,请在“格式”字段中输入以下键:
${format.type}
。
设置宏的值
在预览流水线的数据和运行之前设置宏的值 流水线。您可以在以下位置设置宏值:
- 参数 setter 插件
- 运行时参数
- 应用偏好设置
- 命名空间偏好设置
- 系统偏好设置
使用宏运行流水线会执行以下操作:
- Cloud Data Fusion 首先检查流水线是否包含
参数 setter 插件:
<ph type="x-smartling-placeholder">
- </ph>
- 如果它具有参数 setter,则 Cloud Data Fusion 会使用 宏的值。
- 如果没有参数 setter,或者存在 而不是在 Argument Setter、Cloud Data Fusion 中分配 使用流水线运行时参数中的值。
- 运行时参数从应用偏好设置继承宏。
- 应用偏好设置会沿用命名空间偏好设置中的宏
- 命名空间偏好设置会继承系统偏好设置中的宏。
示例
宏的常见用途是在路径字段中。我们不再使用硬编码路径
您可以使用动态路径例如,在 Cloud Storage 来源插件中,
可以使用多个宏替换路径值。以下值将
存储桶、文件夹和文件元素:gs://${bucket.name}/${folder}/${file.name}
。
以下示例从静态存储桶和包含
不是静态名称的存储桶,请输入存储桶的名称,
文件名:gs://<BUCKET_NAME>/${folder}/${file.name}
。
设置偏好设置
以下部分介绍了偏好设置层次结构,其中偏好设置为 即已设置、继承或已覆盖
设置系统偏好设置
您可以为系统设定偏好设置。由于宏名称必须是唯一的 每个偏好设置都会应用到使用该宏的所有管道
例如,您有一个使用数据库源的流水线,并使用宏 数据库名称和用户名您可以在以下位置设置数据库和用户名偏好设置: 系统偏好设置该实例中的每个命名空间和每个流水线都会继承 这些偏好设置
要设置系统偏好设置,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,点击系统管理员 > 配置。
- 点击 > 修改系统偏好设置。 系统 偏好设置
- 在偏好设置对话框中,输入新的偏好设置或修改现有偏好设置 偏好设置。
- 点击保存和关闭。这些偏好设置适用于 命名空间、应用和流水线
设置命名空间偏好设置
您可以为各个命名空间设置偏好设置。
设置命名空间偏好设置后,系统会显示所有继承的系统偏好设置。 为命名空间设置偏好设置时,您可以覆盖继承的偏好设置 通过设置不同的值来实现您还可以添加新的命名空间偏好设置。
如需设置命名空间偏好设置,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,点击 System admin(系统管理员)> 配置。
- 点击 命名空间 并选择一个命名空间以打开其配置页面。
- 要修改继承的偏好设置或添加新的偏好设置,请转到
“偏好设置”标签页,然后点击修改。系统会打开 Preferences 对话框
您可以在其中输入新的偏好设置,或覆盖继承的系统
偏好设置。点击
<span class="material-icons">add</span>
Add(添加),然后 输入宏的键和新值 - 点击保存和关闭。命名空间偏好设置 值,后者优先于系统偏好设置。
设置应用偏好设置
您可以为命名空间中的每个已部署流水线设置偏好设置。当您设置 应用偏好设置,那么系统会显示所有继承的系统和命名空间偏好设置。 为某个应用设置偏好设置时,您可以覆盖继承的偏好设置 通过为代码设置不同的值, 应用:
- 在 Cloud Data Fusion Studio 中,点击 ,然后点击命名空间菜单 选择要添加应用偏好设置的命名空间。
- 点击控制中心。
- 点击“设置偏好设置”扳手图标。系统会显示“偏好设置”页, 列出所有继承的偏好设置。
- 要修改继承的偏好设置或添加新的偏好设置,请转到
“偏好设置”标签页,然后点击修改。系统会打开 Preferences 对话框
您可以在其中输入新的偏好设置,或覆盖继承的系统
偏好设置。点击
<span class="material-icons">add</span>
Add(添加),然后 输入宏的键和新值 - 点击保存和关闭。应用偏好设置是使用 新值,该值将覆盖系统或命名空间偏好设置。当您 运行已部署的流水线时,应用偏好设置将显示为运行时 参数(您可以根据需要进行修改)。
设置运行时参数
设置运行时参数,以便为宏提供值,并可能替换 您在部署或运行流水线时指定首选项。
用于预览数据的运行时参数
要在您在 在 Cloud Data Fusion Studio 中,依次点击列表 > 配置。
用于运行已部署流水线的运行时参数
如果流水线包含宏,请在部署流水线后添加运行时 参数,用于设置宏的值。
使用宏部署流水线时,请点击
下拉菜单(位于 运行以打开运行时参数对话框,并为每个运行时参数设置值 宏。设置流水线偏好设置
如需为流水线设置偏好设置,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,点击列表 > 已部署,然后选择一个已部署的流水线进行查看。
- 在“Pipeline”画布中,点击 Run 旁的下拉菜单。运行时参数对话框随即会打开。
- 在打开的运行时参数对话框中,指定 每个宏的调用。
偏好设置、宏和运行时参数概览
您可以在以下级别设置偏好设置:
- 系统偏好设置:用于设置偏好设置的最高级别, 例如整个实例的默认值
- 命名空间偏好设置:从系统继承偏好设置 偏好设置。您可以为特定命名空间设置偏好设置。
- 应用偏好设置:从命名空间继承偏好设置 偏好设置。它们对于各个应用(包含 流水线)。
- 运行时参数:覆盖在 更高层级。
如果您在系统偏好设置级别设置了偏好设置,则宏值 会自动填充命名空间偏好设置、应用偏好设置 和运行时参数。
如果您在命名空间级别设置了偏好设置,则这些设置会显示在 继承的偏好设置。如果流水线使用 宏,那么运行时参数使用 对。您可以在以下位置覆盖偏好设置的值: 和运行时参数中。
针对以下用例使用偏好设置、宏和运行时参数:
- 开发流水线。在需要动态值的位置嵌入宏 。
- 可选:设定偏好设置。为 偏好。
- 部署和运行流水线。运行流水线时,
会发生以下情况:
<ph type="x-smartling-placeholder">
- </ph>
- 相关级别的偏好设置,例如系统偏好设置 或命名空间偏好设置
- 您提供的任何运行时参数都会替换 。
- Cloud Data Fusion 通过将宏的 来自运行时参数的值(如果运行时参数 )。
示例
流水线有一个 BigQuery 接收器,该接收器的表名值必须 动态变化。要进行此设置,请执行以下操作:
- 设置宏。在接收器的属性中,在
表名称字段:
${output_table}.
- **设置偏好设置。**在应用偏好设置中,设置偏好设置
(针对
${output_table}
,采用以下默认值):data_staging
。 - 设置运行时参数。运行流水线时,请提供
运行时参数,例如
output_table=final_analytics_data
。
在流水线执行期间,宏 ${output_table},
会替换为
final_analytics_data
。