本页介绍了如何在 Cloud Data Fusion 流水线中设置偏好设置、宏和运行时实参。
关键词
- 宏
- 宏是 Cloud Data Fusion 插件配置中的占位符。它们由包含在
${ }
中的变量表示,例如${input_file_path}
。宏可让您使用占位值,这些值会在运行时替换为实际值,从而为流水线带来灵活性。这样便可为文件路径和表名等参数实现动态配置。 - 偏好设置
- 偏好设置是预定义的配置,适用于 Cloud Data Fusion 内的各个级别,包括系统本身、命名空间、应用(包含流水线)以及流水线中的各个程序。借助偏好设置,您可以为常用配置设置默认值。较低级别的流水线和程序可以继承这些默认值,从而减少重复的配置任务。
- 运行时参数
- 运行时实参是键值对,用于在部署或运行流水线时为宏提供值,并可能会替换偏好设置。它们具有高度可自定义性,让您可以在不修改底层流水线或偏好的情况下,根据每次流水线运行调整配置。
设置宏
如需将宏用于插件属性值,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,前往插件节点,然后点击“属性”。
- 前往要使用宏的字段,然后点击该字段旁边的 M。
- 为宏输入一个键。例如,在“文件”源的插件属性中,在“格式”字段中输入以下键:
${format.type}
。
设置宏值
在预览流水线的数据之前以及在运行流水线之前,请先为宏设置值。您可以在以下位置设置宏值:
- Argument Setter 插件
- 运行时参数
- 应用偏好设置
- 命名空间偏好设置
- 系统偏好设置
运行包含宏的流水线会执行以下操作:
- Cloud Data Fusion 首先会检查流水线是否包含实参设置器插件:
- 如果该对象具有实参设置器,Cloud Data Fusion 会使用其中的宏值。
- 如果没有参数设置器,或者参数设置器中存在未分配的宏,Cloud Data Fusion 会改为使用流水线运行时实参中的值。
- 运行时实参会从应用偏好设置中继承宏。
- 应用偏好设置从命名空间偏好设置继承宏
- 命名空间偏好设置会继承系统偏好设置中的宏。
示例
宏通常用于路径字段。您可以使用动态路径,而不是使用硬编码路径。例如,在 Cloud Storage 源插件中,您可以使用多个宏替换路径值。以下值用于分隔存储桶、文件夹和文件元素:gs://${bucket.name}/${folder}/${file.name}
。
以下示例展示了如何从静态存储桶和名称不静态的文件加载数据,输入存储桶的名称,并使用宏作为文件名:gs://<BUCKET_NAME>/${folder}/${file.name}
。
如需了解详情,请参阅宏和宏函数。
设置偏好
以下部分介绍了偏好设置层次结构,其中偏好设置可以设置、继承或覆盖。
设置系统偏好设置
您可以设置系统偏好设置。由于宏名称必须是唯一的,因此每项偏好设置都适用于使用相应宏的所有流水线。
例如,您有一个包含数据库来源的流水线,并使用宏来表示数据库名称和用户名。您可以在系统偏好设置中设置数据库和用户名偏好设置。相应实例中的每个命名空间和每条流水线都会继承这些偏好设置。
如需设置系统偏好设置,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,依次点击系统管理员 > 配置。
- 依次点击 > 修改系统偏好设置。 系统偏好设置
- 在偏好设置对话框中,输入新偏好设置或修改现有偏好设置。
- 点击保存并关闭。这些偏好设置适用于所有命名空间、应用和流水线。
设置命名空间偏好设置
您可以为各个命名空间设置偏好设置。
设置命名空间偏好设置时,系统会显示所有继承的系统偏好设置。 为命名空间设置偏好设置时,您可以通过设置不同的值来替换继承的偏好设置。您还可以添加新的命名空间偏好设置。
如需设置命名空间偏好设置,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,依次点击系统管理员 > 配置。
- 点击 命名空间,然后选择一个命名空间以打开其配置页面。
- 如需修改继承的偏好设置或添加新的偏好设置,请前往“偏好设置”标签页,然后点击修改。系统随即会打开偏好设置对话框,您可以在其中输入新的偏好设置,或替换继承的系统偏好设置。点击 添加,然后输入宏的键和新值。
- 点击保存并关闭。系统会使用新值创建命名空间偏好设置,该设置优先于系统偏好设置。
设置应用偏好设置
您可以为命名空间中的每个已部署流水线设置偏好设置。设置应用偏好设置时,系统会显示所有继承的系统和命名空间偏好设置。 为应用设置偏好设置时,您可以通过设置不同的值来替换继承的偏好设置,也可以为应用添加新的偏好设置:
- 在 Cloud Data Fusion Studio 中,点击 ,然后点击命名空间菜单以选择要添加应用偏好的命名空间。
- 点击控制中心。
- 点击设置偏好设置扳手图标。系统会显示所有继承的偏好设置的列表。
- 如需修改继承的偏好设置或添加新的偏好设置,请前往“偏好设置”标签页,然后点击修改。系统随即会打开偏好设置对话框,您可以在其中输入新的偏好设置,或替换继承的系统偏好设置。点击 添加,然后输入宏的键和新值。
- 点击保存并关闭。系统会使用新值创建应用偏好设置,该设置会替换系统或命名空间偏好设置。运行已部署的流水线时,应用偏好设置会显示为运行时实参,您可以根据需要进行修改。
设置运行时实参
设置运行时实参,以便在部署或运行流水线时为宏提供值,并可能替换偏好设置。
用于预览数据的运行时实参
如需在 Cloud Data Fusion Studio 中预览数据时为流水线中的每个宏设置值,请依次点击列表 > 配置。
用于运行已部署流水线的运行时实参
如果流水线包含宏,则在部署流水线后,您需要添加运行时实参,以设置宏的值。
部署包含宏的流水线时,点击运行旁边的
下拉菜单,打开运行时参数对话框,然后为每个宏设置值。设置流水线偏好设置
如需为流水线设置偏好设置,请按以下步骤操作:
- 在 Cloud Data Fusion Studio 中,依次点击列表 > 已部署,然后选择已部署的流水线以查看它。
- 在流水线画布中,点击运行旁边的 下拉菜单。系统会打开运行时参数对话框。
- 在随即打开的运行时实参对话框中,为流水线中的每个宏指定值。
偏好设置、宏和运行时实参概览
您可以在以下级别设置偏好设置:
- 系统偏好设置:最高级别的偏好设置,您可以在此级别为整个实例设置偏好设置(例如默认设置)。
- 命名空间偏好设置:继承系统偏好设置中的偏好设置。您可以为特定命名空间设置偏好设置。
- 应用偏好设置:继承自命名空间偏好设置。它们可以是各个应用(包含流水线)独有的。
- 运行时实参:用于替换更高级别偏好设置的键值对。
如果您在系统偏好设置级别设置了偏好设置,宏值会自动填充到命名空间偏好设置、应用偏好设置和运行时实参中。
如果您在命名空间级层设置偏好设置,这些偏好设置会显示在应用的偏好设置中的继承偏好设置列表中。如果流水线使用的宏是在偏好设置中定义的,则运行时实参会使用偏好设置中定义的键值对。您可以替换每个偏好设置级别和运行时实参中的偏好设置值。
在以下使用场景中使用偏好设置、宏和运行时实参:
- 开发流水线。在需要插件属性的动态值的位置嵌入宏。
- 可选:设置偏好设置。在不同级别的偏好设置中为宏设置默认值。
- 部署和运行流水线。运行流水线时,会发生以下情况:
- 系统偏好设置或命名空间偏好设置等相关级别的偏好设置会得到应用。
- 您提供的任何运行时实参都会替换偏好设置中分配给宏的值。
- Cloud Data Fusion 会通过替换运行时实参(如果未提供运行时实参,则替换为偏好设置)中的宏值来解析宏。
示例
流水线具有一个 BigQuery 接收器,该接收器的表名称值必须动态更改。如需进行此设置,请执行以下操作:
- 设置宏。在接收器的属性中,使用表名称字段中的以下宏:
${output_table}.
- 设置偏好。在应用偏好设置中,为
${output_table}
设置偏好设置,并使用以下默认值:data_staging
。 - 设置运行时实参。运行流水线时,请提供运行时实参,例如
output_table=final_analytics_data
。
在流水线执行期间,宏 ${output_table},
会替换为 final_analytics_data
。