管理宏、偏好设置和运行时参数

本页介绍了如何在 Cloud Data Fusion 流水线中设置偏好设置、宏和运行时参数。

关键词

宏是 Cloud Data Fusion 插件中的占位符 配置。它们由 ${ } 内包含的变量表示,例如 ${input_file_path}。宏通过以下方式为流水线提供灵活性: 让您可以使用占位符值,这些占位符值会在 运行时。这样,您就可以为参数(例如文件路径和表名称)启用动态配置。
偏好设置
偏好设置是预定义的配置,适用于 Cloud Data Fusion 中的各个级别,包括系统本身、命名空间、应用(包含流水线)以及流水线中的各个程序。借助偏好设置,您可以为常用的配置设置默认值。默认值可供更低级别的流水线和程序继承,从而减少重复的配置任务。
运行时参数
运行时参数是键值对,用于在您部署或运行流水线时为宏提供值,并可能替换偏好设置。它们是高度可定制的,可让您调整 而无需修改底层流水线或 偏好设置。

设置宏

要为插件属性值使用宏,请按以下步骤操作:

  1. 在 Cloud Data Fusion Studio 中,前往插件节点,然后点击“属性”。
  2. 前往要使用宏的字段,然后点击该字段旁边的** M**。
  3. 输入宏的键。例如,在文件源的插件属性中,在“格式”字段中输入以下键:${format.type}

设置宏值

在预览流水线的数据和运行流水线之前,请先为宏设置值。您可以在以下位置设置宏值:

  • 参数 setter 插件
  • 运行时参数
  • 应用偏好设置
  • 命名空间偏好设置
  • 系统偏好设置

使用宏运行流水线会执行以下操作:

  • Cloud Data Fusion 会先检查流水线是否包含参数设置器插件:
    • 如果它具有参数 setter,则 Cloud Data Fusion 会使用 宏的值。
    • 如果没有参数 setter,或者存在 而不是在 Argument Setter、Cloud Data Fusion 中分配 使用流水线运行时参数中的值。
  • 运行时参数会继承应用偏好设置中的宏。
  • 应用偏好设置会沿用命名空间偏好设置中的宏
  • 命名空间偏好设置会继承系统偏好设置中的宏。

示例

宏的常见用途是在路径字段中。我们不再使用硬编码路径 您可以使用动态路径例如,在 Cloud Storage 来源插件中, 可以使用多个宏替换路径值。以下值用于划分存储桶、文件夹和文件元素:gs://${bucket.name}/${folder}/${file.name}

以下示例会从静态存储桶和名称不静态的文件加载数据,输入存储桶的名称,并使用宏作为文件名:gs://<BUCKET_NAME>/${folder}/${file.name}

设定偏好设置

以下部分介绍了偏好设置层次结构,其中偏好设置为 即已设置、继承或已覆盖

设置系统偏好设置

您可以为系统设定偏好设置。由于宏名称必须是唯一的 每个偏好设置都会应用到使用该宏的所有管道

例如,您有一个包含数据库源的流水线,并使用宏来设置数据库名称和用户名。您可以在系统偏好设置中设置数据库和用户名偏好设置。该实例中的每个命名空间和每个流水线都会继承这些偏好设置。

如需设置系统偏好设置,请按以下步骤操作:

  1. 在 Cloud Data Fusion Studio 中,依次点击系统管理 > 配置
  2. 点击 系统 偏好设置 &gt; 修改系统偏好设置
  3. 偏好设置对话框中,输入新的偏好设置或修改现有偏好设置 偏好设置。
  4. 点击保存并关闭。这些偏好设置适用于所有命名空间、应用和流水线。

设置命名空间偏好设置

您可以为各个命名空间设置偏好设置。

设置命名空间偏好设置后,系统会显示所有继承的系统偏好设置。 为命名空间设置偏好设置时,您可以覆盖继承的偏好设置 通过设置不同的值来实现您还可以添加新的命名空间偏好设置。

如需设置命名空间偏好设置,请按以下步骤操作:

  1. 在 Cloud Data Fusion Studio 中,点击 System admin(系统管理员)&gt; 配置
  2. 点击 命名空间,然后选择一个命名空间以打开其配置页面。
  3. 要修改继承的偏好设置或添加新的偏好设置,请转到 “偏好设置”标签页,然后点击修改。系统随即会打开 Preferences 对话框,您可以在其中输入新偏好设置,或替换继承的系统偏好设置。点击 <span class="material-icons">add</span> Add(添加),然后输入宏的键和新值。
  4. 点击保存和关闭。系统会使用新值创建命名空间偏好设置,该值优先于系统偏好设置。

设定应用偏好设置

您可以为命名空间中每个已部署的流水线设置偏好设置。设置应用偏好设置后,系统会显示所有继承的系统和命名空间偏好设置。为应用设置偏好设置时,您可以通过设置不同的值来替换继承的偏好设置,也可以为应用添加新的偏好设置:

  1. 在 Cloud Data Fusion Studio 中,点击 ,然后点击命名空间菜单 选择要添加应用偏好设置的命名空间。
  2. 点击控制中心
  3. 点击“设定偏好设置”扳手图标。系统会显示“偏好设置”页, 列出所有继承的偏好设置。
  4. 要修改继承的偏好设置或添加新的偏好设置,请转到 “偏好设置”标签页,然后点击修改。系统随即会打开 Preferences 对话框,您可以在其中输入新偏好设置,或替换继承的系统偏好设置。点击 <span class="material-icons">add</span> Add(添加),然后 输入宏的键和新值
  5. 点击保存和关闭。应用偏好设置是使用 新值,该值将覆盖系统或命名空间偏好设置。当您 运行已部署的流水线时,应用偏好设置将显示为运行时 参数(您可以根据需要进行修改)。

设置运行时参数

设置运行时参数,以便在部署或运行流水线时为宏提供值,并可能替换偏好设置。

用于预览数据的运行时参数

要在您在 在 Cloud Data Fusion Studio 中,依次点击列表 &gt; 配置

用于运行已部署流水线的运行时参数

如果流水线包含宏,请在部署流水线后添加运行时 参数,用于为宏设置值。

使用宏部署流水线时,请点击 下拉菜单(位于 运行以打开运行时参数对话框,并为每个运行时参数设置值 宏。

设置流水线偏好设置

如需为流水线设置偏好设置,请按以下步骤操作:

  1. 在 Cloud Data Fusion Studio 中,依次点击列表 > 已部署,然后选择要查看的已部署流水线。
  2. 在“流水线”画布中,点击运行旁边的 下拉菜单。系统随即会打开运行时参数对话框。
  3. 在随即打开的运行时参数对话框中,为流水线中的每个宏指定值。

偏好设置、宏和运行时参数概览

您可以在以下级别设置偏好设置:

  • 系统偏好设置:您可以在此最高级别设置整个实例的偏好设置(例如默认值)。
  • 命名空间偏好设置:从系统偏好设置继承偏好设置。您可以为特定命名空间设置偏好设置。
  • 应用偏好设置:从命名空间偏好设置继承偏好设置。它们对于各个应用(包含 流水线)。
  • 运行时参数:覆盖在 较高级别。

如果您在系统偏好设置级别设置了偏好设置,则宏值 会自动填充命名空间偏好设置、应用偏好设置 和运行时参数。

如果您在命名空间级别设置了偏好设置,则这些设置会显示在 继承的偏好设置。如果流水线使用在偏好设置中定义的宏,则运行时参数会使用偏好设置中定义的键值对。您可以在以下位置覆盖偏好设置的值: 和运行时参数中。

在以下用例中使用偏好设置、宏和运行时参数:

  • 开发流水线。在需要动态值的位置嵌入宏 。
  • 可选:设定偏好设置。在不同级别的偏好设置中为宏设置默认值。
  • 部署和运行流水线。运行流水线时,会发生以下情况:
    • 系统会应用相关级别的偏好设置,例如系统偏好设置或命名空间偏好设置。
    • 您提供的任何运行时参数都会替换 。
    • Cloud Data Fusion 会通过从运行时参数(如果未提供运行时参数,则为偏好设置)中替换宏的值来解析宏。

示例

流水线有一个 BigQuery 接收器,其表名称值必须动态更改。要进行此设置,请执行以下操作:

  1. 设置宏。在接收器的属性中,在表名称字段中使用以下宏:${output_table}.
  2. **设置偏好设置。**在应用偏好设置中,设置偏好设置 (针对 ${output_table},采用以下默认值):data_staging
  3. 设置运行时参数。运行流水线时,请提供运行时参数,例如 output_table=final_analytics_data

在流水线执行期间,宏 ${output_table}, 会替换为 final_analytics_data