Cloud Data Fusion 简介:Studio

本页面介绍了 Cloud Data Fusion:Studio,这是一个点击和拖动的可视化界面,用于通过预构建插件库构建数据流水线,并在界面中配置、执行和管理流水线。在 Studio 中构建流水线通常遵循以下流程:

  1. 连接到本地或云数据源。
  2. 准备和转换数据。
  3. 连接到目标位置。
  4. 测试流水线。
  5. 执行流水线。
  6. 安排和触发流水线。

设计和执行流水线后,您可以在 Cloud Data Fusion Pipeline Studio 页面上管理流水线:

  • 通过使用偏好设置和运行时参数对其进行参数化来重复使用流水线。
  • 通过自定义计算配置文件、管理资源和微调流水线性能来管理流水线执行。
  • 通过修改流水线来管理流水线生命周期。
  • 使用 Git 集成管理流水线源代码控制。

Cloud Data Fusion Studio 中的用户历程

准备工作

Cloud Data Fusion:Studio 概览

Studio 包含以下组件。

管理

借助 Cloud Data Fusion,您可以在每个实例中具有多个命名空间。在 Studio 中,管理员可以集中管理所有命名空间,也可以单独管理每个命名空间。

Studio 提供以下管理员控制功能:

系统管理
通过 Studio 中的 System Admin 模块,您可以创建新的命名空间,并在系统级别定义中央计算配置文件配置(这些配置适用于该实例中的每个命名空间)。如需了解详情,请参阅管理 Studio 管理
命名空间管理
通过 Studio 中的命名空间管理员模块,您可以管理特定命名空间的配置。对于每个命名空间,您可以定义计算配置文件、运行时偏好设置、驱动程序、服务帐号和 Git 配置。有关详情,请参阅管理 Studio 管理

流水线设计 Studio

您可以在 Cloud Data Fusion 网页界面的 Pipeline Design Studio 中设计和执行流水线。设计和执行数据流水线包括以下步骤:

  • 连接到来源:Cloud Data Fusion 允许连接到本地数据源和云数据源。Studio 界面具有默认的系统插件,这些插件已预安装在 Studio 中。您可以从插件代码库(称为 Hub)下载其他插件。如需了解详情,请参阅插件概览
  • 数据准备:借助 Cloud Data Fusion,您可以使用其强大的数据准备插件 Wrangler 准备数据。Wrangler 可帮助您在一个位置查看、探索和转换少量数据样本,然后在 Studio 中对整个数据集运行逻辑。这样,您就可以快速应用转换,以了解转换对整个数据集的影响。您可以创建多个转换并将它们添加到一个配方中。如需了解详情,请参阅 Wrangler 概览
  • 转换:转换插件会在数据从来源加载后更改数据,例如,您可以克隆记录、将文件格式更改为 JSON,或使用 JavaScript 插件创建自定义转换。如需了解详情,请参阅插件概览
  • 连接到目标位置:准备好数据并应用转换后,您可以连接到计划加载数据的目标位置。Cloud Data Fusion 支持与多个目的地的连接。如需了解详情,请参阅插件概览
  • 预览:设计流水线后,为了在部署和运行流水线之前调试问题,您可以运行预览作业。如果遇到任何错误,可以在草稿模式下进行修复。Studio 会使用源数据集的前 100 行生成预览。Studio 会显示预览作业的状态和时长。您可以随时停止作业。 您还可以在预览作业运行时监控日志事件。如需了解详情,请参阅预览数据
  • 管理流水线配置:预览数据后,您可以部署流水线并管理以下流水线配置:

    • 计算配置:您可以更改运行流水线的计算配置文件,例如,您想要针对自定义 Dataproc 集群(而不是默认 Dataproc 集群)运行流水线。
    • 流水线配置:对于每个流水线,您可以启用或停用插桩,例如时间指标。默认情况下,插桩处于启用状态。
    • 引擎配置:Spark 是默认执行引擎。您可以为 Spark 传递自定义参数。
    • 资源:您可以为 Spark 驱动程序和执行器指定内存和 CPU 数量。驱动程序编排 Spark 作业。Executor 处理 Spark 中的数据处理。
    • 流水线提醒:您可以将流水线配置为发送提醒并在流水线运行完成后启动后处理任务。您需要在设计流水线时创建流水线提醒。部署流水线后,您可以查看提醒。如需更改提醒设置,您可以修改流水线。
    • 转换下推:如果您希望流水线在 BigQuery 中执行某些转换,则可以启用转换下推。

    如需了解详情,请参阅管理流水线配置

  • 使用宏、偏好设置和运行时参数重复使用流水线:借助 Cloud Data Fusion,您可以重复使用数据流水线。借助可重复使用的数据流水线,您只需使用单个流水线即可将数据集成模式应用于各种用例和数据集。可重复使用的流水线可提供更好的可管理性。它们允许您在执行时设置流水线的大部分配置,而不是在设计时对其进行硬编码。在 Pipeline Design Studio 中,您可以使用宏向插件配置中添加变量,以便在运行时指定变量替换。如需了解详情,请参阅管理宏、偏好设置和运行时参数

  • 执行 (Execute):检查完流水线配置后,您就可以开始执行流水线了。您可以在流水线运行的各个阶段(例如预配、启动、运行和成功)看到状态更改。

  • 调度和编排:批处理数据流水线可以设置为按指定的时间表和频率运行。创建和部署流水线后,您可以创建时间表。在 Pipeline Design Studio 中,您可以通过在批量数据流水线上创建触发器来编排流水线,使其在一个或多个流水线运行完成时运行。这些流水线称为下游和上游流水线。您可以在下游流水线上创建触发器,以便其根据一个或多个上游流水线的完成情况运行。

    推荐:您还可以使用 Composer 来编排 Cloud Data Fusion 中的流水线。如需了解详情,请参阅安排流水线编排流水线

  • 修改流水线:借助 Cloud Data Fusion,您可以修改已部署的流水线。在您修改已部署的流水线时,系统会使用相同的名称创建流水线的新版本,并将其标记为最新版本。这样,您就可以迭代开发流水线,而不是复制流水线,而复制流水线会使用不同的名称创建新流水线。如需了解详情,请参阅修改流水线

  • 源代码控制管理:借助 Cloud Data Fusion,您可以使用 GitHub 对流水线进行源代码控制,从而更好地管理开发和生产之间的流水线。

  • 日志记录和监控:如需监控流水线指标和日志,建议您启用 Stackdriver Logging 服务,以便将 Cloud Logging 与 Cloud Data Fusion 流水线搭配使用。

后续步骤