Cloud Data Fusion 简介:Studio

本页面介绍了 Cloud Data Fusion:Studio,这是一个可视化工具, 点击拖动式界面,用于通过预构建库构建数据流水线 以及用于配置、执行和管理流水线的界面。 在 Studio 中构建流水线通常遵循以下流程:

  1. 连接到本地或云数据源。
  2. 准备和转换数据。
  3. 连接到目标位置。
  4. 测试流水线。
  5. 执行流水线。
  6. 安排和触发流水线。

设计和执行流水线后, Cloud Data Fusion Pipeline Studio 页面:

  • 通过使用偏好设置和运行时参数对流水线进行参数化,以便重复使用流水线。
  • 通过自定义计算配置文件、管理流水线, 优化流水线性能。
  • 通过修改流水线来管理流水线生命周期。
  • 使用 Git 集成管理流水线源代码控制。

Cloud Data Fusion Studio 中的用户历程

准备工作

Cloud Data Fusion:Studio 概览

该工作室包含以下组件。

管理

借助 Cloud Data Fusion,您可以在每个实例中创建多个命名空间。在工作室中,管理员可以管理 集中管理所有命名空间,也可以单独使用每个命名空间。

Studio 提供以下管理员控制功能:

系统管理
通过 Studio 中的 System Admin 模块,您可以创建新的命名空间并 在系统级别定义中央计算配置文件配置, 这适用于该实例中的每个命名空间如需更多信息 请参阅管理 Studio 管理
命名空间管理
借助 Studio 中的命名空间管理模块,您可以管理特定命名空间的配置。对于每个命名空间,您可以定义 计算配置文件、运行时偏好设置、驱动程序、服务账号和 Git 配置。如需了解详情,请参阅管理工作室管理

流水线设计 Studio

您可以在 Pipeline Design Studio 中设计和执行流水线, Cloud Data Fusion 网页界面。设计和执行数据流水线 具体步骤如下:

  • 连接到来源:Cloud Data Fusion 允许连接到 本地数据源和云数据源Studio 界面包含默认的系统插件,这些插件已预安装在 Studio 中。您可以下载 Hub 中的插件代码库。如需了解详情,请参阅插件概览
  • 数据准备:借助 Cloud Data Fusion 强大的数据准备插件 Wrangler,您可以准备数据。Wrangler 提供帮助 在一个位置集中查看、探索和转换一小部分数据 然后再在 Studio 中对整个数据集运行逻辑。这样,您就可以快速应用转换,了解转换对整个数据集的影响。您可以创建多个转换,并将 将其放入食谱如需了解详情,请参阅 Wrangler 概览
  • 转换:在插件从 来源 - 例如,您可以克隆记录、将文件格式更改为 JSON,也可以使用 JavaScript 插件创建自定义转换。如需了解详情,请参阅插件概览
  • 连接到目标位置:准备好数据并应用转换后,您可以连接到计划将数据加载到的目标位置。Cloud Data Fusion 支持连接到 目标。如需了解详情,请参阅 插件概览
  • 预览:在设计流水线后,在开始之前调试问题 部署和运行流水线时,还需要运行预览作业。如果您遇到任何错误,可以在草稿模式下进行修正。Studio 会使用来源数据集的前 100 行生成预览。Studio 会显示预览作业的状态和时长。您可以随时停止作业。 您还可以在预览作业运行时监控日志事件。有关 信息,请参阅预览数据
  • 管理流水线配置:预览数据后,您可以部署流水线并管理以下流水线配置:

    • 计算配置:您可以更改运行流水线的计算配置文件,例如,您希望针对自定义 Dataproc 集群(而非默认 Dataproc 集群)运行流水线。
    • 流水线配置:对于每个流水线,您可以启用或停用 例如时间指标默认情况下,插桩 。
    • 引擎配置:Spark 是默认执行引擎。您可以 为 Spark 传递自定义参数。
    • 资源:您可以指定 Spark 驱动程序和执行器。驱动程序编排 Spark 作业。通过 Executor 处理 Spark 中的数据处理。
    • 流水线提醒:您可以将流水线配置为发送提醒和 在流水线运行完成后启动后处理任务。您 创建流水线提醒。部署后 您可以查看提醒如需更改提醒设置,您可以修改相应流水线。
    • 转换下推:在以下情况下,您可以启用转换下推 您希望流水线在 BigQuery。

    如需了解详情,请参阅管理流水线配置

  • 使用宏、偏好设置和运行时参数重复使用流水线:Cloud Data Fusion 让您可以重复使用数据流水线。带可重复使用 因此您可以使用单个流水线 各种应用场景和数据集的集成模式。可重复使用 可提供更好的可管理性。它们可让您设置大部分 配置流水线,而不是在 。在 Pipeline Design Studio 中,您可以使用宏将变量添加到插件配置,以便在运行时指定变量替换项。如需了解详情,请参阅管理宏、偏好设置和运行时参数

  • 执行 (Execute):检查完流水线配置后, 可以启动流水线执行。您可以在 流水线运行的各个阶段(例如预配、启动、 以及成功与否

  • 安排和协调:批量数据流水线可设置为按指定的时间安排和频率运行。创建并部署流水线后,您可以创建时间安排。在 Pipeline Design Studio 中,您可以通过在批量数据流水线上创建触发器来协调流水线,以便在一个或多个流水线运行完成时运行该触发器。这称为下游和上游流水线。您在下游创建触发器 流水线,以便在一个或多个上游 流水线。

    推荐:您还可以使用 Composer 来编排流水线 Cloud Data Fusion。如需了解详情,请参阅 安排流水线编排流水线

  • 修改流水线:借助 Cloud Data Fusion,您可以修改已部署的流水线 流水线。当您修改已部署的流水线时,系统会 同名流水线并将其标记为最新版本。这个 可让您以迭代方式开发流水线,而不是复制流水线, 这将创建一个使用其他名称的新流水线。如需更多信息 请参阅修改流水线

  • 源代码控制管理:借助 Cloud Data Fusion,您可以更好地 使用 Google Cloud 运维套件 使用 GitHub 对流水线进行源代码控制

  • 日志记录和监控:如需监控流水线指标和日志, 建议您启用 Stackdriver Logging 服务 将 Cloud Logging 与 Cloud Data Fusion 流水线搭配使用。

后续步骤