本页面介绍了 Cloud Data Fusion:Studio,这是一个可视化工具, 点击拖动式界面,用于通过预构建库构建数据流水线 以及用于配置、执行和管理流水线的界面。 在 Studio 中构建流水线通常遵循以下流程:
- 连接到本地或云数据源。
- 准备和转换数据。
- 连接到目标位置。
- 测试流水线。
- 执行流水线。
- 安排和触发流水线。
设计和执行流水线后, Cloud Data Fusion Pipeline Studio 页面:
- 通过使用偏好设置和运行时参数对流水线进行参数化,以便重复使用流水线。
- 通过自定义计算配置文件、管理流水线, 优化流水线性能。
- 通过修改流水线来管理流水线生命周期。
- 使用 Git 集成管理流水线源代码控制。
准备工作
- 启用 Cloud Data Fusion API。
- 创建 Cloud Data Fusion 实例。
- 了解 Cloud Data Fusion 中的访问权限控制。
- 了解关键概念和术语 Cloud Data Fusion。
Cloud Data Fusion:Studio 概览
该工作室包含以下组件。
管理
借助 Cloud Data Fusion,您可以在每个实例中创建多个命名空间。在工作室中,管理员可以管理 集中管理所有命名空间,也可以单独使用每个命名空间。
Studio 提供以下管理员控制功能:
- 系统管理
- 通过 Studio 中的 System Admin 模块,您可以创建新的命名空间并 在系统级别定义中央计算配置文件配置, 这适用于该实例中的每个命名空间如需更多信息 请参阅管理 Studio 管理。
- 命名空间管理
- 借助 Studio 中的命名空间管理模块,您可以管理特定命名空间的配置。对于每个命名空间,您可以定义 计算配置文件、运行时偏好设置、驱动程序、服务账号和 Git 配置。如需了解详情,请参阅管理工作室管理。
流水线设计 Studio
您可以在 Pipeline Design Studio 中设计和执行流水线, Cloud Data Fusion 网页界面。设计和执行数据流水线 具体步骤如下:
- 连接到来源:Cloud Data Fusion 允许连接到 本地数据源和云数据源Studio 界面包含默认的系统插件,这些插件已预安装在 Studio 中。您可以下载 Hub 中的插件代码库。如需了解详情,请参阅插件概览。
- 数据准备:借助 Cloud Data Fusion 强大的数据准备插件 Wrangler,您可以准备数据。Wrangler 提供帮助 在一个位置集中查看、探索和转换一小部分数据 然后再在 Studio 中对整个数据集运行逻辑。这样,您就可以快速应用转换,了解转换对整个数据集的影响。您可以创建多个转换,并将 将其放入食谱如需了解详情,请参阅 Wrangler 概览。
- 转换:在插件从 来源 - 例如,您可以克隆记录、将文件格式更改为 JSON,也可以使用 JavaScript 插件创建自定义转换。如需了解详情,请参阅插件概览。
- 连接到目标位置:准备好数据并应用转换后,您可以连接到计划将数据加载到的目标位置。Cloud Data Fusion 支持连接到 目标。如需了解详情,请参阅 插件概览。
- 预览:在设计流水线后,在开始之前调试问题 部署和运行流水线时,还需要运行预览作业。如果您遇到任何错误,可以在草稿模式下进行修正。Studio 会使用来源数据集的前 100 行生成预览。Studio 会显示预览作业的状态和时长。您可以随时停止作业。 您还可以在预览作业运行时监控日志事件。有关 信息,请参阅预览数据。
管理流水线配置:预览数据后,您可以部署流水线并管理以下流水线配置:
- 计算配置:您可以更改运行流水线的计算配置文件,例如,您希望针对自定义 Dataproc 集群(而非默认 Dataproc 集群)运行流水线。
- 流水线配置:对于每个流水线,您可以启用或停用 例如时间指标默认情况下,插桩 。
- 引擎配置:Spark 是默认执行引擎。您可以 为 Spark 传递自定义参数。
- 资源:您可以指定 Spark 驱动程序和执行器。驱动程序编排 Spark 作业。通过 Executor 处理 Spark 中的数据处理。
- 流水线提醒:您可以将流水线配置为发送提醒和 在流水线运行完成后启动后处理任务。您 创建流水线提醒。部署后 您可以查看提醒如需更改提醒设置,您可以修改相应流水线。
- 转换下推:在以下情况下,您可以启用转换下推 您希望流水线在 BigQuery。
如需了解详情,请参阅管理流水线配置。
使用宏、偏好设置和运行时参数重复使用流水线:Cloud Data Fusion 让您可以重复使用数据流水线。带可重复使用 因此您可以使用单个流水线 各种应用场景和数据集的集成模式。可重复使用 可提供更好的可管理性。它们可让您设置大部分 配置流水线,而不是在 。在 Pipeline Design Studio 中,您可以使用宏将变量添加到插件配置,以便在运行时指定变量替换项。如需了解详情,请参阅管理宏、偏好设置和运行时参数。
执行 (Execute):检查完流水线配置后, 可以启动流水线执行。您可以在 流水线运行的各个阶段(例如预配、启动、 以及成功与否
安排和协调:批量数据流水线可设置为按指定的时间安排和频率运行。创建并部署流水线后,您可以创建时间安排。在 Pipeline Design Studio 中,您可以通过在批量数据流水线上创建触发器来协调流水线,以便在一个或多个流水线运行完成时运行该触发器。这称为下游和上游流水线。您在下游创建触发器 流水线,以便在一个或多个上游 流水线。
推荐:您还可以使用 Composer 来编排流水线 Cloud Data Fusion。如需了解详情,请参阅 安排流水线和编排流水线。
修改流水线:借助 Cloud Data Fusion,您可以修改已部署的流水线 流水线。当您修改已部署的流水线时,系统会 同名流水线并将其标记为最新版本。这个 可让您以迭代方式开发流水线,而不是复制流水线, 这将创建一个使用其他名称的新流水线。如需更多信息 请参阅修改流水线。
源代码控制管理:借助 Cloud Data Fusion,您可以更好地 使用 Google Cloud 运维套件 使用 GitHub 对流水线进行源代码控制。
日志记录和监控:如需监控流水线指标和日志, 建议您启用 Stackdriver Logging 服务 将 Cloud Logging 与 Cloud Data Fusion 流水线搭配使用。
后续步骤
- 详细了解如何管理 Studio 管理。