本快速入门向您展示了如何执行以下操作:
- 创建 Cloud Data Fusion 实例。
- 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
- 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
- 对此文件运行转换,以解析和清理数据。
- 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。
准备工作
创建 Cloud Data Fusion 实例
浏览 Cloud Data Fusion 界面
在使用 Cloud Data Fusion 时,请同时使用 Cloud Console 和单独的 Cloud Data Fusion 界面。
在 Cloud Console 中,您可以创建 Cloud Console 项目、创建和删除 Cloud Data Fusion 实例,以及查看 Cloud Data Fusion 实例详情。
在 Cloud Data Fusion 网页界面中,您可以使用各种页面(如流水线 Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
要浏览 Cloud Data Fusion 界面,请按以下步骤操作:
- 在 Cloud Console 中,打开实例页面。
- 在实例的操作列中,点击查看实例链接。
- 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。
部署示例流水线
示例流水线通过 Cloud Data Fusion Hub 提供,它可让您共享可重复使用的 Cloud Data Fusion 流水线、插件和解决方案。
- 在 Cloud Data Fusion 网页界面中,点击 HUB。
- 在左侧面板中,点击流水线。
- 点击 Cloud Data Fusion 快速入门流水线。
- 点击创建。
- 在 Cloud Data Fusion 快速入门配置面板中,点击完成。
- 点击自定义流水线。 在用于开发数据集成流水线的图形界面“流水线 Studio”中,会出现流水线的直观展示。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以将鼠标指针放在每个流水线节点上,然后点击显示的属性按钮,来查看流水线。通过每个节点的属性菜单,您可以查看与该节点关联的对象和操作。
- 点击右上角菜单中的部署。这会让您将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。

查看流水线
已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:
- 查看流水线的结构和配置。
- 手动运行流水线,或者设置时间表或触发器。
- 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。

执行流水线
在流水线详情视图中,点击运行以执行流水线。

查看结果
几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。

- 转到 BigQuery 界面。
- 在项目的
DataFusionQuickstart
数据集下,点击top_rated_inexpensive
表,然后运行一个简单的查询,例如SELECT * FROM `my-project.GCPQuickStart.top_rated_inexpensive` LIMIT 10
(将“my-project”替换为您的项目 ID),以查看结果示例。

清理
为避免系统因本快速入门中使用的资源向您的 Google Cloud 帐号收取费用,请按照以下步骤操作。
- 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集。
(可选)删除项目。
- 在 Cloud Console 中,转到管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。