创建数据流水线
本快速入门介绍了如何执行以下操作:
- 创建 Cloud Data Fusion 实例。
- 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
- 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
- 对此文件运行转换,以解析和清理数据。
- 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Data Fusion API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Data Fusion API.
创建 Cloud Data Fusion 实例
- 点击创建实例。
- 输入实例名称。
- 输入实例的说明。
- 输入要在其中创建实例的区域。
- 选择要使用的 Cloud Data Fusion 版本。
- 选择 Cloud Data Fusion 版本。
- 对于 Cloud Data Fusion 6.2.3 版及更高版本,请参阅 授权字段,选择 Dataproc 服务账号 来运行 Cloud Data Fusion 流水线 Dataproc。系统会预先选择默认值“Compute Engine 账号”。
- 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。
浏览 Cloud Data Fusion 网页界面
使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。
在 Google Cloud 控制台中,您可以执行以下操作:
- 创建 Google Cloud 控制台项目
- 创建和删除 Cloud Data Fusion 实例
- 查看 Cloud Data Fusion 实例详情
在 Cloud Data Fusion 网页界面中,您可以使用各种页面,例如 指定为 Studio 或 Wrangler,以使用 Cloud Data Fusion 功能。
如需浏览 Cloud Data Fusion 界面,请按以下步骤操作:
- 在 Google Cloud 控制台中,打开实例页面。
- 在实例的操作列中,点击查看实例链接。
- 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。
部署示例流水线
您可以通过 Cloud Data Fusion Hub 获取示例流水线, 这让您可以共享可重复使用的 Cloud Data Fusion 流水线、插件 和解决方案。
- 在 Cloud Data Fusion 网页界面中,点击 Hub。
- 在左侧面板中,点击流水线。
- 点击 Cloud Data Fusion 快速入门流水线。
- 点击创建。
- 在 Cloud Data Fusion 快速入门配置面板中,点击完成。
点击自定义流水线。
在用于开发数据集成流水线的图形界面“Studio”页面中,会出现流水线的直观展示。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以长按 将指针悬停在每个流水线节点上,然后点击 Properties。通过每个节点的属性菜单,您可以查看与该节点关联的对象和操作。
在右上角的菜单中,点击部署。此步骤会将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。
查看流水线
已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:
- 查看流水线的结构和配置。
- 手动运行流水线,或者设置时间表或触发器。
- 查看流水线历史运行情况摘要,包括执行情况 日志和指标
执行流水线
在流水线详情视图中,点击运行以执行流水线。
执行流水线时,Cloud Data Fusion 会执行以下操作:
- 预配临时 Dataproc 集群
- 使用 Apache Spark 在集群上执行流水线
- 删除集群
查看结果
几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。
- 转到 BigQuery 网页界面。
如需查看结果示例,请前往项目中的
DataFusionQuickstart
数据集,点击top_rated_inexpensive
表,然后运行一个简单的查询。例如:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
将 PROJECT_ID 替换为您的项目 ID。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 删除 BigQuery 数据集 您的流水线将按照此快速入门向其中写入数据。
可选:删除项目。
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.