使用 Cloud Data Fusion 创建数据流水线

创建数据流水线

本快速入门向您展示了如何执行以下操作:

  1. 创建 Cloud Data Fusion 实例。
  2. 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
    1. 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
    2. 对此文件运行转换,以解析和清理数据。
    3. 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。

准备工作

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 启用 Cloud Data Fusion API。

    启用 API

  4. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  5. 启用 Cloud Data Fusion API。

    启用 API

创建 Cloud Data Fusion 实例

  1. 点击创建实例

    转到“实例”

  2. 输入实例名称
  3. 输入实例的说明
  4. 输入要在其中创建实例的区域
  5. 选择要使用的 Cloud Data Fusion 版本
  6. 选择 Cloud Data Fusion 版本
  7. 对于 Cloud Data Fusion 6.2.3 版及更高版本,在授权字段中,选择要在 Dataproc 中运行 Cloud Data Fusion 流水线的 Dataproc 服务帐号。系统已预先选择默认值,即 Compute Engine 帐号。
  8. 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。

使用 Cloud Data Fusion 时,您可以同时使用控制台和单独的 Cloud Data Fusion 界面。

  • 在控制台中,您可以创建控制台项目,创建和删除 Cloud Data Fusion 实例,以及查看 Cloud Data Fusion 实例详细信息。

  • 在 Cloud Data Fusion 网页界面中,您可以使用 StudioWrangler 等各种页面来使用 Cloud Data Fusion 功能。

要浏览 Cloud Data Fusion 界面,请按以下步骤操作:

  1. 在控制台中,打开实例页面。

    转到“实例”

  2. 在实例的操作列中,点击查看实例链接。
  3. 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。

部署示例流水线

示例流水线通过 Cloud Data Fusion Hub 提供,您可以使用该中心共享可重复使用的 Cloud Data Fusion 流水线、插件和解决方案。

  1. 在 Cloud Data Fusion 网页界面中,点击 Hub
  2. 在左侧面板中,点击流水线
  3. 点击 Cloud Data Fusion 快速入门流水线。
  4. 点击创建
  5. 在 Cloud Data Fusion 快速入门配置面板中,点击完成
  6. 点击自定义流水线。 您的流水线的直观表示会显示在 Studio 页面上,该页面是用于开发数据集成流水线的图形界面。可用的流水线插件列在左侧,您的流水线显示在主画布区域。要浏览流水线,请将指针悬停在每个流水线节点上并点击属性。每个节点的属性菜单都可用于查看与该节点关联的对象和操作。
  7. 点击右上方的菜单中的部署。这会让您将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。
部署流水线。

查看流水线

已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:

  • 查看流水线的结构和配置。
  • 手动运行流水线,或者设置时间表或触发器。
  • 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。
复制服务帐号。

执行流水线

在流水线详情视图中,点击运行以执行流水线。

运行流水线。

查看结果

几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。

流水线运行完成。
  1. 转到 BigQuery 界面
  2. 如需查看结果的示例,请转到项目中的 DataFusionQuickstart 数据集,点击 top_rated_inexpensive 表,然后运行一个简单的查询,例如:SELECT * FROM <var>PROJECT_ID<var>.GCPQuickStart.top_rated_inexpensive LIMIT 10

    PROJECT_ID 替换为您的项目 ID。

查看结果。

清理

为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。

  1. 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集
  2. 删除 Cloud Data Fusion 实例

  3. (可选)删除项目。

    1. 在控制台中,打开管理资源页面。

      打开“管理资源”

    2. 在项目列表中,选择要删除的项目,然后点击删除
    3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤