创建数据流水线

本快速入门介绍如何执行以下操作:

  1. 创建 Cloud Data Fusion 实例。
  2. 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
    1. 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
    2. 对此文件运行转换,以解析和清理数据。
    3. 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 启用 Cloud Data Fusion API。

    启用 API

  4. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  5. 启用 Cloud Data Fusion API。

    启用 API

创建 Cloud Data Fusion 实例

  1. 点击创建实例

    转到“实例”

  2. 输入实例名称
  3. 输入实例的说明
  4. 输入要在其中创建实例的区域
  5. 选择要使用的 Cloud Data Fusion 版本
  6. 选择 Cloud Data Fusion 版本
  7. 对于 Cloud Data Fusion 6.2.3 及更高版本,在授权字段中,选择用于在 Dataproc 中运行 Cloud Data Fusion 流水线的 Dataproc 服务帐号。系统会预先选择默认值,即 Compute Engine 账号。
  8. 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。

使用 Cloud Data Fusion 时,您可以同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 网页界面。

  • 在 Google Cloud 控制台中,您可以执行以下操作:

    • 创建 Google Cloud 控制台项目
    • 创建和删除 Cloud Data Fusion 实例
    • 查看 Cloud Data Fusion 实例详情
  • 在 Cloud Data Fusion 网页界面中,您可以使用各种页面(例如 StudioWrangler)来使用 Cloud Data Fusion 功能。

如需在 Cloud Data Fusion 界面中导航,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,打开实例页面。

    转到“实例”

  2. 在实例的操作列中,点击查看实例链接。
  3. 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到您所需的页面。

部署示例流水线

您可以通过 Cloud Data Fusion Hub 获得示例流水线,借助该流水线,您可以共享可重复使用的 Cloud Data Fusion 流水线、插件和解决方案。

  1. 在 Cloud Data Fusion 网页界面中,点击 Hub
  2. 在左侧面板中,点击流水线
  3. 点击 Cloud Data Fusion 快速入门流水线。
  4. 点击创建
  5. 在 Cloud Data Fusion 快速入门配置面板中,点击 Finish
  6. 点击自定义流水线

    Studio 页面上会显示流水线的可视化表示,该页面是一个用于开发数据集成流水线的图形界面。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以通过将指针悬停在每个流水线节点上并点击属性来探索流水线。通过每个节点的属性菜单,您可以查看与该节点关联的对象和操作。

  7. 在右上角的菜单中,点击部署。此步骤将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。

部署流水线。

查看流水线

已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:

  • 查看流水线的结构和配置。
  • 手动运行流水线,或者设置时间表或触发器。
  • 查看流水线的历史运行作业的摘要,包括执行时间、日志和指标。

复制服务帐号

执行流水线

在流水线详情视图中,点击运行以执行流水线。

运行流水线

执行流水线时,Cloud Data Fusion 会执行以下操作:

  1. 预配临时 Dataproc 集群
  2. 使用 Apache Spark 在集群上执行流水线
  3. 删除集群

查看结果

几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。

流水线运行完成

  1. 前往 BigQuery 网页界面
  2. 如需查看结果示例,请前往项目中的 DataFusionQuickstart 数据集,点击 top_rated_inexpensive 表,然后运行简单查询。例如:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    PROJECT_ID 替换为您的项目 ID。

查看结果

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集
  2. 删除 Cloud Data Fusion 实例

  3. 可选:删除项目。

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤

  • 完成 Cloud Data Fusion 教程
  • 了解 Cloud Data Fusion 概念