创建数据流水线

本快速入门介绍如何执行以下操作:

  1. 创建 Cloud Data Fusion 实例。
  2. 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
    1. 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
    2. 对此文件运行转换,以解析和清理数据。
    3. 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Enable the API

创建 Cloud Data Fusion 实例

  1. 点击创建实例

    转到“实例”

  2. 输入实例名称
  3. 输入实例的说明
  4. 输入要在其中创建实例的区域
  5. 选择要使用的 Cloud Data Fusion 版本
  6. 选择 Cloud Data Fusion 版本
  7. 对于 Cloud Data Fusion 6.2.3 及更高版本,在授权字段中,选择用于在 Dataproc 中运行 Cloud Data Fusion 流水线的 Dataproc 服务账号。默认值为 Compute Engine 账号 。
  8. 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。

使用 Cloud Data Fusion 时,您会同时使用 Google Cloud 控制台和 以及单独的 Cloud Data Fusion 网页界面。

  • 在 Google Cloud 控制台中,您可以执行以下操作:

    • 创建 Google Cloud 控制台项目
    • 创建和删除 Cloud Data Fusion 实例
    • 查看 Cloud Data Fusion 实例详情
  • 在 Cloud Data Fusion 网页界面中,您可以使用各种页面,例如 指定为 StudioWrangler,以使用 Cloud Data Fusion 功能。

如需在 Cloud Data Fusion 界面中导航,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,打开实例页面。

    转到“实例”

  2. 在实例的操作列中,点击查看实例链接。
  3. 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。

部署示例流水线

您可以通过 Cloud Data Fusion Hub 获取示例流水线, 这让您可以共享可重复使用的 Cloud Data Fusion 流水线、插件 和解决方案。

  1. 在 Cloud Data Fusion 网页界面中,点击 Hub
  2. 在左侧面板中,点击流水线
  3. 点击 Cloud Data Fusion 快速入门流水线。
  4. 点击创建
  5. 在 Cloud Data Fusion 快速入门配置面板中,点击完成
  6. 点击自定义流水线

    流水线的直观表示会显示在 Studio 页面上, 它是用于开发数据集成流水线的图形界面。 可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以长按 将指针悬停在每个流水线节点上,然后点击 Properties。通过 “属性”菜单,您可以查看 与该节点关联的资源

  7. 在右上角的菜单中,点击部署。此步骤会将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。

部署流水线。

查看流水线

已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:

  • 查看流水线的结构和配置。
  • 手动运行流水线,或者设置时间表或触发器。
  • 查看流水线历史运行情况摘要,包括执行情况 日志和指标

复制服务账号

执行流水线

在流水线详情视图中,点击运行以执行流水线。

运行流水线

执行流水线时,Cloud Data Fusion 会执行以下操作:

  1. 预配临时 Dataproc 集群
  2. 使用 Apache Spark 在集群上执行流水线
  3. 删除集群

查看结果

几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。

流水线运行完成

  1. 转到 BigQuery 网页界面
  2. 如需查看结果示例,请前往 DataFusionQuickstart 数据集 在项目中,点击 top_rated_inexpensive 表,然后运行一个简单的查询。例如:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    PROJECT_ID 替换为您的项目 ID。

查看结果

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 删除 BigQuery 数据集 您的流水线将按照此快速入门向其中写入数据。
  2. 删除 Cloud Data Fusion 实例

  3. 可选:删除项目。

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

后续步骤

  • 完成 Cloud Data Fusion 教程
  • 了解 Cloud Data Fusion 概念