快速入门

本快速入门向您展示了如何执行以下操作:

  1. 创建 Cloud Data Fusion 实例。
  2. 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
    1. 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
    2. 对此文件运行转换,以解析和清理数据。
    3. 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。

准备工作

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册一个新帐号

  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到项目选择器页面

  3. 启用 Cloud Data Fusion API。

    启用 API

创建 Cloud Data Fusion 实例

创建 Cloud Data Fusion 实例

在使用 Cloud Data Fusion 时,请同时使用 Cloud Console 和单独的 Cloud Data Fusion 界面。

  • 在 Cloud Console 中,您可以创建 Cloud Console 项目、创建和删除 Cloud Data Fusion 实例,以及查看 Cloud Data Fusion 实例详情。

  • 在 Cloud Data Fusion 网页界面中,您可以使用各种页面(如流水线 StudioWrangler)来使用 Cloud Data Fusion 功能。

要浏览 Cloud Data Fusion 界面,请按以下步骤操作:

  1. 在 Cloud Console 中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击查看实例链接。
  3. 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。

部署示例流水线

示例流水线通过 Cloud Data Fusion Hub 提供,它可让您共享可重复使用的 Cloud Data Fusion 流水线、插件和解决方案。

  1. 在 Cloud Data Fusion 网页界面中,点击 HUB
  2. 在左侧面板中,点击流水线
  3. 点击 Cloud Data Fusion 快速入门流水线。
  4. 点击创建
  5. 在 Cloud Data Fusion 快速入门配置面板中,点击完成
  6. 点击自定义流水线。 在用于开发数据集成流水线的图形界面“流水线 Studio”中,会出现流水线的直观展示。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以将鼠标指针放在每个流水线节点上,然后点击显示的属性按钮,来查看流水线。通过每个节点的属性菜单,您可以查看与该节点关联的对象和操作。
  7. 点击右上角菜单中的部署。这会让您将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。
部署流水线。

查看流水线

已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:

  • 查看流水线的结构和配置。
  • 手动运行流水线,或者设置时间表或触发器。
  • 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。
复制服务帐号。

执行流水线

在流水线详情视图中,点击运行以执行流水线。

查看结果

几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。

流水线运行完成。
  1. 转到 BigQuery 界面
  2. 在项目的 DataFusionQuickstart 数据集下,点击 top_rated_inexpensive 表,然后运行一个简单的查询,例如 SELECT * FROM `my-project.GCPQuickStart.top_rated_inexpensive` LIMIT 10(将“my-project”替换为您的项目 ID),以查看结果示例。
查看结果。

清理

为避免系统因本快速入门中使用的资源向您的 Google Cloud 帐号收取费用,请按照以下步骤操作。

  1. 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集
  2. 删除 Cloud Data Fusion 实例

  3. (可选)删除项目。

    1. 在 Cloud Console 中,转到管理资源页面。

      转到“管理资源”页面

    2. 在项目列表中,选择要删除的项目,然后点击删除
    3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤