针对现有 Dataproc 集群运行流水线

本页面介绍了如何针对现有 Dataproc 集群在 Cloud Data Fusion 中运行流水线。

默认情况下,Cloud Data Fusion 会为每个流水线创建临时集群:它会在流水线开始运行时创建集群,然后在流水线运行完成后将其删除。虽然此行为可确保只在需要时创建资源,从而节省费用,但可能在这种情况下并不需要以下默认行为:

  • 如果为每个流水线创建新集群所需的时间对您的使用场景来说过多。

  • 如果您的组织需要集中管理集群创建;例如,当您希望对所有 Dataproc 集群实施特定政策时。

在这些情况下,您可以按照以下步骤针对现有集群运行流水线。

准备工作

您需要具备以下几项:

连接到现有集群

在 Cloud Data Fusion 6.2.1 版及更高版本中,您可以在创建新的 Compute Engine 配置文件时连接到现有 Dataproc 集群。

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 点击系统管理员

  3. 点击配置标签页。

  4. 点击 系统计算配置文件

  5. 点击创建新的付款资料。系统随即会打开预配工具页面。

  6. 点击现有 Dataproc (Existing Dataproc)。

  7. 输入配置文件、集群和监控信息。

  8. 点击创建

将流水线配置为使用自定义配置文件

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 工作室页面上,进入您的流水线。

  3. 点击配置

  4. 点击计算配置 (Compute config)。

  5. 点击您创建的配置文件。

    使用自定义档案。
    图 1:点击自定义配置文件
  6. 运行流水线。它针对现有的 Dataproc 集群运行。

后续步骤