English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

与我们联系免费开始使用吧

针对现有 Dataproc 集群运行流水线

本页面介绍了如何针对现有 Dataproc 集群在 Cloud Data Fusion 中运行流水线。

默认情况下，Cloud Data Fusion 会为每个流水线创建临时集群：它会在流水线开始运行时创建集群，然后在流水线运行完成后将其删除。虽然此行为可确保只在需要时创建资源，从而节省费用，但可能在这种情况下并不需要以下默认行为：

如果为每个流水线创建新集群所需的时间对您的使用场景来说过多。
如果您的组织需要集中管理集群创建；例如，当您希望对所有 Dataproc 集群实施特定政策时。

在这些情况下，您可以按照以下步骤针对现有集群运行流水线。

准备工作

您需要具备以下几项：

Cloud Data Fusion 实例。

创建 Cloud Data Fusion 实例
现有 Dataproc 集群。

创建 Dataproc 集群
如果您在 Cloud Data Fusion 6.2 版中运行流水线，请使用运行 Hadoop 2.x 的旧版 Dataproc 映像（例如 1.5-debian10）或升级到最新的 Cloud Data Fusion 版本。

连接到现有集群

在 Cloud Data Fusion 6.2.1 版及更高版本中，您可以在创建新的 Compute Engine 配置文件时连接到现有 Dataproc 集群。

转到您的实例：
1. 在 Google Cloud 控制台中，转到 Cloud Data Fusion 页面。
2. 如需在 Cloud Data Fusion Studio 中打开实例，请点击实例，然后点击查看实例。
  
  转到实例
点击系统管理员。
点击配置标签页。
点击 系统计算配置文件。
点击创建新的付款资料。系统随即会打开预配工具页面。
点击现有 Dataproc (Existing Dataproc)。
输入配置文件、集群和监控信息。
点击创建。

将流水线配置为使用自定义配置文件

转到您的实例：
1. 在 Google Cloud 控制台中，转到 Cloud Data Fusion 页面。
2. 如需在 Cloud Data Fusion Studio 中打开实例，请点击实例，然后点击查看实例。
  
  转到实例
在工作室页面上，进入您的流水线。
点击配置。
点击计算配置 (Compute config)。
点击您创建的配置文件。

图 1：点击自定义配置文件
运行流水线。它针对现有的 Dataproc 集群运行。

后续步骤

详细了解如何配置集群。
排查删除集群问题。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2024-10-10。