管理 Studio 管理

本页面介绍了 Cloud Data Fusion Studio 为管理配置而提供的管理功能。Cloud Data Fusion 遵循层次结构,其中每个实例可以有多个命名空间。管理员可以通过 Cloud Data Fusion Studio 集中管理所有命名空间,也可以单独管理这些命名空间。Cloud Data Fusion Studio 提供以下系统和命名空间控件。

系统管理

点击 Cloud Data Fusion Studio 中的系统管理员可显示以下标签页:

  • 管理标签页:查看各种 Cloud Data Fusion 服务的健康状况。您还可以查看每项服务的日志。
  • 配置标签页:创建、查看和修改以下控件:

预配者负责创建、初始化和销毁运行流水线的云环境。每个预配工具都会公开一组配置,用于控制创建和删除的集群类型。不同的预配工具会创建不同类型的集群。

每个计算配置文件都有一个范围:系统或用户。您可以将系统计算配置文件用于其下的任何命名空间。用户计算配置文件存在于命名空间中,只有该命名空间中的流水线才能使用用户计算配置文件。

在系统管理员配置标签页上,您可以创建应用于所有命名空间的系统计算配置文件。Cloud Data Fusion 会分配默认的计算配置文件。

创建计算配置文件时,您可以选择预配工具,供配置文件用于创建和配置 Cloud Runtime 详细信息。

系统偏好设置

偏好设置是适用于 Cloud Data Fusion 中各个级别的预定义配置,包括系统本身、命名空间、应用(包含流水线)以及流水线中的各个程序。偏好设置提供了一种为常用配置设置默认值的方法。较低级别的流水线和程序可以继承这些默认值,从而减少重复的配置任务。如需了解详情,请参阅管理宏、偏好设置和运行时参数

HTTP 调用操作

通过系统管理员页面上的 HTTP 调用操作,您可以直接从 Cloud Data Fusion Studio 界面与 Cloud Data Fusion 自己的 API 或其他 Google Cloud 服务 API 进行交互。但是,若要使用外部数据源构建数据处理流水线,请改为在流水线中使用 HTTP 插件及其 HTTP 调用执行器,以获得更全面的解决方案。它与 HTTP 调用操作略有不同,但基本概念是类似的。

配置和用例

HTTP 调用操作主要用于在 Cloud Data Fusion 中执行管理任务或配置。它让您可以直接从 Cloud Data Fusion Studio 与 Cloud Data Fusion API 或其他公开 HTTP API 的 Google Cloud 服务进行交互。

配置

您可以为 HTTP 调用定义以下详细信息:

  • 网址:您要调用的 Web 服务的目标端点。
  • 方法:要使用的 HTTP 方法,例如 GETPOSTPUT
  • 可选:标头:请求所需的任何自定义标头。
  • 可选:Body:要在请求正文中发送的数据,例如 POSTPUT 调用时的数据。

然后,您可以执行定义的 HTTP 调用,并在 Cloud Data Fusion Studio 中查看来自网络服务的响应。

用例
  • 测试 Cloud Data Fusion API 调用。您可以使用 HTTP 调用操作直接在网页界面中测试或探索 Cloud Data Fusion API 的功能。此操作有助于了解 API 行为或排查潜在问题。
  • 管理命名空间(高级)。虽然有一个用于管理命名空间的专用界面,但 HTTP 调用操作可用于直接调用 Cloud Data Fusion API 来创建、删除或配置命名空间,从而用于高级任务。
  • 与其他 Google Cloud 服务交互(受限)。 如果您使用的其他 Google Cloud 服务具有公开记录的 HTTP API,则可以使用 HTTP 调用操作与这些服务进行交互,但这种情况不常见。
重要注意事项
  • 安全性:使用 HTTP 调用操作时要小心,特别是对于可能影响环境的敏感数据或 Cloud Data Fusion API 调用。在执行每个 API 调用之前,请务必了解相应调用的影响。
  • 限制:HTTP 调用操作主要用于管理任务和测试。它不适用于构建涉及 Cloud Data Fusion 中数据操作的复杂数据处理流水线。
  • 流水线替代方案:如需将外部数据源或服务集成到数据流水线中,请在流水线定义中使用 HTTP 插件及其关联的 HTTP 调用执行程序。这提供了一种更可靠且更受控的方式来管理数据处理工作流中的 HTTP 交互。

命名空间管理

点击 Cloud Data Fusion Studio 中的命名空间管理员可管理特定命名空间的配置。对于每个命名空间,您可以定义以下几个方面:

  • 计算配置文件:在命名空间管理员中设置的配置文件是用户计算配置文件。只有该命名空间中的流水线才能使用这些用户计算配置文件。如需了解详情,请参阅管理计算配置文件
  • 偏好设置:在命名空间级别定义的偏好设置适用于命名空间、应用(包含流水线)以及流水线中的各个程序。如需了解详情,请参阅管理宏、偏好设置和运行时参数
  • 连接:Cloud Data Fusion 可让您重复使用与数据流水线中的来源和接收器的连接。您可以在“命名空间管理员”页面添加连接。如需了解详情,请参阅创建和管理连接
  • 驱动程序:Cloud Data Fusion 中的某些插件需要将 JDBC 驱动程序添加到命名空间。例如,您必须先将受支持的 MySQL 驱动程序添加到命名空间中,然后才能使用 MySQL 批处理源插件运行流水线。您可以通过“命名空间管理”页面或直接从 Hub 将 JDBC 驱动程序上传到命名空间或移除命名空间。如需了解详情,请参阅插件驱动程序
  • 源代码控制管理:为了高效地管理已部署流水线的开发过程,源代码控制管理允许您将命名空间与源代码控制系统的代码库相关联。如需了解详情,请参阅使用源代码控制管理来管理流水线
  • 服务帐号:为了控制对 Google Cloud 资源的访问权限,Cloud Data Fusion 中的命名空间默认使用 Cloud Data Fusion API Service Agent

为了更好地隔离数据,您可以将自定义的 Identity and Access Management (IAM) 服务帐号(称为“每个命名空间服务帐号”)与每个命名空间相关联。借助自定义 IAM 服务帐号(因命名空间而异),您可以控制各命名空间之间的 Google Cloud 资源访问权限,以便执行 Cloud Data Fusion 中的流水线设计时操作,例如流水线预览、Wrangler 和流水线验证。如需了解详情,请参阅使用命名空间服务帐号进行访问权限控制

后续步骤