系统管理
在 Cloud Data Fusion Studio 中点击系统管理员后,系统会显示以下标签页:
- 管理标签页:查看各种 Cloud Data Fusion 服务的运行状况。您还可以查看每项服务的日志。
配置标签页:创建、查看和修改以下控件:
- Namespace。如需了解详情,请参阅使用命名空间服务账号进行访问权限控制。
- 系统计算配置文件。计算配置文件用于指明在为流水线执行创建集群并应用关联的配置时要使用的预配程序。
预配程序负责创建、初始化和销毁流水线运行的云环境。每个预配程序都会公开一组配置,用于控制要创建和删除哪种类型的集群。不同的预配程序会创建不同类型的集群。
每个计算配置文件都有一个范围:系统或用户。您可以为其下的任何命名空间使用系统计算配置文件。用户计算配置文件位于命名空间中,并且只有该命名空间中的流水线可以使用用户计算配置文件。
在系统管理员的配置标签页中,您可以创建一个系统计算配置文件,并将其应用于所有命名空间。Cloud Data Fusion 会分配默认计算配置文件。
创建计算配置文件时,您需要选择预配程序,该配置文件会使用该预配程序来创建和配置云端运行时详细信息。
系统偏好设置
偏好设置是预定义的配置,适用于 Cloud Data Fusion 中的各个级别,包括系统本身、命名空间、应用(包含流水线)以及流水线中的各个程序。偏好设置提供了一种为常用配置设置默认值的方法。这些默认值可供更低级别的流水线和程序继承,从而减少重复的配置任务。如需了解详情,请参阅管理宏、偏好设置和运行时参数。
HTTP 调用操作
借助系统管理页面上的 HTTP 调用操作,您可以直接从 Cloud Data Fusion Studio 界面与 Cloud Data Fusion 自己的 API 或其他 Google Cloud 服务 API 进行交互。不过,如需使用外部数据源构建数据处理流水线,请改为在流水线中使用 HTTP 插件及其 HTTP 调用执行器,以获得更全面的解决方案。它与 HTTP 调用操作略有不同,但底层概念相同。
配置和用例
HTTP 调用操作主要用于 Cloud Data Fusion 中的管理任务或配置用途。借助它,您可以直接从 Cloud Data Fusion Studio 与 Cloud Data Fusion API 或其他公开 HTTP API 的服务进行交互。 Google Cloud
配置
您可以为 HTTP 调用定义以下详细信息:
- 网址:您要调用的 Web 服务的目标端点。
- 方法:要使用的 HTTP 方法,例如
GET
、POST
或PUT
。 - 可选:标头:请求所需的任何自定义标头。
- 可选:正文:要发送在请求正文中的数据,例如
POST
和PUT
调用的数据。
然后,您可以执行定义的 HTTP 调用,并在 Cloud Data Fusion Studio 中查看 Web 服务的响应。
使用场景
- 测试 Cloud Data Fusion API 调用。您可以使用 HTTP 调用操作直接从 Web 界面测试或探索 Cloud Data Fusion API 功能。此操作有助于了解 API 行为或排查潜在问题。
- 管理命名空间(高级)。虽然有专门的界面用于命名空间管理,但您也可以使用 HTTP 调用操作来执行高级任务,方法是直接调用 Cloud Data Fusion API 来创建、删除或配置命名空间。
- 与其他 Google Cloud 服务交互(受限)。 如果您使用的其他 Google Cloud 服务具有公开记录的 HTTP API,您可以使用 HTTP 调用操作与这些服务进行交互,但这不是一个常见的用例。
重要注意事项
- 安全:使用 HTTP 调用操作时请务必谨慎,尤其是在涉及敏感数据或可能会影响您环境的 Cloud Data Fusion API 调用时。在执行每个 API 调用之前,请务必了解其影响。
- 限制:HTTP 调用操作主要用于执行管理任务和测试。它不适用于构建涉及 Cloud Data Fusion 中数据处理的复杂数据处理流水线。
- 流水线替代方案:如需将外部数据源或服务集成到数据流水线中,请在流水线定义中使用 HTTP 插件及其关联的 HTTP 调用执行器。这样,您就可以更稳健且更可控地管理数据处理工作流中的 HTTP 互动。
命名空间管理
点击 Cloud Data Fusion Studio 中的命名空间管理可管理特定命名空间的配置。对于每个命名空间,您可以定义以下方面:
- 计算配置文件:在命名空间管理中设置的配置文件是用户计算配置文件。只有该命名空间中的流水线才能使用这些用户计算配置文件。如需了解详情,请参阅管理计算配置文件。
- 偏好设置:在命名空间级别定义的偏好设置适用于命名空间、应用(包含流水线)以及流水线中的各个程序。如需了解详情,请参阅管理宏、偏好设置和运行时参数。
- 连接:借助 Cloud Data Fusion,您可以在数据流水线中重复使用与来源和接收器的连接。您可以在“命名空间管理”页面中添加关联。如需了解详情,请参阅创建和管理连接。
- 驱动程序:Cloud Data Fusion 中的某些插件需要将 JDBC 驱动程序添加到命名空间。例如,您必须先将受支持的 MySQL 驱动程序添加到命名空间,然后才能使用 MySQL 批处理来源插件运行流水线。您可以通过“命名空间管理”页面或直接从 Hub 将 JDBC 驱动程序上传或移除到命名空间。如需了解详情,请参阅插件驱动程序。
- 源代码控制管理:为了高效管理已部署流水线的开发流程,源代码控制管理可让您将命名空间与源代码控制系统的代码库相关联。如需了解详情,请参阅使用源代码管理功能管理流水线。
- 服务账号:为控制对资源的访问权限,Cloud Data Fusion 中的命名空间默认使用 Cloud Data Fusion API Service Agent。 Google Cloud
为了更好地实现数据隔离,您可以将自定义的 Identity and Access Management (IAM) 服务账号(称为“每个命名空间的服务账号”)与每个命名空间相关联。借助自定义 IAM 服务账号(不同命名空间的账号可能不同),您可以控制对 Cloud Data Fusion 中流水线设计时操作(例如流水线预览、Wrangler 和流水线验证)所需的 Google Cloud 命名空间之间资源的访问权限。如需了解详情,请参阅使用命名空间服务账号进行访问权限控制。
后续步骤
- 详细了解计算配置文件。
- 详细了解宏、偏好设置和运行时参数。