系统管理
点击 Cloud Data Fusion Studio 中的系统管理员可显示 以下标签页:
- 管理标签页:查看各种服务的运行状况 Cloud Data Fusion 服务。您还可以查看每个 服务。
配置标签页:创建、查看和修改以下控件:
- Namespace。如需了解详情,请参阅 使用命名空间服务账号进行访问权限控制。
- 系统计算配置文件。计算配置文件会指明 使用预配工具创建流水线 应用相关配置。
预配者负责创建、初始化和销毁 用于运行流水线的云环境每个预配工具都会公开一组 用于控制所创建的集群的类型的配置 并将其删除。不同的预配工具会创建不同类型的集群。
每个计算配置文件都有一个范围:系统或用户。您可以使用系统计算资源, 配置文件下的任何命名空间用户计算配置文件 并且只有该命名空间中的流水线才能使用 个人资料。
在系统管理员 Configurations(配置)标签中,您可以创建系统 会应用于所有命名空间Cloud Data Fusion 分配一个默认计算配置文件
创建计算配置文件时,您需要选择预配程序,该配置文件会使用该预配程序来创建和配置云端运行时详细信息。
系统偏好设置
偏好设置是预定义的配置,适用于 Cloud Data Fusion 中的各个级别,包括系统本身、命名空间、应用(包含流水线)以及流水线中的各个程序。偏好设置提供了一种为常用配置设置默认值的方法。这些 较低级别的流水线和程序可以继承默认值, 重复性配置任务。有关详情,请参阅管理宏 偏好设置和运行时参数。
HTTP 调用操作
通过系统管理员页面上的 HTTP 调用操作,您可以 Cloud Data Fusion 自己的 API,也可能是其他 Google Cloud 服务 API。但是,对于 使用外部数据源构建数据处理流水线, HTTP 插件及其 HTTP 调用执行器 解决方案。它与 HTTP 调用操作略有不同 基本概念都是类似的。
配置和用例
HTTP 调用操作主要用于管理任务或 在 Cloud Data Fusion 中配置目的。它支持你与 使用 Cloud Data Fusion API 或其他 Google Cloud 服务 用于直接从 Cloud Data Fusion 公开 HTTP API Studio。
配置
您可以为 HTTP 调用定义以下详细信息:
- 网址:您要调用的 Web 服务的目标端点。
- 方法:要使用的 HTTP 方法,例如
GET
。POST
或PUT
。 - 可选:Headers:替换为 请求。
- 可选:正文:要在请求正文中发送的数据,例如
适用于
POST
和PUT
调用。
然后,您可以执行定义的 HTTP 调用并查看 Web 服务。
使用场景
- 测试 Cloud Data Fusion API 调用。您可以使用 HTTP 调用 用于测试或探索 Cloud Data Fusion API 功能的操作 直接使用网页界面此操作对于 了解 API 行为或排查潜在问题。
- 管理命名空间(高级)。虽然有专门的界面 HTTP 调用操作可用于高级任务, 直接调用适用于命名空间的 Cloud Data Fusion API 创建、删除或配置。
- 与其他 Google Cloud 服务交互(受限)。 如果您使用的其他 Google Cloud 服务有公开记录的 HTTP API,您可以使用 HTTP 调用操作 但不常见。
重要注意事项
- 安全:使用 HTTP 调用操作时请务必谨慎,尤其是在涉及敏感数据或可能会影响您环境的 Cloud Data Fusion API 调用时。请确保您了解 在执行每个 API 调用之前意味着什么。
- 限制:HTTP 调用操作主要用于 管理任务和测试目的。它不适用于构建涉及 Cloud Data Fusion 中数据处理的复杂数据处理流水线。
- 流水线的替代方案:用于集成外部数据源 将数据流水线推送到数据流水线,请使用 HTTP 插件及其 关联的 HTTP 调用执行程序。这个 提供了一种更可靠且更受控的方法来管理 HTTP 交互 在数据处理工作流中发挥重要作用。
命名空间管理
点击 Cloud Data Fusion Studio 中的命名空间管理员即可 管理特定命名空间的配置。对于每个命名空间,您可以定义以下方面:
- 计算配置文件:在命名空间管理中设置的配置文件是用户计算配置文件。只有该命名空间中的流水线才能使用这些用户 计算配置文件如需了解详情,请参阅管理计算配置文件。
- 偏好设置:在命名空间级别定义的偏好设置适用于 命名空间、应用(包含流水线) 进行预训练有关详情,请参阅管理宏 偏好设置和运行时参数。
- 连接:借助 Cloud Data Fusion,您可以重复使用 数据流水线中的来源和接收器。您可以在 “命名空间管理员”页面。如需了解详情,请参阅 创建和管理连接。
- 驱动程序:Cloud Data Fusion 中的某些插件需要 JDBC 驱动程序才能执行下列操作 可以添加到命名空间中例如,您必须先将受支持的 MySQL 驱动程序添加到命名空间,然后才能使用 MySQL 批处理来源插件运行流水线。您可以将 JDBC 驱动程序从 命名空间管理页面或直接从 Hub 访问。如需了解详情,请参阅插件驱动程序。
- 源代码控制管理:高效管理开发流程 Source Control Management 可让您连接到 您的源代码控制系统的代码库有关 相关信息,请参阅使用源代码控制管理来管理流水线。
- 服务账号:用于控制对 Google Cloud 资源的访问权限。 Cloud Data Fusion 中的命名空间 默认为 Cloud Data Fusion API Service Agent。
为了更好地隔离数据 Identity and Access Management (IAM) 服务账号(称为每个命名空间) 服务账号)与每个命名空间相关联。自定义的 IAM 服务 (对于不同的命名空间可能各不相同) 在流水线的命名空间之间访问 Google Cloud 资源 Cloud Data Fusion 中的设计时操作,例如流水线预览、 Wrangler 和流水线验证。如需了解详情,请参阅使用命名空间服务账号进行访问权限控制。
后续步骤
- 详细了解计算配置文件。
- 详细了解宏、偏好设置和运行时参数。