架构和组件

一个 Cloud Data Fusion 实例在 Google Cloud 中的一个 Compute Engine 地区中运行。实例由多种 Google Cloud 技术组成,包括 Google Kubernetes Engine (GKE)、Cloud SQL、Cloud Storage、Persistent Disk 和 Cloud Key Management Service。

一个 Cloud Data Fusion 实例在一个租户单元中预配。它提供构建和编排数据流水线以及集中管理元数据的功能。Cloud Data Fusion 实例在租户项目内的 GKE 集群上运行,并使用 Cloud Storage、Cloud SQL、Persistent Disk、Elasticsearch 和 Cloud KMS 存储业务、技术和操作元数据。

以下几个部分介绍了 Cloud Data Fusion 架构的主要组件。

租户项目

构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务是在一个租户单元内部的一个租户项目中预配的。针对 Cloud Data Fusion 实例在其中预配的每个客户项目,系统会创建一个单独的租户项目。该租户项目继承相应客户项目的所有网络和防火墙配置。

控制平面

控制平面是一组用于处理 Cloud Data Fusion 实例本身的 API 操作,例如创建、删除、重启和更新实例。

数据平面

数据平面是指一组 REST API 操作,用于处理 Cloud Data Fusion 的主要功能,例如创建、执行和监控流水线和相关工件。例如,使用数据平面操作创建或停止流水线。如需了解详情,请参阅 CDAP 参考文档

系统服务

Cloud Data Fusion 用于管理流水线生命周期、编排和元数据的一组服务。Cloud Data Fusion 使用 GKE 编排这些服务。

网页界面

Cloud Data Fusion 网页界面是一个图形界面,可用于开发、管理和运行数据流水线,以及搜索、查看和管理集成元数据。网页界面也在 GKE 集群中运行。

辐射内容

在 Cloud Data Fusion 网页界面中,如需浏览插件、示例流水线和其他集成,请点击中心。当有新版本的插件发布后,它会显示在任何兼容的实例的 Hub 中。即使该实例是在插件发布之前创建的,也是如此。

元数据存储

Cloud Data Fusion 使用 Cloud Storage、Cloud SQL、Persistent Disk 和 Elasticsearch 存储技术、业务和操作元数据。

命名空间

您可以使用命名空间对 Cloud Data Fusion 实例进行分区,从而在设计和执行环境中实现应用和数据隔离。如需了解详情,请参阅命名空间

网域

使用公共 IP 时,Cloud Data Fusion 网页界面和后端服务在网域 datafusion.cdap.app 上运行。它们使用 HTTPS 公开,并使用 SSL 证书对连接进行加密。

流水线执行

Cloud Data Fusion 使用 Dataproc 集群运行流水线。此外,Cloud Data Fusion 会自动预配临时 Dataproc 集群,然后在这些集群上运行流水线,最后在流水线运行完以后删除这些集群。(可选)您还可以选择针对现有 Dataproc 集群运行流水线。

Dataproc 集群和 Cloud Storage 存储桶与 Cloud Data Fusion 实例位于同一区域。如需了解详情,请参阅一般服务条款中的数据位置Cloud Data Fusion 常见问题解答

Google Cloud 运维套件

您可以选择将日志发送到 Google Cloud 的运维套件。对于配置为与 Google Cloud 的运维套件集成的实例,系统会将两种类型的日志发送到 Google Cloud 的运维套件:

  1. 审核日志:对于所有实例管理操作,Cloud Data Fusion 会将审核日志发送到 Google Cloud 的运维套件。

  2. 流水线日志:您可以从以下位置查找日志:

    • Google Cloud 的运维套件中 Dataproc 集群日志中的 Cloud Data Fusion 流水线
    • 用于运行流水线的 Cloud Data Fusion Pipeline Studio 页面

详细了解如何使用 Cloud Data Fusion 中的日志

预览

在 Cloud Data Fusion Studio 页面上创建数据流水线时,如需查看来自流水线来源的部分数据,请点击预览

预览版流水线在租户项目中运行,当您部署流水线时,该流水线会在客户项目中的相关计算配置文件上运行。部署流水线后,您必须复制流水线才能使用预览功能。

后续步骤