架构组件

一个 Cloud Data Fusion 实例在 Google Cloud 中的一个 Compute Engine 地区中运行。一个实例由多种 Google Cloud 技术构成,其中包括 Google Kubernetes Engine (GKE)、Cloud SQL、Cloud Storage、Persistent Disk 和 Cloud Key Management Service。

一个 Cloud Data Fusion 实例在一个租户单元中预配。该实例提供构建和编排数据流水线的功能,以及集中式管理元数据的功能。该实例在一个租户项目内部的一个 GKE 集群上运行,并使用 Cloud Storage、Cloud SQL、Persistent Disk、Elasticsearch 和 Cloud KMS 存储业务、技术和操作元数据。

以下几个部分介绍了 Cloud Data Fusion 架构的主要组件。

租户项目

构建和编排 Cloud Data Fusion 流水线以及存储流水线元数据所需的一组服务是在一个租户单元内部的一个租户项目中预配的。针对 Cloud Data Fusion 实例在其中预配的每个客户项目,系统会创建一个单独的租户项目。该租户项目继承相应客户项目的所有网络和防火墙配置。

系统服务

系统服务是 Cloud Data Fusion 用来管理流水线生命周期、编排和元数据的一组服务。Cloud Data Fusion 使用 GKE 编排这些服务。

界面

Cloud Data Fusion 界面是用于开发、管理和运行数据流水线,以及搜索、查看和管理集成元数据的图形界面。同样地,界面也是在 GKE 集群中运行的。

元数据存储

Cloud Data Fusion 使用 Cloud Storage、Cloud SQL、Persistent Disk 和 Elasticsearch 存储技术、业务和操作元数据。

网域

使用公共 IP 时,Cloud Data Fusion 界面和后端服务在 datafusion.cdap.app 网域上运行。它们使用 HTTPS 公开,并且使用 SSL 证书对连接进行加密。

流水线执行

Cloud Data Fusion 使用 Dataproc 集群运行流水线。此外,Cloud Data Fusion 会自动预配临时 Dataproc 集群,然后在这些集群上运行流水线,最后在流水线运行完以后删除这些集群。(可选)您还可以选择针对现有 Dataproc 集群运行流水线。

Google Cloud 的运维套件

您可以选择将日志发送到 Google Cloud 的运维套件。对于配置为与 Google Cloud 的运维套件集成的实例,系统会将两种类型的日志发送到 Google Cloud 的运维套件:

  1. 审核日志:对于所有实例管理操作,Cloud Data Fusion 会将审核日志发送到 Google Cloud 的运维套件。
  2. 流水线日志:您可以在 Google Cloud 运维套件的 Dataproc 集群日志中查找来自 Cloud Data Fusion 流水线的日志。

后续步骤