Cloud Data Fusion 网络简介

本页面提供有关从设计和执行环境中从公共或专用 Cloud Data Fusion 实例连接到数据源的背景信息。

准备工作

要使用 Cloud Data Fusion 中的网络,您需要对以下内容有基本的了解:

租户项目

Cloud Data Fusion 会创建一个租户项目,用于保存代表您管理流水线(例如在客户项目中的 Dataproc 集群上运行流水线时)所需的资源和服务。

租户项目不会直接公开,但在创建专用实例时,您可以使用项目的名称来设置 VPC 对等互连。租户项目中的每个专用实例都有自己的 VPC 网络和子网。

项目可以有多个 Cloud Data Fusion 实例。当您在 Cloud Data Fusion 界面或 Google Cloud CLI 中访问实例时,可以管理其存储的资源和服务。
如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

客户创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群以运行流水线。

Cloud Data Fusion 实例

Cloud Data Fusion 实例是 Cloud Data Fusion 的独特部署,您可以在其中设计和执行流水线。您可以在单个项目中创建多个实例,并指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。根据您的要求和费用限制,您可以创建一个使用开发者版、基本版或企业版的 Cloud Data Fusion 实例。每个实例包含一个唯一且独立的 Cloud Data Fusion 部署,其中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行的资源运行。

网络图

下图显示了构建从各种本地和云数据源提取、转换、混合、聚合和加载数据的数据流水线时的连接。

请参阅相关图表,了解如何控制专用实例中的出站流量以及连接到公共来源

流水线设计和执行

Cloud Data Fusion 将设计和执行环境分离出来,可让您一次性设计流水线,然后在多个环境中执行流水线。设计环境位于租户项目中,而执行环境位于一个或多个客户项目中。

示例:使用 Wrangler 和 Preview 等 Cloud Data Fusion 服务设计流水线。这些服务在租户项目中运行,其中对数据的访问权限由 Google 管理的 Cloud Data Fusion Service Agent 角色控制。然后在客户项目中执行该流水线,以便它使用您的 Dataproc 集群。在客户项目中,默认的 Compute Engine 服务帐号控制对数据的访问。您可以将项目配置为使用自定义服务帐号。

如需详细了解如何配置服务账号,请参阅 Cloud Data Fusion 服务账号

设计环境

当您在客户项目中创建 Cloud Data Fusion 实例时,Cloud Data Fusion 会自动创建一个单独的由 Google 管理的租户项目,以运行管理流水线和元数据的生命周期、Cloud Data Fusion 界面以及设计时工具(如 Preview 和 Wrangler)所需的服务。

Cloud Data Fusion 中的 DNS 解析

如需在整理和预览要转移到 Google Cloud 的数据时在设计时环境中解析域名,请使用 DNS 对等互连(从 Cloud Data Fusion 6.7.0 开始提供)。它允许您为来源和接收器使用网域或主机名,而无需像 IP 地址那样频繁地重新配置。

当您在专用 VPC 网络中测试使用本地服务器或其他服务器(例如数据库或 FTP 服务器)的域名的连接和预览流水线时,建议在 Cloud Data Fusion 的设计时环境中进行 DNS 解析。

如需了解详情,请参阅 DNS 对等互连Cloud DNS 转发

执行环境

在实例中验证和部署流水线后,您可以手动执行流水线,也可以根据时间表或流水线状态触发器执行流水线。

无论执行环境是由 Cloud Data Fusion 还是客户进行预配和管理,该环境都存在于您的客户项目中。

公共实例(默认)

要预配 Cloud Data Fusion 实例,最简单的方法是创建一个公共实例。充当公共网点,并提供通过公共互联网访问外部端点的权限。

Cloud Data Fusion 中的公开实例使用您项目中的默认 VPC 网络。

默认 VPC 网络具有以下特征:

  • 每个区域自动生成的子网
  • 路由表
  • 防火墙规则,用于确保计算资源之间的通信

跨区域网络

创建新项目时,默认 VPC 网络的优势在于,它使用预定义 IP 地址范围自动为每个区域添加一个子网,表示为 CIDR 地址块。在整个 Google Cloud 全球区域中,IP 地址范围以 10.128.0.0/2010.132.0.0/20 开头。

为确保您的计算资源在不同区域之间相互连接,默认 VPC 网络会将默认本地路由设置为每个子网。通过设置通向互联网 (0.0.0.0/0) 的默认路由,您可以访问互联网并捕获任何未路由的网络流量。

防火墙规则

默认 VPC 网络提供一组防火墙规则:

默认 说明
默认允许 icmp 为来源“0.0.0.0/0”启用“icmp”协议
Default allow internal 为来源 10.128.0.0/9 启用 tcp:0-65535udp:0-65535icmp,涵盖范围下限为 10.128.0.110.255.255.254 个 IP 地址
默认允许 rdp 为来源“0.0.0.0/0”启用“tcp:3389
默认允许 ssh 为来源“0.0.0.0/0”启用“tcp:22

这些默认 VPC 网络设置可最大限度地减少设置云服务(包括 Cloud Data Fusion)的前提条件。出于网络安全性方面的考虑,组织通常不允许您使用默认 VPC 网络进行业务运营。如果没有默认 VPC 网络,您就无法创建 Cloud Data Fusion 公共实例。请改为创建专用实例

默认 VPC 网络不授予对资源的访问权限。相反,由 Identity and Access Management (IAM) 控制访问权限:

  • 必须使用经过验证的身份才能登录 Google Cloud。
  • 登录后,您需要拥有明确的权限(例如 Viewer 角色)才能查看 Google Cloud 服务。

专用实例

某些组织要求其所有生产系统都与公共 IP 地址隔离开来。Cloud Data Fusion 专用实例在所有类型的 VPC 网络设置中满足该要求。

访问设计和执行环境中的数据

在公共实例中,网络通信通过开放式互联网进行,不建议在重要环境中使用。要安全地访问数据源,请务必在执行环境中通过专用实例执行流水线。

访问来源

访问数据源、公共实例和私有实例时:

  • 使用专用 Google 访问通道向 Google Cloud API 拨出电话
  • 通过 VPC 对等互连与执行 (Dataproc) 环境通信

下表比较了各种数据源的设计和执行期间的不同实例:

数据源 公共 Cloud Data Fusion 实例
(设计时)
公共 Cloud Data Fusion Dataproc
(执行)
私有 Cloud Data Fusion 实例
(设计时)
私有 Cloud Data Fusion Dataproc
(执行)
Google Cloud 来源
(在您授予权限并设置防火墙规则后)
本地源
(设置 VPN/互连后,授予权限,并设置防火墙规则)
公共互联网来源
(在您授予权限并设置防火墙规则后)

后续步骤