此页面由 Cloud Translation API 翻译。

Cloud Data Fusion 网络简介

本页面提供有关从设计和执行环境中从公共或专用 Cloud Data Fusion 实例连接到数据源的背景信息。

准备工作

若要了解 Cloud Data Fusion 中的网络功能，您需要对以下内容有基本的了解：

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务，例如，在客户项目中运行流水线时。

租户项目不会直接向您公开，但在创建私有实例时，您可以使用该项目的名称来设置 VPC 对等互连。租户项目中的每个私有实例都有自己的 VPC 网络和子网。

该项目可以有多个 Cloud Data Fusion 实例。当您在 Cloud Data Fusion 界面或 Google Cloud CLI 中访问实例时，可以管理实例所拥有的资源和服务。
如需了解详情，请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

客户创建并拥有此项目。默认情况下，Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群，以运行您的流水线。

Cloud Data Fusion 实例

Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署，您可以在其中设计和执行流水线。您可以在单个项目中创建多个实例，并指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。根据您的要求和费用限制，您可以创建使用 Developer、Basic 或 Enterprise 版 Cloud Data Fusion 的实例。每个实例都包含一个独一无二的独立 Cloud Data Fusion 部署，该部署中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行资源运行。

网络图

下图显示了构建数据流水线时所建立的连接，这些数据流水线可从各种本地数据源和云数据源中提取、转换、混合、汇总和加载数据。

请参阅在私有实例中控制出站流量以及连接到公共来源的图表。

流水线设计和执行

Cloud Data Fusion 将设计和执行环境分离出来，可让您一次性设计流水线，然后在多个环境中执行流水线。设计环境位于租户项目中，而执行环境位于一个或多个客户项目中。

示例：您可以使用 Cloud Data Fusion 服务（例如 Wrangler 和 Preview）设计流水线。这些服务在租户项目中运行，其中对数据的访问权限由 Google 管理的 Cloud Data Fusion Service Agent 角色控制。然后在客户项目中执行该流水线，以便它使用您的 Dataproc 集群。在客户项目中，默认的 Compute Engine 服务账号控制对数据的访问权限。您可以将项目配置为使用自定义服务账号。

如需详细了解如何配置服务账号，请参阅 Cloud Data Fusion 服务账号。

设计环境

当您在客户项目中创建 Cloud Data Fusion 实例时，Cloud Data Fusion 会自动创建一个独立的 Google 管理的租户项目，以运行管理流水线和元数据生命周期、Cloud Data Fusion 界面以及 Preview 和 Wrangler 等设计时工具所需的服务。

Cloud Data Fusion 中的 DNS 解析

若要在设计时环境中解析要转移到 Google Cloud的数据并对其进行整理和预览，请使用 DNS 对等互连（从 Cloud Data Fusion 6.7.0 开始提供）。借助它，您可以为源和接收器使用域名或主机名，而无需像 IP 地址那样经常重新配置。

在 Cloud Data Fusion 的设计时环境中，当您在专用 VPC 网络中测试连接并预览使用本地或其他服务器（例如数据库或 FTP 服务器）的域名的流水线时，建议进行 DNS 解析。

如需了解详情，请参阅 DNS 对等连接和 Cloud DNS 转发。

执行环境

在实例中验证和部署流水线后，您可以手动执行流水线，也可以根据时间表或流水线状态触发器执行流水线。

无论执行环境是由 Cloud Data Fusion 还是由客户预配和管理，均位于客户项目中。

公共实例（默认）

要预配 Cloud Data Fusion 实例，最简单的方法是创建一个公共实例。充当公共网点，并提供通过公共互联网访问外部端点的权限。

Cloud Data Fusion 中的公开实例使用您项目中的默认 VPC 网络。

默认 VPC 网络具有以下特点：

每个区域自动生成的子网
路由表
防火墙规则，用于确保计算资源之间的通信

跨区域网络

创建新项目时，默认 VPC 网络的优势在于，它使用预定义 IP 地址范围自动为每个区域添加一个子网，表示为 CIDR 地址块。在整个 Google Cloud 全球区域中，IP 地址范围以 10.128.0.0/20、10.132.0.0/20 开头。

为确保您的计算资源在不同区域之间相互连接，默认 VPC 网络会将默认本地路由设置为每个子网。通过设置通向互联网 (0.0.0.0/0) 的默认路由，您可以访问互联网并捕获任何未路由的网络流量。

防火墙规则

默认 VPC 网络提供一组防火墙规则：

默认	说明
默认允许 `icmp`	为来源“`0.0.0.0/0`”启用“`icmp`”协议
Default allow internal	为来源 `10.128.0.0/9` 启用 `tcp:0-65535`；`udp:0-65535`；`icmp`，涵盖 `10.128.0.1` 到 `10.255.255.254` 之间的 IP 地址
默认允许 `rdp`	为来源“`0.0.0.0/0`”启用“`tcp:3389`”
默认允许 `ssh`	为来源“`0.0.0.0/0`”启用“`tcp:22`”

这些默认 VPC 网络设置可最大限度地减少设置云服务（包括 Cloud Data Fusion）的前提条件。考虑到网络安全，组织通常不允许您针对业务运营使用默认 VPC 网络。如果没有默认 VPC 网络，则无法创建 Cloud Data Fusion 公共实例。请改为创建私有实例。

默认 VPC 网络不授予对资源的访问权限。相反，Identity and Access Management (IAM) 会控制访问权限：

必须使用经过验证的身份才能登录 Google Cloud。
登录后，您需要明确权限（例如 Viewer 角色）才能查看 Google Cloud 服务。

专用实例

某些组织要求其所有生产系统都与公共 IP 地址隔离开来。Cloud Data Fusion 专用实例在所有类型的 VPC 网络设置中满足该要求。

Cloud Data Fusion 中的 Private Service Connect

Cloud Data Fusion 实例可能需要连接到位于本地、 Google Cloud或其他云提供商上的资源。将 Cloud Data Fusion 与内部 IP 地址搭配使用时，系统会通过Google Cloud 项目中的 VPC 网络建立与外部资源的连接。通过该网络的流量不会通过公共互联网。向 Cloud Data Fusion 授予使用 VPC 网络对等互连访问 VPC 的权限时，存在一些限制，这些限制在您使用大规模网络时会变得明显。

借助 Private Service Connect 接口，Cloud Data Fusion 无需使用 VPC 网络对等互连即可连接到您的 VPC。Private Service Connect 接口是一种 Private Service Connect，可让 Cloud Data Fusion 以安全的方式发起与使用方 VPC 网络的私密连接。这不仅提供了灵活性和便捷的访问方式（如 VPC 网络对等互连），还提供了 Private Service Connect 提供的显式授权和使用方控制。如需了解详情，请参阅使用 Private Service Connect 创建专用实例。

访问设计和执行环境中的数据

在公共实例中，网络通信通过开放式互联网进行，不建议在重要环境中使用。要安全地访问数据源，请务必在执行环境中通过专用实例执行流水线。

访问来源

访问数据源、公共实例和私有实例时：

使用专用 Google 访问通道向 API 拨出电话 Google Cloud
通过 VPC 对等互连与执行 (Dataproc) 环境通信

下表比较了各种数据源的设计和执行期间的不同实例：

数据源	公共 Cloud Data Fusion 实例（设计时）	公共 Cloud Data Fusion Dataproc （执行）	私有 Cloud Data Fusion 实例（设计时）	私有 Cloud Data Fusion Dataproc （执行）
Google Cloud 来源（在您授予权限并设置防火墙规则后）
本地源（设置 VPN/互连后，授予权限，并设置防火墙规则）
公共互联网来源（在您授予权限并设置防火墙规则后）

数据源	公共 Cloud Data Fusion 实例（设计时）	公共 Cloud Data Fusion Dataproc （执行）	私有 Cloud Data Fusion 实例（设计时）	私有 Cloud Data Fusion Dataproc （执行）
Google Cloud 来源（在您授予权限并设置防火墙规则后）
本地源（设置 VPN/互连后，授予权限，并设置防火墙规则）
公共互联网来源（在您授予权限并设置防火墙规则后）