网络

本页面提供有关从设计和执行环境中从公共或专用 Cloud Data Fusion 实例连接到数据源的背景信息。

前期准备

本页面假定您熟悉以下术语:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会向客户公开,但在创建私有实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。

一个租户项目可以有多个 Cloud Data Fusion 实例。您可以通过 Cloud Data Fusion 网页界面或 gcloud 命令行工具访问租户项目通过 Cloud Data Fusion 实例持有的资源和服务。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

客户创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群,以运行客户的流水线。

Cloud Data Fusion 实例

Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署。要开始使用 Cloud Data Fusion,您需要使用 Google Cloud Console 创建一个 Cloud Data Fusion 实例。

您可以在单个 Google Cloud 项目中创建多个实例,并且可以指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。

根据您的要求和费用限制,您可以创建开发者、基本或企业实例。

每个 Cloud Data Fusion 实例都包含一个独一无二的独立 Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行资源运行。

网络图表

您可以构建数据流水线,以便从各种本地数据源和云数据源中提取、转换、混合、聚合和加载数据。

对于 Cloud Data Fusion 版本 6.4 及更高版本,请参阅在私有实例中控制出站流量以及连接到公共来源的图表。

对于低于 6.4 的 Cloud Data Fusion 版本,以下系统架构图展示了 Cloud Data Fusion 如何与租户项目中的 Preview 或 Wrangler 等服务中的客户连接,并在客户项目中连接 Dataproc。

Cloud Data Fusion 网络图

使用租户项目的优势

在 Cloud Data Fusion 中使用租户项目具有以下优势:

  • 用户和开发者只能在 Cloud Data Fusion 网页界面或 gcloud 工具提供的租户项目中使用托管式服务。
  • 用户无法查看或管理租户项目中的资源,因此它们不会产生任何费用,也不会对服务进行意外更改,这可能会导致系统中断。
  • 租户项目中的每个托管式服务都有自己的 VPC 网络和子网。

设计和执行环境

Cloud Data Fusion 将设计和执行环境分离出来,可让您一次性设计流水线,然后在多个环境中执行流水线。设计环境位于租户项目中,而执行环境位于一个或多个客户项目中。

示例:您可以使用 Cloud Data Fusion 服务(例如 Wrangler 和 Preview)设计流水线。这些服务在租户项目中运行,其中对数据的访问权限由 Google 管理的 Cloud Data Fusion Service Agent 角色控制。然后在客户项目中执行该流水线,以便它使用您的 Dataproc 集群。在客户项目中,对数据的访问权限由默认 Compute Engine 服务帐号控制。您可以将项目配置为使用自定义服务帐号。

如需详细了解如何配置服务帐号,请参阅 Cloud Data Fusion 服务帐号

设计环境

当您在客户项目中创建 Cloud Data Fusion 实例时,Cloud Data Fusion 会自动为每个客户项目创建一个独立的 Google 管理的租户项目。在租户项目中,它会运行管理流水线和元数据生命周期、Cloud Data Fusion 界面以及 Preview 和 Wrangler 等设计时工具所需的服务。

执行环境

在实例中验证和部署流水线后,您可以手动执行流水线,也可以根据时间表或流水线状态触发器执行流水线。

无论执行环境是由 Cloud Data Fusion 还是由客户预配和管理,均位于客户项目中。

Cloud Data Fusion 实例

基于访问模型的 Cloud Data Fusion 实例有两种类型:公共(默认)实例和专用实例。

公共实例(默认)

要预配 Cloud Data Fusion 实例,最简单的方法是创建一个公共实例。充当公共网点,并提供通过公共互联网访问外部端点的权限。

Cloud Data Fusion 中的公开实例使用您项目中的默认 VPC 网络。

默认 VPC 网络具有以下特征:

  • 每个区域自动生成的子网
  • 路由表
  • 防火墙规则,用于确保计算资源之间的通信

跨区域网络

创建新项目时,默认 VPC 网络的优势在于,它使用预定义 IP 地址范围自动为每个区域添加一个子网,表示为 CIDR 地址块。在整个 Google Cloud 全球区域中,IP 地址范围以 10.128.0.0/2010.132.0.0/20 开头。

为确保您的计算资源在不同区域之间相互连接,默认 VPC 网络会将默认本地路由设置为每个子网。通过设置通向互联网 (0.0.0.0/0) 的默认路由,您可以访问互联网并捕获任何未路由的网络流量。

防火墙规则

默认 VPC 网络提供一组防火墙规则:

默认 说明
默认允许 icmp 为来源“0.0.0.0/0”启用“icmp”协议
Default allow internal 启用tcp:0-65535udp:0-65535icmp源代码10.128.0.0/9,涵盖10.128.0.1最大10.255.255.254IP 地址)
默认允许 rdp 为来源“0.0.0.0/0”启用“tcp:3389
默认允许 ssh 为来源“0.0.0.0/0”启用“tcp:22

这些默认 VPC 网络设置可最大限度地减少设置云服务(包括 Cloud Data Fusion)的前提条件。考虑到网络安全,组织通常不允许您针对业务运营使用默认 VPC 网络。如果没有默认 VPC 网络,则无法创建 Cloud Data Fusion 公共实例。请改为按照创建 Cloud Data Fusion 专用实例的步骤操作。

默认 VPC 网络不授予对资源的访问权限。相反,Identity and Access Management (IAM) 服务可控制谁可以访问资源:

  • 必须使用经过验证的身份才能登录 Google Cloud。
  • 登录后,您需要明确权限(例如 Viewer 角色)才能查看 Google Cloud 服务。

专用实例

某些组织要求其所有生产系统都与公共 IP 地址隔离开来。Cloud Data Fusion 专用实例在所有类型的 VPC 网络设置中满足该要求。

在低于 6.4 的 Cloud Data Fusion 版本中,设计和执行环境使用专用 IP 地址。它们不使用附加到任何 Cloud Data Fusion Compute Engine 的公共互联网 IP 地址。因此,作为设计时工具,Cloud Data Fusion 专用 IP 实例无法访问公共互联网上的数据源。

如需通过专用实例连接到公共互联网上的数据源,请在公共实例中设计流水线,执行时将其移至客户项目的私人实例,在那可控制项目的 VPC 政策。您需要从设计和执行期间使用的项目连接到数据。

访问设计和执行环境中的数据

在公共实例中,网络通信通过开放式互联网进行,不建议在重要环境中使用。要安全地访问数据源,请务必在执行环境中通过专用实例执行流水线。

在 Cloud Data Fusion 版本 6.4 中,在设计流水线时,您不能从私有实例访问开放互联网上的数据源。建议您在租户项目中使用公共实例连接到互联网上的数据源,以设计流水线。构建流水线后,将其移至某个客户项目,并在专用实例中执行,以便您可以控制 VPC 政策。您必须从这两个项目连接到您的数据。

如需详细了解访问各种数据源所需的项目和实例类型,请参阅访问来源部分。

访问来源

如果执行环境在低于 6.4 的 Cloud Data Fusion 版本中运行,则您只能访问您的 VPC 网络中的资源。通过设置 Cloud VPN 或 Cloud Interconnect,您可以访问本地数据源。如果您设置了 Cloud NAT 网关,则低于 6.4 的 Cloud Data Fusion 版本只能访问公共互联网上的来源。

访问数据源、公共实例和私有实例时:

  • 使用专用 Google 访问通道向 Google Cloud API 拨出电话
  • 通过 VPC 对等互连与执行 (Dataproc) 环境通信

下表比较了各种数据源的设计和执行期间的不同实例:

数据源 公共 Cloud Data Fusion 实例
(设计时)
公共 Cloud Data Fusion Dataproc
(执行)
私有 Cloud Data Fusion 实例
(设计时)
私有 Cloud Data Fusion Dataproc
(执行)
Google Cloud 来源
(在您授予权限并设置防火墙规则后)
本地源
(设置 VPN/互连后,授予权限,并设置防火墙规则)
公共互联网来源
(在您授予权限并设置防火墙规则后)
版本 ≥ 6.4 版本 < 6.4

后续步骤