Cloud Data Fusion 网络简介

本页面提供有关从设计和执行环境中从公共或专用 Cloud Data Fusion 实例连接到数据源的背景信息。

准备工作

要使用 Cloud Data Fusion 中的网络,您需要对 以下:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存这些资源 以及代表您管理流水线所需的服务, 并在您的 客户项目。

租户项目不会直接公开给您, 创建专用实例后,您可以使用项目名称设置 VPC 对等互联。租户项目中的每个专用实例都有自己的 VPC 网络和子网。

项目可以有多个 Cloud Data Fusion 实例。您 当您在 Google Cloud 中访问实例时 Cloud Data Fusion 界面或 Google Cloud CLI。
如需了解详情,请参阅有关以下内容的 Service Infrastructure 文档 租户项目

客户项目

客户创建并拥有此项目。默认情况下 Cloud Data Fusion 会创建临时 Dataproc 集群 来运行流水线

Cloud Data Fusion 实例

Cloud Data Fusion 实例是 在 Cloud Data Fusion 中设计和执行流水线。 您可以在单个项目中创建多个实例,并指定 要在其中创建 Cloud Data Fusion 的 Google Cloud 区域 实例。 根据您的要求和费用限制,您可以创建 使用 开发者版、基本版或企业版 Cloud Data Fusion。 每个实例都包含唯一、独立的 Cloud Data Fusion Deployment,其中包含一组用于处理流水线生命周期的服务 管理、编排、协调和元数据管理。这些 Google Kubernetes Engine 租户项目

网络图

下图显示了构建数据流水线 提取、转换、混合、汇总和加载 云数据源

查看图表 控制专用实例中的出站流量连接到公共来源

流水线设计和执行

Cloud Data Fusion 将设计和执行环境分离出来,可让您一次性设计流水线,然后在多个环境中执行流水线。设计环境位于租户项目中,而执行环境位于一个或多个客户项目中。

示例:您使用 Cloud Data Fusion 服务(例如 Wrangler 和 Preview。这些服务在租户项目中运行, 数据均由 Google 管理的 Cloud Data Fusion 服务代理 角色。然后在客户项目中执行该流水线,以便它使用您的 Dataproc 集群。在客户项目中,默认值 Compute Engine 服务账号控制对数据的访问权限。您可以配置 项目中使用自定义服务账号。

如需详细了解如何配置服务账号,请参阅 Cloud Data Fusion 服务账号

设计环境

在客户项目中创建 Cloud Data Fusion 实例时, Cloud Data Fusion 会自动创建一个由 Google 管理的单独租户 项目,运行管理流水线生命周期和 元数据、Cloud Data Fusion 界面以及预览和 Wrangler。

Cloud Data Fusion 中的 DNS 解析

在整理和运行时,在设计时环境中解析域名, 预览要转移到 Google Cloud 的数据,使用 DNS 对等互连 (从 Cloud Data Fusion 6.7.0 开始提供)。它允许您使用网域或 来源和接收器的主机名,不需要像之前那样频繁地重新配置 IP 地址。

建议您在设计时环境中使用 DNS 解析, 在 Cloud Data Fusion 中测试使用 本地服务器或其他服务器(如数据库或 FTP 服务器)的域名, 位于专用 VPC 网络中

如需了解详情,请参阅 DNS 对等互连Cloud DNS 转发

执行环境

在实例中验证和部署流水线后,您可以手动执行流水线,也可以根据时间表或流水线状态触发器执行流水线。

执行环境是否由 在 Cloud Data Fusion 或客户中,您的客户中存在该环境 项目。

公共实例(默认)

要预配 Cloud Data Fusion 实例,最简单的方法是创建一个公共实例。充当公共网点,并提供通过公共互联网访问外部端点的权限。

Cloud Data Fusion 中的公开实例使用您项目中的默认 VPC 网络。

默认 VPC 网络具有以下特征:

  • 每个区域自动生成的子网
  • 路由表
  • 防火墙规则,用于确保计算资源之间的通信

跨区域网络

创建新项目时,默认 VPC 网络的优势在于,它使用预定义 IP 地址范围自动为每个区域添加一个子网,表示为 CIDR 地址块。在整个 Google Cloud 全球区域中,IP 地址范围以 10.128.0.0/2010.132.0.0/20 开头。

为确保您的计算资源在不同区域之间相互连接,默认 VPC 网络会将默认本地路由设置为每个子网。通过设置通向互联网 (0.0.0.0/0) 的默认路由,您可以访问互联网并捕获任何未路由的网络流量。

防火墙规则

默认 VPC 网络提供一组防火墙规则:

默认 说明
默认允许 icmp 为来源“0.0.0.0/0”启用“icmp”协议
Default allow internal 启用 tcp:0-65535udp:0-65535;icmp(针对来源 10.128.0.0/9,涵盖范围下限为 10.128.0.110.255.255.254 个 IP 地址)
默认允许 rdp 为来源“0.0.0.0/0”启用“tcp:3389
默认允许 ssh 为来源“0.0.0.0/0”启用“tcp:22

这些默认 VPC 网络设置可最大限度地减少设置云服务(包括 Cloud Data Fusion)的前提条件。出于疑虑 组织通常不允许您使用默认的 用于业务运营的 VPC 网络。不使用默认值 VPC 网络,因此您无法创建公开 Cloud Data Fusion 实例。相反, 创建专用实例

默认 VPC 网络不授予对资源的访问权限。相反,由 Identity and Access Management (IAM) 控制访问权限:

  • 您必须提供已验证身份才能登录 Google Cloud。
  • 登录后,您需要获得明确的权限(例如, Viewer 角色)查看 Google Cloud 服务。

专用实例

某些组织要求其所有生产系统都与公共 IP 地址隔离开来。Cloud Data Fusion 专用实例在所有类型的 VPC 网络设置中满足该要求。

Cloud Data Fusion 中的 Private Service Connect

Cloud Data Fusion 实例可能需要连接到 本地、Google Cloud 或其他云服务提供商处。使用 Cloud Data Fusion,具有内部 IP 地址,具有与外部的连接 资源是通过 VPC 网络建立的, Google Cloud 项目。通过网络的流量不会经过 公共互联网。获得 Cloud Data Fusion 后,您可以访问 使用 VPC 网络对等互连服务 这一点在您使用大规模网络时尤为明显。

借助 Private Service Connect 接口,Cloud Data Fusion 无需使用 VPC 网络对等互连即可连接到您的 VPC。 Private Service Connect 接口 一种 Private Service Connect Cloud Data Fusion 提供了一种方式 连接到使用方 VPC 网络。这不仅让开发者能够灵活选择 (如 VPC 网络对等互连),同时还提供明确的 授权和消费者端控制 Private Service Connect 优惠。有关详情,请参阅创建 一个 VPC 虚拟机实例 Private Service Connect

访问设计和执行环境中的数据

在公共实例中,网络通信通过开放式互联网进行,不建议在重要环境中使用。要安全地访问数据源,请务必在执行环境中通过专用实例执行流水线。

访问来源

访问数据源、公共实例和私有实例时:

  • 使用专用 Google 访问通道向 Google Cloud API 拨出电话
  • 通过 VPC 对等互连与执行 (Dataproc) 环境通信

下表比较了各种数据源的设计和执行期间的不同实例:

数据源 公共 Cloud Data Fusion 实例
(设计时)
公共 Cloud Data Fusion Dataproc
(执行)
私有 Cloud Data Fusion 实例
(设计时)
私有 Cloud Data Fusion Dataproc
(执行)
Google Cloud 来源
(在您授予权限并设置防火墙规则后)
本地源
(设置 VPN/互连后,授予权限,并设置防火墙规则)
公共互联网来源
(在您授予权限并设置防火墙规则后)

后续步骤