本页面提供有关从设计和执行环境中从公共或专用 Cloud Data Fusion 实例连接到数据源的背景信息。
准备工作
若要了解 Cloud Data Fusion 中的网络功能,您需要对以下内容有基本的了解:
租户项目
Cloud Data Fusion 会创建一个租户项目来保存这些资源
以及代表您管理流水线所需的服务,
并在您的
客户项目。
租户项目不会直接公开给您,
创建专用实例后,您可以使用项目名称设置 VPC
对等互联。租户项目中的每个私有实例都有自己的 VPC 网络和子网。
项目可以有多个 Cloud Data Fusion 实例。当您在 Cloud Data Fusion 界面或 Google Cloud CLI 中访问实例时,可以管理实例所拥有的资源和服务。
如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。
客户项目
客户创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群,以运行您的流水线。
Cloud Data Fusion 实例
Cloud Data Fusion 实例是 Cloud Data Fusion 的唯一部署,您可以在其中设计和执行流水线。 您可以在单个项目中创建多个实例,并指定要在其中创建 Cloud Data Fusion 实例的 Google Cloud 区域。 根据您的要求和费用限制,您可以创建 使用 开发者版、基本版或企业版 Cloud Data Fusion。 每个实例都包含一个独一无二的独立 Cloud Data Fusion 部署,该部署中包含一组用于处理流水线生命周期管理、编排、协调和元数据管理的服务。这些服务使用租户项目中的长时间运行资源运行。
网络图
下图显示了构建数据流水线时所建立的连接,这些数据流水线可从各种本地数据源和云数据源中提取、转换、混合、汇总和加载数据。
查看图表 控制专用实例中的出站流量 和 连接到公共来源。
流水线设计和执行
Cloud Data Fusion 将设计和执行环境分离出来,可让您一次性设计流水线,然后在多个环境中执行流水线。设计环境位于租户项目中,而执行环境位于一个或多个客户项目中。
示例:您可以使用 Cloud Data Fusion 服务(例如 Wrangler 和 Preview)设计流水线。这些服务在租户项目中运行,其中对数据的访问权限由 Google 管理的 Cloud Data Fusion Service Agent 角色控制。然后在客户项目中执行该流水线,以便它使用您的 Dataproc 集群。在客户项目中,默认值 Compute Engine 服务账号控制对数据的访问权限。您可以配置 项目中使用自定义服务账号。
如需详细了解如何配置服务账号,请参阅 Cloud Data Fusion 服务账号。
设计环境
当您在客户项目中创建 Cloud Data Fusion 实例时,Cloud Data Fusion 会自动创建一个独立的 Google 管理的租户项目,以运行管理流水线和元数据生命周期、Cloud Data Fusion 界面以及 Preview 和 Wrangler 等设计时工具所需的服务。
Cloud Data Fusion 中的 DNS 解析
如需在设计时环境中解析要转移到 Google Cloud 的数据时整理和预览数据,请使用 DNS 对等(从 Cloud Data Fusion 6.7.0 开始提供)。借助它,您可以为源和接收器使用域名或主机名,而无需像 IP 地址那样经常重新配置。
建议您在设计时环境中使用 DNS 解析, 在 Cloud Data Fusion 中测试使用 本地服务器或其他服务器(如数据库或 FTP 服务器)的域名, 位于专用 VPC 网络中
如需了解详情,请参阅 DNS 对等连接和 Cloud DNS 转发。
执行环境
在实例中验证和部署流水线后,您可以手动执行流水线,也可以根据时间表或流水线状态触发器执行流水线。
无论执行环境是由 Cloud Data Fusion 还是由客户预配和管理,均位于客户项目中。
公共实例(默认)
要预配 Cloud Data Fusion 实例,最简单的方法是创建一个公共实例。充当公共网点,并提供通过公共互联网访问外部端点的权限。
Cloud Data Fusion 中的公开实例使用您项目中的默认 VPC 网络。
默认 VPC 网络具有以下特点:
- 每个区域自动生成的子网
- 路由表
- 防火墙规则,用于确保计算资源之间的通信
跨区域网络
创建新项目时,默认 VPC 网络的优势在于,它使用预定义 IP 地址范围自动为每个区域添加一个子网,表示为 CIDR 地址块。在整个 Google Cloud 全球区域中,IP 地址范围以 10.128.0.0/20
、10.132.0.0/20
开头。
为确保您的计算资源在不同区域之间相互连接,默认 VPC 网络会将默认本地路由设置为每个子网。通过设置通向互联网 (0.0.0.0/0
) 的默认路由,您可以访问互联网并捕获任何未路由的网络流量。
防火墙规则
默认 VPC 网络提供一组防火墙规则:
默认 | 说明 |
---|---|
默认允许 icmp |
为来源“0.0.0.0/0 ”启用“icmp ”协议 |
Default allow internal | 为来源 10.128.0.0/9 启用 tcp:0-65535 ;udp:0-65535 ;icmp ,涵盖 10.128.0.1 到 10.255.255.254 之间的 IP 地址 |
默认允许 rdp |
为来源“0.0.0.0/0 ”启用“tcp:3389 ” |
默认允许 ssh |
为来源“0.0.0.0/0 ”启用“tcp:22 ” |
这些默认 VPC 网络设置可最大限度地减少设置云服务(包括 Cloud Data Fusion)的前提条件。出于疑虑 组织通常不允许您使用默认的 用于业务运营的 VPC 网络。如果没有默认 VPC 网络,则无法创建 Cloud Data Fusion 公共实例。请改为创建私有实例。
默认 VPC 网络不授予对资源的访问权限。相反,Identity and Access Management (IAM) 会控制访问权限:
- 必须使用经过验证的身份才能登录 Google Cloud。
- 登录后,您需要获得明确的权限(例如, Viewer 角色)以查看 Google Cloud 服务。
专用实例
某些组织要求其所有生产系统都与公共 IP 地址隔离开来。Cloud Data Fusion 专用实例在所有类型的 VPC 网络设置中满足该要求。
Cloud Data Fusion 中的 Private Service Connect
Cloud Data Fusion 实例可能需要连接到 本地、Google Cloud 或其他云服务提供商处。将 Cloud Data Fusion 与内部 IP 地址搭配使用时,与外部资源的连接是通过 Google Cloud 项目中的 VPC 网络建立的。通过网络的流量不会经过 公共互联网。向 Cloud Data Fusion 授予使用 VPC 网络对等互连访问 VPC 的权限时,存在一些限制,这些限制在您使用大规模网络时会变得明显。
借助 Private Service Connect 接口,Cloud Data Fusion 无需使用 VPC 网络对等互连即可连接到您的 VPC。Private Service Connect 接口是一种 Private Service Connect,可让 Cloud Data Fusion 以安全的方式发起与使用方 VPC 网络的私密连接。这不仅为开发者提供了 (如 VPC 网络对等互连),同时还提供明确的 授权和消费者端控制 Private Service Connect 优惠。如需了解详情,请参阅使用 Private Service Connect 创建专用实例。
访问设计和执行环境中的数据
在公共实例中,网络通信通过开放式互联网进行,不建议在重要环境中使用。要安全地访问数据源,请务必在执行环境中通过专用实例执行流水线。
访问来源
访问数据源、公共实例和私有实例时:
- 使用专用 Google 访问通道向 Google Cloud API 拨出电话
- 通过 VPC 对等互连与执行 (Dataproc) 环境通信
下表比较了各种数据源的设计和执行期间的不同实例:
数据源 | 公共 Cloud Data Fusion 实例 (设计时) |
公共 Cloud Data Fusion Dataproc (执行) |
私有 Cloud Data Fusion 实例 (设计时) |
私有 Cloud Data Fusion Dataproc (执行) |
---|---|---|---|---|
Google Cloud 来源 (在您授予权限并设置防火墙规则后) |
||||
本地源 (设置 VPN/互连后,授予权限,并设置防火墙规则) |
||||
公共互联网来源 (在您授予权限并设置防火墙规则后) |