本页面介绍如何创建 Cloud Data Fusion 实例。
准备工作
- 启用 Cloud Data Fusion API。
- 创建 Cloud Data Fusion 实例需要具备以下权限:
instances.create
。如需了解详情,请参阅访问权限控制。 - Cloud Data Fusion 实例作为 Compute Engine 默认服务账号运行。如需了解可用的类型和角色,请参阅服务账号。
- 默认情况下,Cloud Data Fusion 使用项目中的 Dataproc 集群执行流水线。确保您的项目满足 Dataproc 网络要求。
- 新项目起初都有一个默认网络。 默认网络预填充了防火墙规则 default-allow-ssh,该规则在 TCP 端口 22 上允许任何来源与网络中的任意实例建立入站连接。在低于 6.2.0 的版本中,如果允许 TCP 端口 22 的入站流量的规则不在您的 Cloud Data Fusion 实例使用的网络中,您必须创建此规则。
创建实例
控制台
如果已启用 API,Google Cloud 控制台中的 Cloud Data Fusion 部分会显示一个实例页面,在此页面中,您可以创建和管理 Cloud Data Fusion 实例。
- 在控制台中,前往 Cloud Data Fusion 页面。
- 点击实例,然后点击创建实例。
- 输入实例名称。
- 输入实例的说明。
- 指定要在其中创建实例的区域。
- 指定 Cloud Data Fusion 版本。
- 选择版本。 默认值为基本。
- 可选:点击添加加速器以选择要在实例中使用的加速器。
- 指定 Dataproc 服务账号,用于在 Dataproc 中运行 Cloud Data Fusion 流水线。默认是 Compute Engine 账号。无论使用何种版本,请确保服务账号具有满足您需求的适当 Identity and Access Management 角色。如需了解详情,请参阅向服务账号授予用户权限。
可选:指定任何高级选项。如果未指定任何内容,则系统会使用以下默认值:
类别 设置 说明 默认 专用 IP 启用内部 IP 地址 使用内部 IP 地址创建 Cloud Data Fusion 实例。 已停用 日志记录和监控 启用 Cloud Logging 在 Cloud Logging 中查看流水线日志。 已停用 Dataplex 数据沿袭集成 启用或停用与 Dataplex 数据沿袭的集成 在 Dataplex 中查看沿袭。 已停用 加密 使用客户管理的加密密钥 (CMEK) 在 6.5 及更高版本中使用 基于角色的访问权限控制。 已停用 标签 键值对 实例用来注释任何相关底层资源(例如 Compute Engine 虚拟机)的资源标签。标签键和标签值只能包含字母、数字、短划线和下划线。标签键必须以字母或数字开头。 无 维护 启用维护窗口 设置 Cloud Data Fusion 可对实例执行维护操作的时间范围。如需了解详情,请参阅 配置维护期。 已停用 点击创建。完成实例创建过程最多需要 30 分钟。
当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例了。
API
创建实例:
如需使用 Cloud Data Fusion REST API 创建 Cloud Data Fusion 实例,请构建一个 instances.create
API 请求,并填入 Instance
资源。
后续步骤
- 详细了解 Cloud Data Fusion。
- 完整学习教程。