Cloud Data Fusion 中的 Dataproc 预配程序会调用 Dataproc API 来创建和删除 Google Cloud 项目中的集群。您可以在预配工具的设置中配置集群。
如需详细了解 Cloud Data Fusion 版本与 Dataproc 版本之间的兼容性,请参阅版本兼容性。
属性
属性 | 说明 |
---|---|
项目 ID | 用于创建 Dataproc 集群的 Google Cloud 项目。项目必须启用 Dataproc API。 |
创建者服务账号密钥 | 向预配程序提供的服务账号密钥必须有权访问 Dataproc 和 Compute Engine API。由于您的账号密钥属于敏感信息,因此我们建议您提供 使用安全存储空间获取账号密钥。 创建安全密钥后,您可以将其添加到命名空间或 系统计算配置文件对于命名空间计算配置文件,请点击 盾牌,然后选择安全密钥。对于系统计算配置文件,请在 保护账号密钥字段。 |
区域 | 您可以托管资源(例如 Dataproc 集群的计算节点)的地理位置。 |
可用区 | 区域内的独立部署区域。 |
网络 | Google Cloud 项目中的 VPC 网络,将在创建 Dataproc 集群时使用。 |
网络宿主项目 ID | 如果网络位于另一个 Google Cloud 项目中,请输入 该项目的 ID。对于共享 VPC,请输入宿主项目 网络所在的 ID。 |
子网 | 创建集群时要使用的子网。它必须在指定的 以及可用区所在的区域中如果留空,则子网为 进行选择。 |
Runner 服务账号 | 用于运行程序的 Dataproc 虚拟机 (VM) 的服务账号名称。如果留空, 使用 Compute Engine 服务账号。 |
主副本数量 | 集群中主节点的数量。这些节点包含 YARN 资源管理器、HDFS NameNode 和所有驱动程序。必须设置为 1 或 3。 默认值为 1。 |
主机器类型 | 要使用的主机器类型的类型。选择以下机器类型之一:
在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2。 在版本 6.7.1 中,默认值为 n2。 在版本 6.7.0 及更早版本中,默认值为 n1。 |
主核心 | 分配给主节点的虚拟核心数。 默认值为 2。 |
主内存 (GB) | 分配给主节点的内存量(以 GB 为单位)。 默认值为 8 GB。 |
主磁盘大小 (GB) | 分配给主节点的磁盘大小(以 GB 为单位)。 默认值为 1000 GB。 |
主磁盘类型 | 主节点的启动磁盘类型:
默认值为标准永久性磁盘。 |
工作器机器类型 | 要使用的工作器机器类型。请选择以下选项之一 机器类型:
在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2。 在版本 6.7.1 中,默认值为 n2。 在 6.7.0 及更低版本中,默认值为 n1。 |
工作器核心 | 分配给工作器节点的虚拟核心数。 默认值为 2。 |
工作器内存 (GB) | 分配给工作器节点的内存量(以 GB 为单位)。 默认值为 8 GB。 |
工作器磁盘大小 (GB) | 分配给工作器节点的磁盘大小(以 GB 为单位)。 默认值为 1000 GB。 |
工作器磁盘类型 | 工作器节点的启动磁盘类型:
默认值为标准永久性磁盘。 |
使用预定义的自动扩缩功能 | 启用预定义的 Dataproc 自动扩缩。 |
主要工作器数量 | 工作器节点包含一个 YARN NodeManager 和一个 HDFS DataNode。 默认值为 2。 |
辅助工作器数量 | 辅助工作器节点包含 YARN NodeManager,但不包含 HDFS DataNode。除非自动扩缩政策,否则此值通常设置为零 要求更高的价格 |
自动扩缩政策 | 自动扩缩政策 ID 或资源 URI 的路径。 有关配置和使用 Dataproc 的信息 使用自动扩缩功能来自动和动态地调整集群大小 请参阅何时使用自动扩缩 以及自动扩缩 Dataproc 集群。 |
元数据 | 集群中运行的实例的其他元数据。您可以 通常用于跟踪结算和退款情况。如需了解详情,请参阅集群元数据。 |
网络标记 | 分配网络标记以将防火墙规则应用于 集群。影音平台代码必须以小写字母开头,可以包含小写字母、数字和连字符。标记必须以小写字母结尾 字母或数字。 |
启用安全启动 | 在下列设备上启用安全启动 Dataproc 虚拟机。 默认值为 False。 |
启用 vTPM | 启用虚拟可信平台模块 (vTPM) Dataproc 虚拟机上的资源。 默认值为 False。 |
启用完整性监控 | 在 Dataproc 虚拟机上启用虚拟完整性监控。 默认值为 False。 |
映像版本 | Dataproc 映像版本。如果留空, 自动选择。如果自定义映像 URI 属性是 留空,系统会忽略此属性。 |
自定义映像 URI | Dataproc 映像 URI。如果留空,系统会根据 Image version 属性。 |
预演存储桶 | Cloud Storage 存储桶,用于暂存作业依赖项和配置文件,以便在 Dataproc 中运行流水线。 |
临时存储桶 | 用于存储临时集群和 作业数据,例如 Dataproc 中的 Spark 历史记录文件。 此属性是在 Cloud Data Fusion 版本中引入的 6.9.2. |
加密密钥名称 | Dataproc 使用的客户管理的加密密钥 (CMEK)。 |
OAuth 范围 | 访问 Google 时可能需要请求的 OAuth 2.0 范围 API,具体取决于您所需的访问权限级别。 Google Cloud Platform 范围 始终包含在其中。 此属性在 Cloud Data Fusion 版本 6.9.2 中引入。 |
初始化操作 | 在集群初始化期间要执行的脚本列表。 初始化操作应放在 Cloud Storage 上。 |
集群属性 | 覆盖以下项的默认配置属性的集群属性: Hadoop 服务如需详细了解适用的键值对,请参阅集群属性。 |
常见标签 | 用于整理要创建的 Dataproc 集群和作业的标签。 您可以为各项资源添加标签,然后按标签过滤资源。 标签的相关信息会传递到结算系统,因此客户可以根据标签细分结算费用。 |
空闲时间上限 | 将 Dataproc 配置为在集群空闲时将其删除 超过指定的分钟数。集群通常会在运行结束后立即删除,但在极少数情况下,删除可能会失败。如需了解详情,请参阅排查删除集群时出现的问题。 默认值为 30 分钟。 |
跳过集群删除 | 是否在运行结束时跳过集群删除。您必须 手动删除集群这只应在调试失败的 运行。 默认值为 False。 |
启用 Stackdriver Logging 集成 | 启用 Stackdriver Logging 集成。 默认值为 True。 |
启用 Stackdriver Monitoring 集成 | 启用 Stackdriver Monitoring 集成。 默认值为 True。 |
启用组件网关 | 启用组件网关以访问集群的接口, 如 YARN ResourceManager 和 Spark HistoryServer。 默认值为 False。 |
优先使用外部 IP | 系统在同一网络中的 Google Cloud 上运行时 作为集群的一部分,它通常使用内部 IP 地址, 与集群通信的过程如需始终使用外部 IP 地址,请将此值设为 True。 默认值为 False。 |
创建投票延迟 | 创建集群后开始轮询以查看集群是否已创建所需等待的秒数。 默认值为 60 秒。 轮询设置可控制系统在以下情况下对集群状态进行轮询的频率 创建和删除集群的方法。如果您有多个流水线安排在同一时间运行,则可能需要更改这些设置。 |
创建轮询抖动 | 在触发延迟时间后增加的随机抖动量上限(以秒为单位) 创建集群时您可以使用此属性来 在 Google Cloud 中同时进行多个 API 调用时,您可以 安排在完全相同的时间运行的流水线。 默认值为 20 秒。 |
删除投票活动延迟时间 | 删除集群后开始轮询以查看集群是否已删除所需等待的秒数。 默认值为 30 秒。 |
轮询间隔 | 轮询集群状态之间等待的秒数。 默认值为 2。 |
映射到 JSON 属性的 Dataproc 配置文件 Web 界面属性
Dataproc 配置文件界面属性名称 | Dataproc 配置文件 JSON 属性名称 |
---|---|
配置文件标签 | name |
个人资料名称 | label |
说明 | description |
项目 ID | projectId |
创建者服务账号密钥 | accountKey |
区域 | region |
可用区 | zone |
网络 | network |
网络宿主项目 ID | networkHostProjectId |
子网 | subnet |
Runner 服务账号 | serviceAccount |
母版数量 | masterNumNodes |
主机器类型 | masterMachineType |
主核心 | masterCPUs |
主内存 (GB) | masterMemoryMB |
主磁盘大小 (GB) | masterDiskGB |
主磁盘类型 | masterDiskType |
主要工作器的数量 | workerNumNodes |
辅助工作器的数量 | secondaryWorkerNumNodes |
工作器机器类型 | workerMachineType |
工作器核心 | workerCPUs |
工作器内存 (GB) | workerMemoryMB |
工作器磁盘大小 (GB) | workerDiskGB |
工作器磁盘类型 | workerDiskType |
元数据 | clusterMetaData |
网络标记 | networkTags |
启用安全启动 | secureBootEnabled |
启用 vTPM | vTpmEnabled |
启用完整性监控 | integrityMonitoringEnabled |
映像版本 | imageVersion |
自定义映像 URI | customImageUri |
Cloud Storage 存储分区 | gcsBucket |
加密密钥名称 | encryptionKeyName |
自动扩缩政策 | autoScalingPolicy |
初始化操作 | initActions |
集群属性 | clusterProperties |
标签 | clusterLabels |
空闲时间上限 | idleTTL |
跳过集群删除 | skipDelete |
启用 Stackdriver Logging 集成 | stackdriverLoggingEnabled |
启用 Stackdriver Monitoring 集成 | stackdriverMonitoringEnabled |
启用组件网关 | componentGatewayEnabled |
优先使用外部 IP | preferExternalIP |
创建投票活动延迟时间 | pollCreateDelay |
创建投票活动 | pollCreateJitter |
删除投票延迟 | pollDeleteDelay |
轮询间隔 | pollInterval |
最佳做法
为流水线创建静态集群时,请参阅集群配置最佳实践。
后续步骤
- 详细了解如何管理计算配置文件。