Dataproc 预配工具属性

Cloud Data Fusion 中的 Dataproc 预配程序会调用 Dataproc API 来创建和删除 Google Cloud 项目中的集群。您可以在预配工具的设置中配置集群。

如需详细了解 Cloud Data Fusion 版本与 Dataproc 版本之间的兼容性,请参阅版本兼容性

属性

属性 说明
项目 ID 用于创建 Dataproc 集群的 Google Cloud 项目。项目必须启用 Dataproc API。
创建者服务账号密钥

向预配程序提供的服务账号密钥必须有权访问 Dataproc 和 Compute Engine API。由于您的账号密钥属于敏感信息,因此我们建议您提供 使用安全存储空间获取账号密钥。

创建安全密钥后,您可以将其添加到命名空间或 系统计算配置文件对于命名空间计算配置文件,请点击 盾牌,然后选择安全密钥。对于系统计算配置文件,请在 保护账号密钥字段。

区域 您可以托管资源(例如 Dataproc 集群的计算节点)的地理位置。
可用区 区域内的独立部署区域。
网络 Google Cloud 项目中的 VPC 网络,将在创建 Dataproc 集群时使用。
网络宿主项目 ID 如果网络位于另一个 Google Cloud 项目中,请输入 该项目的 ID。对于共享 VPC,请输入宿主项目 网络所在的 ID。
子网 创建集群时要使用的子网。它必须在指定的 以及可用区所在的区域中如果留空,则子网为 进行选择。
Runner 服务账号 用于运行程序的 Dataproc 虚拟机 (VM) 的服务账号名称。如果留空, 使用 Compute Engine 服务账号。
主副本数量

集群中主节点的数量。这些节点包含 YARN 资源管理器、HDFS NameNode 和所有驱动程序。必须设置为 13

默认值为 1

主机器类型

要使用的主机器类型的类型。选择以下机器类型之一:

  • n1
  • n2
  • N2D
  • e2

在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2

在版本 6.7.1 中,默认值为 n2

在版本 6.7.0 及更早版本中,默认值为 n1

主核心

分配给主节点的虚拟核心数。

默认值为 2

主内存 (GB)

分配给主节点的内存量(以 GB 为单位)。

默认值为 8 GB

主磁盘大小 (GB)

分配给主节点的磁盘大小(以 GB 为单位)。

默认值为 1000 GB

主磁盘类型

主节点的启动磁盘类型:

  • 标准永久性磁盘
  • SSD 永久性磁盘

默认值为标准永久性磁盘

工作器机器类型

要使用的工作器机器类型。请选择以下选项之一 机器类型:

  • n1
  • n2
  • N2D
  • e2

在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2

在版本 6.7.1 中,默认值为 n2

在 6.7.0 及更低版本中,默认值为 n1

工作器核心

分配给工作器节点的虚拟核心数。

默认值为 2

工作器内存 (GB)

分配给工作器节点的内存量(以 GB 为单位)。

默认值为 8 GB

工作器磁盘大小 (GB)

分配给工作器节点的磁盘大小(以 GB 为单位)。

默认值为 1000 GB

工作器磁盘类型

工作器节点的启动磁盘类型:

  • 标准永久性磁盘
  • SSD 永久性磁盘

默认值为标准永久性磁盘

使用预定义的自动扩缩功能 启用预定义的 Dataproc 自动扩缩
主要工作器数量

工作器节点包含一个 YARN NodeManager 和一个 HDFS DataNode。

默认值为 2

辅助工作器数量 辅助工作器节点包含 YARN NodeManager,但不包含 HDFS DataNode。除非自动扩缩政策,否则此值通常设置为零 要求更高的价格
自动扩缩政策

自动扩缩政策 ID 或资源 URI 的路径。

有关配置和使用 Dataproc 的信息 使用自动扩缩功能来自动和动态地调整集群大小 请参阅何时使用自动扩缩 以及自动扩缩 Dataproc 集群

元数据 集群中运行的实例的其他元数据。您可以 通常用于跟踪结算和退款情况。如需了解详情,请参阅集群元数据
网络标记 分配网络标记以将防火墙规则应用于 集群。影音平台代码必须以小写字母开头,可以包含小写字母、数字和连字符。标记必须以小写字母结尾 字母或数字。
启用安全启动

在下列设备上启用安全启动 Dataproc 虚拟机。

默认值为 False

启用 vTPM

启用虚拟可信平台模块 (vTPM) Dataproc 虚拟机上的资源。

默认值为 False

启用完整性监控

在 Dataproc 虚拟机上启用虚拟完整性监控

默认值为 False

映像版本 Dataproc 映像版本。如果留空, 自动选择。如果自定义映像 URI 属性是 留空,系统会忽略此属性。
自定义映像 URI Dataproc 映像 URI。如果留空,系统会根据 Image version 属性。
预演存储桶 Cloud Storage 存储桶,用于暂存作业依赖项和配置文件,以便在 Dataproc 中运行流水线。
临时存储桶

用于存储临时集群和 作业数据,例如 Dataproc 中的 Spark 历史记录文件。

此属性是在 Cloud Data Fusion 版本中引入的 6.9.2.

加密密钥名称 Dataproc 使用的客户管理的加密密钥 (CMEK)。
OAuth 范围

访问 Google 时可能需要请求的 OAuth 2.0 范围 API,具体取决于您所需的访问权限级别。 Google Cloud Platform 范围 始终包含在其中。

此属性在 Cloud Data Fusion 版本 6.9.2 中引入。

初始化操作 在集群初始化期间要执行的脚本列表。 初始化操作应放在 Cloud Storage 上。
集群属性 覆盖以下项的默认配置属性的集群属性: Hadoop 服务如需详细了解适用的键值对,请参阅集群属性
常见标签

用于整理要创建的 Dataproc 集群和作业的标签。

您可以为各项资源添加标签,然后按标签过滤资源。 标签的相关信息会传递到结算系统,因此客户可以根据标签细分结算费用

空闲时间上限

将 Dataproc 配置为在集群空闲时将其删除 超过指定的分钟数。集群通常会在运行结束后立即删除,但在极少数情况下,删除可能会失败。如需了解详情,请参阅排查删除集群时出现的问题

默认值为 30 分钟。

跳过集群删除

是否在运行结束时跳过集群删除。您必须 手动删除集群这只应在调试失败的 运行。

默认值为 False

启用 Stackdriver Logging 集成

启用 Stackdriver Logging 集成。

默认值为 True

启用 Stackdriver Monitoring 集成

启用 Stackdriver Monitoring 集成。

默认值为 True

启用组件网关

启用组件网关以访问集群的接口, 如 YARN ResourceManager 和 Spark HistoryServer。

默认值为 False

优先使用外部 IP

系统在同一网络中的 Google Cloud 上运行时 作为集群的一部分,它通常使用内部 IP 地址, 与集群通信的过程如需始终使用外部 IP 地址,请将此值设为 True

默认值为 False

创建投票延迟

创建集群后开始轮询以查看集群是否已创建所需等待的秒数。

默认值为 60 秒。

轮询设置可控制系统在以下情况下对集群状态进行轮询的频率 创建和删除集群的方法。如果您有多个流水线安排在同一时间运行,则可能需要更改这些设置。

创建轮询抖动

在触发延迟时间后增加的随机抖动量上限(以秒为单位) 创建集群时您可以使用此属性来 在 Google Cloud 中同时进行多个 API 调用时,您可以 安排在完全相同的时间运行的流水线。

默认值为 20 秒。

删除投票活动延迟时间

删除集群后开始轮询以查看集群是否已删除所需等待的秒数。

默认值为 30 秒。

轮询间隔

轮询集群状态之间等待的秒数。

默认值为 2

映射到 JSON 属性的 Dataproc 配置文件 Web 界面属性

Dataproc 配置文件界面属性名称 Dataproc 配置文件 JSON 属性名称
配置文件标签 name
个人资料名称 label
说明 description
项目 ID projectId
创建者服务账号密钥 accountKey
区域 region
可用区 zone
网络 network
网络宿主项目 ID networkHostProjectId
子网 subnet
Runner 服务账号 serviceAccount
母版数量 masterNumNodes
主机器类型 masterMachineType
主核心 masterCPUs
主内存 (GB) masterMemoryMB
主磁盘大小 (GB) masterDiskGB
主磁盘类型 masterDiskType
主要工作器的数量 workerNumNodes
辅助工作器的数量 secondaryWorkerNumNodes
工作器机器类型 workerMachineType
工作器核心 workerCPUs
工作器内存 (GB) workerMemoryMB
工作器磁盘大小 (GB) workerDiskGB
工作器磁盘类型 workerDiskType
元数据 clusterMetaData
网络标记 networkTags
启用安全启动 secureBootEnabled
启用 vTPM vTpmEnabled
启用完整性监控 integrityMonitoringEnabled
映像版本 imageVersion
自定义映像 URI customImageUri
Cloud Storage 存储分区 gcsBucket
加密密钥名称 encryptionKeyName
自动扩缩政策 autoScalingPolicy
初始化操作 initActions
集群属性 clusterProperties
标签 clusterLabels
空闲时间上限 idleTTL
跳过集群删除 skipDelete
启用 Stackdriver Logging 集成 stackdriverLoggingEnabled
启用 Stackdriver Monitoring 集成 stackdriverMonitoringEnabled
启用组件网关 componentGatewayEnabled
优先使用外部 IP preferExternalIP
创建投票活动延迟时间 pollCreateDelay
创建投票活动 pollCreateJitter
删除投票延迟 pollDeleteDelay
轮询间隔 pollInterval

最佳做法

为流水线创建静态集群时,请参阅集群配置最佳实践

后续步骤