Dataproc 预配工具属性

Cloud Data Fusion 中的 Dataproc 预配工具会调用 Dataproc API,以在您的 Google Cloud 项目中创建和删除集群。您可以在预配工具的设置中配置集群。

如需详细了解 Cloud Data Fusion 版本与 Dataproc 版本之间的兼容性,请参阅版本兼容性

属性

属性 说明
项目 ID 创建 Dataproc 集群的 Google Cloud 项目。项目必须启用 Dataproc API。
创建者服务帐号密钥

提供给预配工具的服务帐号密钥必须有权访问 Dataproc 和 Compute Engine API。由于您的账号密钥属于敏感信息,我们建议您使用安全存储服务提供账号密钥。

创建安全密钥后,您可以将其添加到命名空间或系统计算配置文件中。对于命名空间计算配置文件,点击 盾牌,然后选择安全密钥。对于系统计算配置文件,请在保护账号密钥字段中输入密钥的名称。

区域 (Region) 您可以在其中托管资源(例如 Dataproc 集群的计算节点)的地理位置。
可用区 区域内的独立部署区域。
网络 创建 Dataproc 集群时将使用的 Google Cloud 项目中的 VPC 网络。
网络宿主项目 ID 如果网络位于其他 Google Cloud 项目中,请输入该项目的 ID。对于共享 VPC,请输入网络所在的宿主项目 ID。
子网 创建集群时要使用的子网。它必须位于给定网络中,并且位于该区域所在的区域内。如果留空,则系统会根据网络和可用区选择子网。
Runner 服务帐号 用于运行程序的 Dataproc 虚拟机 (VM) 的服务帐号名称。如果留空,则使用默认的 Compute Engine 服务帐号。
母版数量

集群中的主节点数量。这些节点包含 YARN Resource Manager、HDFS NameNode 和所有驱动程序。必须设置为 13

默认值为 1

主机器类型

要使用的主机器类型的类型。请选择以下机器类型之一:

  • n1
  • n2
  • N2D
  • e2

在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2

在版本 6.7.1 中,默认值为 n2

在版本 6.7.0 及更低版本中,默认值为 n1

主核心

分配给主节点的虚拟核心数。

默认值为 2

主内存 (GB)

分配给主节点的内存量(以 GB 为单位)。

默认值为 8 GB

主磁盘大小 (GB)

分配给主节点的磁盘大小(以 GB 为单位)。

默认值为 1000 GB

主磁盘类型

主节点的启动磁盘类型:

  • 标准永久性磁盘
  • SSD 永久性磁盘

默认值为标准永久性磁盘

工作器机器类型

要使用的工作器机器类型。请选择以下机器类型之一:

  • n1
  • n2
  • N2D
  • e2

在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2

在版本 6.7.1 中,默认值为 n2

在版本 6.7.0 及更低版本中,默认值为 n1

工作器核心

分配给工作器节点的虚拟核心数。

默认值为 2

工作器内存 (GB)

分配给工作器节点的内存量(以 GB 为单位)。

默认值为 8 GB

工作器磁盘大小 (GB)

分配给工作器节点的磁盘大小(以 GB 为单位)。

默认值为 1000 GB

工作器磁盘类型

工作器节点的启动磁盘类型:

  • 标准永久性磁盘
  • SSD 永久性磁盘

默认值为标准永久性磁盘

使用预定义的自动扩缩功能 启用预定义的 Dataproc 自动扩缩
主要工作器的数量

工作器节点包含一个 YARN NodeManager 和一个 HDFS DataNode。

默认值为 2

辅助工作器的数量 辅助工作器节点包含 YARN NodeManager,但不包含 HDFS DataNode。此值通常设置为 0,除非自动扩缩政策要求高于此值。
自动扩缩政策

自动扩缩政策 ID 或资源 URI 的路径。

如需了解如何配置和使用 Dataproc 自动扩缩功能来自动动态调整集群大小以满足工作负载需求,请参阅何时使用自动扩缩功能自动扩缩 Dataproc 集群

元数据 集群中运行的实例的其他元数据。您通常可以使用它来跟踪结算和退款。如需了解详情,请参阅集群元数据
网络标记 分配网络标记以将防火墙规则应用于集群的特定节点。网络标记必须以小写字母开头,可以包含小写字母、数字和连字符,标记必须以小写字母或数字结尾。
启用安全启动

在 Dataproc 虚拟机上启用安全启动

默认值为 False

启用 vTPM

在 Dataproc 虚拟机上启用虚拟可信平台模块 (vTPM)。

默认值为 False

启用完整性监控

在 Dataproc 虚拟机上启用虚拟完整性监控

默认值为 False

映像版本 Dataproc 映像版本。如果留空,系统会自动选择一个。如果将自定义映像 URI 属性留空,则系统会忽略此属性。
自定义映像 URI Dataproc 映像 URI。如果留空,则系统会根据映像版本属性推断该值。
预演存储桶 Cloud Storage 存储桶,用于暂存作业依赖项和配置文件,以便在 Dataproc 中运行流水线。
临时存储桶

用于存储临时集群和作业数据(例如 Dataproc 中的 Spark 历史记录文件)的 Cloud Storage 存储桶。

此属性是在 Cloud Data Fusion 6.9.2 版中引入的。

加密密钥名称 Dataproc 使用的客户管理的加密密钥 (CMEK)。
OAuth 范围

访问 Google API 时可能需要请求的 OAuth 2.0 范围,具体取决于您所需的访问权限级别。Google Cloud Platform 范围始终包含在内。

此属性是在 Cloud Data Fusion 6.9.2 版中引入的。

初始化操作 要在集群初始化期间执行的脚本列表。初始化操作应放在 Cloud Storage 上。
集群属性 替换 Hadoop 服务的默认配置属性的集群属性。如需详细了解适用的键值对,请参阅集群属性
常用标签

用于整理创建的 Dataproc 集群和作业的标签。

您可以为每项资源添加标签,然后按标签过滤资源。 有关标签的信息会转发到结算系统,以便客户可以按标签细分结算费用

空闲时间上限

将 Dataproc 配置为在集群的空闲时间超过指定的分钟数时将其删除。运行结束后,通常会直接删除集群,但在极少数情况下,删除可能会失败。如需了解详情,请参阅排查删除集群时遇到的问题

默认值为 30 分钟。

跳过集群删除

是否在运行结束时跳过集群删除。您必须手动删除集群。此方法仅应在调试失败的运行时使用。

默认值为 False

启用 Stackdriver Logging 集成

启用 Stackdriver Logging 集成。

默认值为 True

启用 Stackdriver Monitoring 集成

启用 Stackdriver Monitoring 集成。

默认值为 True

启用组件网关

启用组件网关以访问集群的接口,例如 YARN ResourceManager 和 Spark HistoryServer。

默认值为 False

首选外部 IP

当系统在与集群位于同一网络的 Google Cloud 上运行时,它在与集群通信时通常使用内部 IP 地址。如需始终使用外部 IP 地址,请将此值设置为 True

默认值为 False

创建投票活动延迟时间

在创建集群后开始轮询以查看该集群是否已创建所需等待的秒数。

默认值为 60 秒。

轮询设置用于控制在创建和删除集群时轮询集群状态的频率。如果您安排多个流水线同时运行,则可能需要更改这些设置。

创建投票活动

创建集群时要在延迟时间增加的随机抖动量上限(以秒为单位)。如果您有许多流水线计划在同一时间运行,则可以使用此属性来防止 Google Cloud 中同时调用多个 API。

默认值为 20 秒。

删除投票活动延迟时间

删除集群后,在开始轮询以查看集群是否已被删除时等待的秒数。

默认值为 30 秒。

轮询间隔

两次轮询集群状态之间需等待的秒数。

默认值为 2

映射到 JSON 属性的 Dataproc 配置文件网页界面属性

Dataproc 配置文件界面属性名称 Dataproc 配置文件 JSON 属性名称
个人资料标签 name
个人资料名称 label
说明 description
项目 ID projectId
创建者服务帐号密钥 accountKey
区域 (Region) region
可用区 zone
网络 network
网络宿主项目 ID networkHostProjectId
子网 subnet
Runner 服务帐号 serviceAccount
母版数量 masterNumNodes
主机器类型 masterMachineType
主核心 masterCPUs
主内存 (GB) masterMemoryMB
主磁盘大小 (GB) masterDiskGB
主磁盘类型 masterDiskType
主要工作器的数量 workerNumNodes
辅助工作器的数量 secondaryWorkerNumNodes
工作器机器类型 workerMachineType
工作器核心 workerCPUs
工作器内存 (GB) workerMemoryMB
工作器磁盘大小 (GB) workerDiskGB
工作器磁盘类型 workerDiskType
元数据 clusterMetaData
网络标记 networkTags
启用安全启动 secureBootEnabled
启用 vTPM vTpmEnabled
启用完整性监控 integrityMonitoringEnabled
映像版本 imageVersion
自定义映像 URI customImageUri
Cloud Storage 存储桶 gcsBucket
加密密钥名称 encryptionKeyName
自动扩缩政策 autoScalingPolicy
初始化操作 initActions
集群属性 clusterProperties
标签 clusterLabels
空闲时间上限 idleTTL
跳过集群删除 skipDelete
启用 Stackdriver Logging 集成 stackdriverLoggingEnabled
启用 Stackdriver Monitoring 集成 stackdriverMonitoringEnabled
启用组件网关 componentGatewayEnabled
首选外部 IP preferExternalIP
创建投票活动延迟时间 pollCreateDelay
创建投票活动 pollCreateJitter
删除投票活动延迟时间 pollDeleteDelay
轮询间隔 pollInterval

最佳做法

为流水线创建静态集群时,请参阅集群配置最佳实践

后续步骤