此页面由 Cloud Translation API 翻译。

Dataproc 预配程序属性

Cloud Data Fusion 中的 Dataproc 预配程序会调用 Dataproc API 来创建和删除 Google Cloud项目中的集群。您可以在预配程序的设置中配置集群。

如需详细了解 Cloud Data Fusion 版本与 Dataproc 版本之间的兼容性，请参阅版本兼容性。

属性

属性	说明
项目 ID	Google Cloud 创建 Dataproc 集群的项目。项目必须启用 Dataproc API。
创建者服务账号密钥	向预配程序提供的服务账号密钥必须有权访问 Dataproc 和 Compute Engine API。由于您的账号密钥非常敏感，因此我们建议您使用安全存储提供账号密钥。创建安全密钥后，您可以将其添加到命名空间或系统计算配置文件中。对于命名空间计算配置文件，请点击盾牌，然后选择安全密钥。对于系统计算配置文件，请在 Secure Account Key 字段中输入密钥的名称。
区域	您可以托管资源（例如 Dataproc 集群的计算节点）的地理位置。
可用区	区域内的一个独立部署区域。
网络	Google Cloud 项目中将在创建 Dataproc 集群时使用的 VPC 网络。
网络宿主项目 ID	如果网络位于另一个 Google Cloud 项目中，请输入该项目的 ID。对于共享 VPC，请输入网络所在的宿主项目 ID。
子网	创建集群时要使用的子网。它必须位于给定网络中，并且位于可用区所在的区域中。如果留空，系统会根据网络和可用区选择子网。
Runner 服务账号	用于运行程序的 Dataproc 虚拟机 (VM) 的服务账号名称。如果留空，则使用默认的 Compute Engine 服务账号。
主副本数量	集群中的主节点数量。这些节点包含 YARN 资源管理器、HDFS NameNode 和所有驱动程序。必须设置为 1 或 3。默认值为 1。
主机器类型	要使用的主机类型。选择以下机器类型之一： n1 n2 n2d e2 在 Cloud Data Fusion 6.7.2 及更高版本中，默认值为 e2。在版本 6.7.1 中，默认值为 n2。在 6.7.0 及更低版本中，默认值为 n1。
主核心	分配给主节点的虚拟核心数。默认值为 2。
主内存 (GB)	分配给主节点的内存量（以 GB 为单位）。默认值为 8 GB。
主磁盘大小 (GB)	分配给主节点的磁盘大小（以 GB 为单位）。默认值为 1000 GB。
主磁盘类型	主节点的启动磁盘类型：标准永久性磁盘 SSD 永久性磁盘默认值为标准永久性磁盘。
工作器机器类型	要使用的工作器机器类型。选择以下机器类型之一： n1 n2 n2d e2 在 Cloud Data Fusion 6.7.2 及更高版本中，默认值为 e2。在版本 6.7.1 中，默认值为 n2。在 6.7.0 及更低版本中，默认值为 n1。
工作器核心	分配给工作器节点的虚拟核心数。默认值为 2。
工作器内存 (GB)	分配给工作器节点的内存量（以 GB 为单位）。默认值为 8 GB。
工作器磁盘大小 (GB)	分配给工作器节点的磁盘大小（以 GB 为单位）。默认值为 1000 GB。
工作器磁盘类型	工作器节点的启动磁盘类型：标准永久性磁盘 SSD 永久性磁盘默认值为标准永久性磁盘。
使用预定义的自动扩缩	启用预定义的 Dataproc 自动扩缩。
主要工作器数量	工作器节点包含一个 YARN NodeManager 和一个 HDFS DataNode。默认值为 2。
辅助工作器数量	辅助工作器节点包含 YARN NodeManager，但不包含 HDFS DataNode。此值通常设为 0，除非自动扩缩政策要求将其设为更高值。
自动扩缩政策	自动扩缩政策 ID 或资源 URI 的路径。如需了解如何配置和使用 Dataproc 自动扩缩功能来根据工作负载需求自动调整和动态调整集群大小，请参阅何时使用自动扩缩和自动扩缩 Dataproc 集群。
元数据	集群中运行的实例的其他元数据。通常，您可以使用此字段来跟踪结算和退款。如需了解详情，请参阅集群元数据。
网络标记	分配网络标记，以将防火墙规则应用于集群的特定节点。网络标记必须以小写字母开头，可以包含小写字母、数字和连字符，标记必须以小写字母或数字结尾。
启用安全启动	在 Dataproc 虚拟机上启用安全启动。默认值为 False。
启用 vTPM	在 Dataproc 虚拟机上启用虚拟可信平台模块 (vTPM)。默认值为 False。
启用完整性监控	在 Dataproc 虚拟机上启用虚拟完整性监控。默认值为 False。
映像版本	Dataproc 映像版本。如果留空，系统会自动选择一个。如果自定义图片 URI 属性留空，系统会忽略此属性。
自定义映像 URI	Dataproc 映像 URI。如果留空，系统会根据图片版本属性推断出此值。
暂存存储分区	Cloud Storage 存储分区，用于暂存作业依赖项和配置文件，以便在 Dataproc 中运行流水线。
临时存储分区	用于存储临时集群和作业数据（例如 Dataproc 中的 Spark 历史记录文件）的 Cloud Storage 存储分区。此属性在 Cloud Data Fusion 版本 6.9.2 中引入。
加密密钥名称	Dataproc 使用的客户管理的加密密钥 (CMEK)。
OAuth 范围	您可能需要请求的 OAuth 2.0 范围，以便访问 Google API，具体取决于您需要的访问权限级别。 Google Cloud 平台范围始终包含在内。此属性在 Cloud Data Fusion 版本 6.9.2 中引入。
初始化操作	在集群初始化期间要执行的脚本列表。初始化操作应放置在 Cloud Storage 中。
集群属性	替换 Hadoop 服务的默认配置属性的集群属性。如需详细了解适用的键值对，请参阅集群属性。
常见标签	用于整理要创建的 Dataproc 集群和作业的标签。您可以为各项资源添加标签，然后按标签过滤资源。标签的相关信息会传递到结算系统，因此客户可以根据标签细分结算费用。
空闲时间上限	将 Dataproc 配置为在集群闲置时长超过指定分钟数时删除该集群。集群通常会在运行结束后立即删除，但在极少数情况下，删除可能会失败。如需了解详情，请参阅排查删除集群时出现的问题。默认值为 30 分钟。
跳过集群删除	是否在运行结束时跳过集群删除。您必须手动删除集群。仅应在调试失败的运行时使用此参数。默认值为 False。
启用 Stackdriver Logging 集成	启用 Stackdriver Logging 集成。默认值为 True。
启用 Stackdriver Monitoring 集成	启用 Stackdriver Monitoring 集成。默认值为 True。
启用组件网关	启用组件网关以访问集群的接口，例如 YARN ResourceManager 和 Spark HistoryServer。默认值为 False。
优先使用外部 IP	当系统在与集群位于同一网络中的 Google Cloud 上运行时，它通常会使用内部 IP 地址与集群进行通信。如需始终使用外部 IP 地址，请将此值设为 True。默认值为 False。
创建投票延迟	创建集群后开始轮询以查看是否已创建集群所需等待的秒数。默认值为 60 秒。轮询设置用于控制在创建和删除集群时轮询集群状态的频率。如果您有多个流水线安排在同一时间运行，则可能需要更改这些设置。
创建轮询抖动	在创建集群时要添加到延迟时间中的最大随机抖动量（以秒为单位）。如果您有许多流水线安排在完全相同的时间运行，则可以使用此属性来防止 Google Cloud 中出现许多同时进行的 API 调用。默认值为 20 秒。
删除投票延迟	删除集群后开始轮询以查看集群是否已删除所需等待的秒数。默认值为 30 秒。
轮询间隔	轮询集群状态之间等待的秒数。默认值为 2。

映射到 JSON 属性的 Dataproc 配置文件 Web 界面属性

Dataproc 配置文件界面属性名称	Dataproc 配置文件 JSON 属性名称
配置文件标签	`name`
个人资料名称	`label`
说明	`description`
项目 ID	`projectId`
创建者服务账号密钥	`accountKey`
区域	`region`
可用区	`zone`
网络	`network`
网络宿主项目 ID	`networkHostProjectId`
子网	`subnet`
Runner 服务账号	`serviceAccount`
主副本数量	`masterNumNodes`
主机器类型	`masterMachineType`
主核心	`masterCPUs`
主内存 (GB)	`masterMemoryMB`
主磁盘大小 (GB)	`masterDiskGB`
主磁盘类型	`masterDiskType`
主要工作器数量	`workerNumNodes`
辅助工作器数量	`secondaryWorkerNumNodes`
工作器机器类型	`workerMachineType`
工作器核心	`workerCPUs`
工作器内存 (GB)	`workerMemoryMB`
工作器磁盘大小 (GB)	`workerDiskGB`
工作器磁盘类型	`workerDiskType`
元数据	`clusterMetaData`
网络标记	`networkTags`
启用安全启动	`secureBootEnabled`
启用 vTPM	`vTpmEnabled`
启用完整性监控	`integrityMonitoringEnabled`
映像版本	`imageVersion`
自定义映像 URI	`customImageUri`
Cloud Storage 存储分区	`gcsBucket`
加密密钥名称	`encryptionKeyName`
自动扩缩政策	`autoScalingPolicy`
初始化操作	`initActions`
集群属性	`clusterProperties`
标签	`clusterLabels`
空闲时间上限	`idleTTL`
跳过集群删除	`skipDelete`
启用 Stackdriver Logging 集成	`stackdriverLoggingEnabled`
启用 Stackdriver Monitoring 集成	`stackdriverMonitoringEnabled`
启用组件网关	`componentGatewayEnabled`
优先使用外部 IP	`preferExternalIP`
创建投票延迟	`pollCreateDelay`
创建轮询抖动	`pollCreateJitter`
删除投票延迟	`pollDeleteDelay`
轮询间隔	`pollInterval`

最佳做法

为流水线创建静态集群时，请参阅集群配置最佳实践。

后续步骤

详细了解如何管理计算配置文件。