Cloud Data Fusion 中的 Dataproc 预配工具会调用 Dataproc API,以在您的 Google Cloud 项目中创建和删除集群。您可以在预配工具的设置中配置集群。
如需详细了解 Cloud Data Fusion 版本与 Dataproc 版本之间的兼容性,请参阅版本兼容性。
属性
属性 | 说明 |
---|---|
项目 ID | 创建 Dataproc 集群的 Google Cloud 项目。项目必须启用 Dataproc API。 |
创建者服务帐号密钥 | 提供给预配工具的服务帐号密钥必须有权访问 Dataproc 和 Compute Engine API。由于您的账号密钥属于敏感信息,我们建议您使用安全存储服务提供账号密钥。 创建安全密钥后,您可以将其添加到命名空间或系统计算配置文件中。对于命名空间计算配置文件,点击 盾牌,然后选择安全密钥。对于系统计算配置文件,请在保护账号密钥字段中输入密钥的名称。 |
区域 (Region) | 您可以在其中托管资源(例如 Dataproc 集群的计算节点)的地理位置。 |
可用区 | 区域内的独立部署区域。 |
网络 | 创建 Dataproc 集群时将使用的 Google Cloud 项目中的 VPC 网络。 |
网络宿主项目 ID | 如果网络位于其他 Google Cloud 项目中,请输入该项目的 ID。对于共享 VPC,请输入网络所在的宿主项目 ID。 |
子网 | 创建集群时要使用的子网。它必须位于给定网络中,并且位于该区域所在的区域内。如果留空,则系统会根据网络和可用区选择子网。 |
Runner 服务帐号 | 用于运行程序的 Dataproc 虚拟机 (VM) 的服务帐号名称。如果留空,则使用默认的 Compute Engine 服务帐号。 |
母版数量 | 集群中的主节点数量。这些节点包含 YARN Resource Manager、HDFS NameNode 和所有驱动程序。必须设置为 1 或 3。 默认值为 1。 |
主机器类型 | 要使用的主机器类型的类型。请选择以下机器类型之一:
在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2。 在版本 6.7.1 中,默认值为 n2。 在版本 6.7.0 及更低版本中,默认值为 n1。 |
主核心 | 分配给主节点的虚拟核心数。 默认值为 2。 |
主内存 (GB) | 分配给主节点的内存量(以 GB 为单位)。 默认值为 8 GB。 |
主磁盘大小 (GB) | 分配给主节点的磁盘大小(以 GB 为单位)。 默认值为 1000 GB。 |
主磁盘类型 | 主节点的启动磁盘类型:
默认值为标准永久性磁盘。 |
工作器机器类型 | 要使用的工作器机器类型。请选择以下机器类型之一:
在 Cloud Data Fusion 6.7.2 版及更高版本中,默认值为 e2。 在版本 6.7.1 中,默认值为 n2。 在版本 6.7.0 及更低版本中,默认值为 n1。 |
工作器核心 | 分配给工作器节点的虚拟核心数。 默认值为 2。 |
工作器内存 (GB) | 分配给工作器节点的内存量(以 GB 为单位)。 默认值为 8 GB。 |
工作器磁盘大小 (GB) | 分配给工作器节点的磁盘大小(以 GB 为单位)。 默认值为 1000 GB。 |
工作器磁盘类型 | 工作器节点的启动磁盘类型:
默认值为标准永久性磁盘。 |
使用预定义的自动扩缩功能 | 启用预定义的 Dataproc 自动扩缩。 |
主要工作器的数量 | 工作器节点包含一个 YARN NodeManager 和一个 HDFS DataNode。 默认值为 2。 |
辅助工作器的数量 | 辅助工作器节点包含 YARN NodeManager,但不包含 HDFS DataNode。此值通常设置为 0,除非自动扩缩政策要求高于此值。 |
自动扩缩政策 | 自动扩缩政策 ID 或资源 URI 的路径。 如需了解如何配置和使用 Dataproc 自动扩缩功能来自动动态调整集群大小以满足工作负载需求,请参阅何时使用自动扩缩功能和自动扩缩 Dataproc 集群。 |
元数据 | 集群中运行的实例的其他元数据。您通常可以使用它来跟踪结算和退款。如需了解详情,请参阅集群元数据。 |
网络标记 | 分配网络标记以将防火墙规则应用于集群的特定节点。网络标记必须以小写字母开头,可以包含小写字母、数字和连字符,标记必须以小写字母或数字结尾。 |
启用安全启动 | 在 Dataproc 虚拟机上启用安全启动。 默认值为 False。 |
启用 vTPM | 在 Dataproc 虚拟机上启用虚拟可信平台模块 (vTPM)。 默认值为 False。 |
启用完整性监控 | 在 Dataproc 虚拟机上启用虚拟完整性监控。 默认值为 False。 |
映像版本 | Dataproc 映像版本。如果留空,系统会自动选择一个。如果将自定义映像 URI 属性留空,则系统会忽略此属性。 |
自定义映像 URI | Dataproc 映像 URI。如果留空,则系统会根据映像版本属性推断该值。 |
预演存储桶 | Cloud Storage 存储桶,用于暂存作业依赖项和配置文件,以便在 Dataproc 中运行流水线。 |
临时存储桶 | 用于存储临时集群和作业数据(例如 Dataproc 中的 Spark 历史记录文件)的 Cloud Storage 存储桶。 此属性是在 Cloud Data Fusion 6.9.2 版中引入的。 |
加密密钥名称 | Dataproc 使用的客户管理的加密密钥 (CMEK)。 |
OAuth 范围 | 访问 Google API 时可能需要请求的 OAuth 2.0 范围,具体取决于您所需的访问权限级别。Google Cloud Platform 范围始终包含在内。 此属性是在 Cloud Data Fusion 6.9.2 版中引入的。 |
初始化操作 | 要在集群初始化期间执行的脚本列表。初始化操作应放在 Cloud Storage 上。 |
集群属性 | 替换 Hadoop 服务的默认配置属性的集群属性。如需详细了解适用的键值对,请参阅集群属性。 |
常用标签 | 用于整理创建的 Dataproc 集群和作业的标签。 您可以为每项资源添加标签,然后按标签过滤资源。 有关标签的信息会转发到结算系统,以便客户可以按标签细分结算费用。 |
空闲时间上限 | 将 Dataproc 配置为在集群的空闲时间超过指定的分钟数时将其删除。运行结束后,通常会直接删除集群,但在极少数情况下,删除可能会失败。如需了解详情,请参阅排查删除集群时遇到的问题。 默认值为 30 分钟。 |
跳过集群删除 | 是否在运行结束时跳过集群删除。您必须手动删除集群。此方法仅应在调试失败的运行时使用。 默认值为 False。 |
启用 Stackdriver Logging 集成 | 启用 Stackdriver Logging 集成。 默认值为 True。 |
启用 Stackdriver Monitoring 集成 | 启用 Stackdriver Monitoring 集成。 默认值为 True。 |
启用组件网关 | 启用组件网关以访问集群的接口,例如 YARN ResourceManager 和 Spark HistoryServer。 默认值为 False。 |
首选外部 IP | 当系统在与集群位于同一网络的 Google Cloud 上运行时,它在与集群通信时通常使用内部 IP 地址。如需始终使用外部 IP 地址,请将此值设置为 True。 默认值为 False。 |
创建投票活动延迟时间 | 在创建集群后开始轮询以查看该集群是否已创建所需等待的秒数。 默认值为 60 秒。 轮询设置用于控制在创建和删除集群时轮询集群状态的频率。如果您安排多个流水线同时运行,则可能需要更改这些设置。 |
创建投票活动 | 创建集群时要在延迟时间增加的随机抖动量上限(以秒为单位)。如果您有许多流水线计划在同一时间运行,则可以使用此属性来防止 Google Cloud 中同时调用多个 API。 默认值为 20 秒。 |
删除投票活动延迟时间 | 删除集群后,在开始轮询以查看集群是否已被删除时等待的秒数。 默认值为 30 秒。 |
轮询间隔 | 两次轮询集群状态之间需等待的秒数。 默认值为 2。 |
映射到 JSON 属性的 Dataproc 配置文件网页界面属性
Dataproc 配置文件界面属性名称 | Dataproc 配置文件 JSON 属性名称 |
---|---|
个人资料标签 | name |
个人资料名称 | label |
说明 | description |
项目 ID | projectId |
创建者服务帐号密钥 | accountKey |
区域 (Region) | region |
可用区 | zone |
网络 | network |
网络宿主项目 ID | networkHostProjectId |
子网 | subnet |
Runner 服务帐号 | serviceAccount |
母版数量 | masterNumNodes |
主机器类型 | masterMachineType |
主核心 | masterCPUs |
主内存 (GB) | masterMemoryMB |
主磁盘大小 (GB) | masterDiskGB |
主磁盘类型 | masterDiskType |
主要工作器的数量 | workerNumNodes |
辅助工作器的数量 | secondaryWorkerNumNodes |
工作器机器类型 | workerMachineType |
工作器核心 | workerCPUs |
工作器内存 (GB) | workerMemoryMB |
工作器磁盘大小 (GB) | workerDiskGB |
工作器磁盘类型 | workerDiskType |
元数据 | clusterMetaData |
网络标记 | networkTags |
启用安全启动 | secureBootEnabled |
启用 vTPM | vTpmEnabled |
启用完整性监控 | integrityMonitoringEnabled |
映像版本 | imageVersion |
自定义映像 URI | customImageUri |
Cloud Storage 存储桶 | gcsBucket |
加密密钥名称 | encryptionKeyName |
自动扩缩政策 | autoScalingPolicy |
初始化操作 | initActions |
集群属性 | clusterProperties |
标签 | clusterLabels |
空闲时间上限 | idleTTL |
跳过集群删除 | skipDelete |
启用 Stackdriver Logging 集成 | stackdriverLoggingEnabled |
启用 Stackdriver Monitoring 集成 | stackdriverMonitoringEnabled |
启用组件网关 | componentGatewayEnabled |
首选外部 IP | preferExternalIP |
创建投票活动延迟时间 | pollCreateDelay |
创建投票活动 | pollCreateJitter |
删除投票活动延迟时间 | pollDeleteDelay |
轮询间隔 | pollInterval |
最佳做法
为流水线创建静态集群时,请参阅集群配置最佳实践。
后续步骤
- 详细了解如何管理计算配置文件。