Cloud Data Fusion 中的 Dataproc 预配程序会调用 Dataproc API 来创建和删除项目中的集群。 Google Cloud您可以在预配程序的设置中配置集群。
如需详细了解 Cloud Data Fusion 版本与 Dataproc 版本之间的兼容性,请参阅版本兼容性。
属性
属性 | 说明 |
---|---|
项目 ID | 创建 Dataproc 集群的 Google Cloud 项目。项目必须启用 Dataproc API。 |
创建者服务账号密钥 | 向预配程序提供的服务账号密钥必须有权访问 Dataproc 和 Compute Engine API。由于您的账号密钥非常敏感,因此我们建议您使用安全存储提供账号密钥。 创建安全密钥后,您可以将其添加到命名空间或系统计算配置文件中。对于命名空间计算配置文件,请点击 盾牌,然后选择安全密钥。对于系统计算配置文件,请在 Secure Account Key 字段中输入密钥的名称。 |
区域 | 您可以托管资源(例如 Dataproc 集群的计算节点)的地理位置。 |
可用区 | 区域内的一个独立部署区域。 |
网络 | Google Cloud 项目中将在创建 Dataproc 集群时使用的 VPC 网络。 |
网络宿主项目 ID | 如果网络位于另一个 Google Cloud 项目中,请输入该项目的 ID。对于共享 VPC,请输入网络所在的宿主项目 ID。 |
子网 | 创建集群时要使用的子网。它必须位于给定网络中,并且位于可用区所在的区域中。如果留空,系统会根据网络和可用区选择子网。 |
Runner 服务账号 | 用于运行程序的 Dataproc 虚拟机 (VM) 的服务账号名称。如果留空,则使用默认的 Compute Engine 服务账号。 |
主副本数量 | 集群中的主节点数量。这些节点包含 YARN 资源管理器、HDFS NameNode 和所有驱动程序。必须设置为 1 或 3。 默认值为 1。 |
主机器类型 | 要使用的主机类型。选择以下机器类型之一:
在 Cloud Data Fusion 6.7.2 及更高版本中,默认值为 e2。 在版本 6.7.1 中,默认值为 n2。 在 6.7.0 及更低版本中,默认值为 n1。 |
主核心 | 分配给主节点的虚拟核心数。 默认值为 2。 |
主内存 (GB) | 分配给主节点的内存量(以 GB 为单位)。 默认值为 8 GB。 |
主磁盘大小 (GB) | 分配给主节点的磁盘大小(以 GB 为单位)。 默认值为 1000 GB。 |
主磁盘类型 | 主节点的启动磁盘类型:
默认值为标准永久性磁盘。 |
工作器机器类型 | 要使用的工作器机器类型。选择以下机器类型之一:
在 Cloud Data Fusion 6.7.2 及更高版本中,默认值为 e2。 在版本 6.7.1 中,默认值为 n2。 在 6.7.0 及更低版本中,默认值为 n1。 |
工作器核心 | 分配给工作器节点的虚拟核心数。 默认值为 2。 |
工作器内存 (GB) | 分配给工作器节点的内存量(以 GB 为单位)。 默认值为 8 GB。 |
工作器磁盘大小 (GB) | 分配给工作器节点的磁盘大小(以 GB 为单位)。 默认值为 1000 GB。 |
工作器磁盘类型 | 工作器节点的启动磁盘类型:
默认值为标准永久性磁盘。 |
使用预定义的自动扩缩 | 启用预定义的 Dataproc 自动扩缩。 |
主要工作器数量 | 工作器节点包含一个 YARN NodeManager 和一个 HDFS DataNode。 默认值为 2。 |
辅助工作器数量 | 辅助工作器节点包含 YARN NodeManager,但不包含 HDFS DataNode。此值通常设为 0,除非自动扩缩政策要求将其设为更高值。 |
自动扩缩政策 | 自动扩缩政策 ID 或资源 URI 的路径。 如需了解如何配置和使用 Dataproc 自动扩缩功能来根据工作负载需求自动调整和动态调整集群大小,请参阅何时使用自动扩缩和自动扩缩 Dataproc 集群。 |
元数据 | 集群中运行的实例的其他元数据。通常,您可以使用此维度来跟踪结算和退款。如需了解详情,请参阅集群元数据。 |
网络标记 | 分配网络标记,以将防火墙规则应用于集群的特定节点。影音平台代码必须以小写字母开头,可以包含小写字母、数字和连字符。标记必须以小写字母或数字结尾。 |
启用安全启动 | 在 Dataproc 虚拟机上启用安全启动。 默认值为 False。 |
启用 vTPM | 在 Dataproc 虚拟机上启用虚拟可信平台模块 (vTPM)。 默认值为 False。 |
启用完整性监控 | 在 Dataproc 虚拟机上启用虚拟完整性监控。 默认值为 False。 |
映像版本 | Dataproc 映像版本。如果留空,系统会自动选择一个。如果自定义图片 URI 属性留空,系统会忽略此属性。 |
自定义映像 URI | Dataproc 映像 URI。如果留空,系统会根据图片版本属性推断出此值。 |
暂存存储分区 | Cloud Storage 存储分区,用于暂存作业依赖项和配置文件,以便在 Dataproc 中运行流水线。 |
临时存储分区 | 用于存储临时集群和作业数据(例如 Dataproc 中的 Spark 历史记录文件)的 Cloud Storage 存储分区。 此属性在 Cloud Data Fusion 版本 6.9.2 中引入。 |
加密密钥名称 | Dataproc 使用的客户管理的加密密钥 (CMEK)。 |
OAuth 范围 | 您可能需要请求的 OAuth 2.0 范围,以便访问 Google API,具体取决于您需要的访问权限级别。 Google Cloud 平台范围始终包含在内。 此属性在 Cloud Data Fusion 版本 6.9.2 中引入。 |
初始化操作 | 在集群初始化期间要执行的脚本列表。 初始化操作应放置在 Cloud Storage 中。 |
集群属性 | 替换 Hadoop 服务的默认配置属性的集群属性。如需详细了解适用的键值对,请参阅集群属性。 |
常见标签 | 用于整理要创建的 Dataproc 集群和作业的标签。 您可以为每项资源添加标签,然后按标签过滤资源。 标签的相关信息会传递到结算系统,因此客户可以根据标签细分结算费用。 |
空闲时间上限 | 将 Dataproc 配置为在集群空闲时长超过指定分钟数时删除该集群。集群通常会在运行结束后立即删除,但在极少数情况下,删除可能会失败。如需了解详情,请参阅排查删除集群时出现的问题。 默认值为 30 分钟。 |
跳过集群删除 | 是否在运行结束时跳过集群删除。您必须手动删除集群。仅应在调试失败的运行时使用此参数。 默认值为 False。 |
启用 Stackdriver Logging 集成 | 启用 Stackdriver Logging 集成。 默认值为 True。 |
启用 Stackdriver Monitoring 集成 | 启用 Stackdriver Monitoring 集成。 默认值为 True。 |
启用组件网关 | 启用组件网关以访问集群的接口,例如 YARN ResourceManager 和 Spark HistoryServer。 默认值为 False。 |
优先使用外部 IP | 当系统在与集群位于同一网络中的 Google Cloud 上运行时,它通常会使用内部 IP 地址与集群进行通信。如需始终使用外部 IP 地址,请将此值设为 True。 默认值为 False。 |
创建投票延迟 | 创建集群后开始轮询以查看集群是否已创建所需等待的秒数。 默认值为 60 秒。 轮询设置用于控制在创建和删除集群时轮询集群状态的频率。如果您有多个流水线安排在同一时间运行,则可能需要更改这些设置。 |
创建轮询抖动 | 在创建集群时要添加到延迟时间中的最大随机抖动量(以秒为单位)。如果您有许多流水线安排在完全相同的时间运行,则可以使用此属性来防止 Google Cloud 中出现许多同时进行的 API 调用。 默认值为 20 秒。 |
删除投票延迟 | 删除集群后开始轮询以查看集群是否已删除所需等待的秒数。 默认值为 30 秒。 |
轮询间隔 | 轮询集群状态之间等待的秒数。 默认值为 2。 |
映射到 JSON 属性的 Dataproc 配置文件 Web 界面属性
Dataproc 配置文件界面属性名称 | Dataproc 配置文件 JSON 属性名称 |
---|---|
配置文件标签 | name |
个人资料名称 | label |
说明 | description |
项目 ID | projectId |
创建者服务账号密钥 | accountKey |
区域 | region |
可用区 | zone |
网络 | network |
网络宿主项目 ID | networkHostProjectId |
子网 | subnet |
Runner 服务账号 | serviceAccount |
主副本数量 | masterNumNodes |
主机器类型 | masterMachineType |
主核心 | masterCPUs |
主内存 (GB) | masterMemoryMB |
主磁盘大小 (GB) | masterDiskGB |
主磁盘类型 | masterDiskType |
主要工作器数量 | workerNumNodes |
辅助工作器数量 | secondaryWorkerNumNodes |
工作器机器类型 | workerMachineType |
工作器核心 | workerCPUs |
工作器内存 (GB) | workerMemoryMB |
工作器磁盘大小 (GB) | workerDiskGB |
工作器磁盘类型 | workerDiskType |
元数据 | clusterMetaData |
网络标记 | networkTags |
启用安全启动 | secureBootEnabled |
启用 vTPM | vTpmEnabled |
启用完整性监控 | integrityMonitoringEnabled |
映像版本 | imageVersion |
自定义映像 URI | customImageUri |
Cloud Storage 存储分区 | gcsBucket |
加密密钥名称 | encryptionKeyName |
自动扩缩政策 | autoScalingPolicy |
初始化操作 | initActions |
集群属性 | clusterProperties |
标签 | clusterLabels |
空闲时间上限 | idleTTL |
跳过集群删除 | skipDelete |
启用 Stackdriver Logging 集成 | stackdriverLoggingEnabled |
启用 Stackdriver Monitoring 集成 | stackdriverMonitoringEnabled |
启用组件网关 | componentGatewayEnabled |
优先使用外部 IP | preferExternalIP |
创建投票延迟 | pollCreateDelay |
创建轮询抖动 | pollCreateJitter |
删除投票延迟 | pollDeleteDelay |
轮询间隔 | pollInterval |
最佳做法
为流水线创建静态集群时,请参阅集群配置最佳实践。
后续步骤
- 详细了解如何管理计算配置文件。