使用可选组件功能创建 Dataproc 集群时,您可以安装其他组件,例如 Anaconda。本页面介绍了 Anaconda 组件。
Anaconda 组件是一个 Python 发行版和软件包管理器,包含 1000 多种常用的数据科学软件包。Anaconda 安装在所有集群节点的 /opt/conda/anaconda
下,并作为默认的 Python 解释器。 如需了解其他安装信息,请参阅配置 Dataproc Python 环境。
安装组件
在创建 Dataproc 集群时安装组件。 如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本。
gcloud 命令
如需创建包含 Anaconda 组件的 Dataproc 集群,请使用带有 --optional-components
标志的 gcloud dataproc clusters create cluster-name 命令。
gcloud dataproc clusters create cluster-name \ --region=region \ --optional-components=ANACONDA \ ... other args
REST API
可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Anaconda 组件指定为 clusters.create 请求的一部分。控制台
- 启用组件。
- 在 Google Cloud 控制台中,打开 Dataproc 的创建集群页面。选中“设置集群”面板。
- 在组件部分中执行以下操作:
- 在可选组件下,选择 Anaconda 和其他可选组件安装在集群上。