Dataproc 可选 Anaconda 组件

使用可选组件功能创建 Dataproc 集群时,您可以安装其他组件,例如 Anaconda。本页面介绍了 Anaconda 组件。

Anaconda 组件是一个 Python 发行版和软件包管理器,包含 1000 多种常用的数据科学软件包。Anaconda 安装在所有集群节点的 /opt/conda/anaconda 下,并作为默认的 Python 解释器。 如需了解其他安装信息,请参阅配置 Dataproc Python 环境

安装组件

在创建 Dataproc 集群时安装组件。 如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud 命令

如需创建包含 Anaconda 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Anaconda 组件指定为 clusters.create 请求的一部分。

控制台

  1. 启用组件。
    • 在 Google Cloud 控制台中,打开 Dataproc 的创建集群页面。选中“设置集群”面板。
    • 在组件部分中执行以下操作:
      • 在可选组件下,选择 Anaconda 和其他可选组件安装在集群上。