Dataproc 可选的 Anaconda 组件

使用可选组件功能创建 Dataproc 集群时,您可以安装 Anaconda 等其他组件。本页面介绍了 Anaconda 组件。

Anaconda 组件是一个 Python 发行版和软件包管理器,包含 1000 多种常用的数据科学软件包。如需了解其他安装信息,请参阅配置 Dataproc Python 环境

安装组件

在创建 Dataproc 集群时安装组件。 如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud 命令

如需创建包含 Anaconda 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Anaconda 组件指定为 clusters.create 请求的一部分。

控制台

  1. 启用组件。
    • 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
    • 在组件部分中执行以下操作:
      • 在可选组件下,选择 Anaconda 和其他可选组件安装在集群上。