借助 Dataproc Hub,您可以利用 AI Platform Notebooks 和 Dataproc 通过 Jupyter 笔记本以及 Hadoop 和 Spark 生态系统大规模运行交互式机器学习和数据处理任务。
Dataproc Hub 利用 JupyterHub 执行以下操作:
- 通过让管理员为不同数据群组和机器学习用户创建精心整理的笔记本模板,确保整个组织保持一致。
- 为数据和机器学习用户提供符合其软硬件要求的预配置环境,从而加快笔记本创建速度。
Dataproc Hub 为管理员和用户提供了单独的界面:
- 管理员可以使用 Google Cloud Console 中的 Dataproc→Workbench→User-Managed Notebooks 页面来创建 Dataproc Hub 实例。每个 hub 实例都包含一组预定义的笔记本环境,这些环境由 YAML 集群配置文件定义。
- 数据和机器学习用户使用 Google Cloud Console 中的 Notebooks→实例界面来选择预定义的笔记本环境,以便在其 Dataproc 集群上生成笔记本服务器。
- 没有控制台访问权限的用户可以使用管理员提供的 Dataproc Hub 实例网址,从网络浏览器访问 Dataproc Hub 实例以生成 Dataproc 集群。
Dataproc Hub 使用场景:
- 数据和机器学习用户会划分到具有共同软件和硬件要求的组中(可以将用户放置到多个组中)
- 受限的 Dataproc 控制台访问权限:用户无法在 Google Cloud Console 中访问 Dataproc
Dataproc Hub 功能:
- 预定义的用户环境
- 集群和笔记本隔离:一个群组的成员并不能获取轻松访问其他群组中成员的集群和笔记本的权限
了解详情
- 管理员:配置 Dataproc Hub
- 用户:使用 Dataproc Hub