借助 Dataproc Hub,您可以利用 Vertex AI Workbench 和 Dataproc,使用 Jupyter 笔记本以及 Hadoop 和 Spark 生态系统大规模运行交互式机器学习和数据处理任务。
Dataproc Hub 笔记本是由管理员管理的单用户笔记本,在用户项目中创建并运行的 Dataproc JupyterLab 集群上运行。
Dataproc Hub 利用 JupyterHub 来:
- 通过让管理员为不同数据群组和机器学习用户创建精心整理的笔记本模板,确保整个组织保持一致。
- 为数据和机器学习用户提供符合其软硬件要求的预配置环境,从而加快笔记本创建速度。
Dataproc Hub 为管理员和用户提供了单独的界面:
- 管理员使用 Google Cloud 控制台中的 Dataproc→Workbench→User-Managed Notebooks 页面创建 Dataproc Hub 实例。每个中心实例都包含一组预定义的笔记本环境(由 YAML 集群配置文件定义)。
- 数据和机器学习用户使用 Google Cloud 控制台中的“Notebooks→实例”界面来选择预定义的笔记本环境,以便在其 Dataproc 集群上生成笔记本服务器。
- 无权访问控制台的用户可以使用管理员提供的 Dataproc Hub 实例网址,通过网络浏览器访问 Dataproc Hub 实例以生成 Dataproc 集群。
Dataproc Hub 使用场景:
- 数据和机器学习用户会划分到具有共同软件和硬件要求的组中(可以将用户放置到多个组中)
- 受限 Dataproc 控制台访问权限:用户无权在 Google Cloud 控制台中访问 Dataproc
Dataproc Hub 功能:
- 预定义的用户环境
- 集群和笔记本隔离:一个群组的成员并不能获取轻松访问其他群组中成员的集群和笔记本的权限
了解详情
- 管理员:配置 Dataproc 中心
- 用户:使用 Dataproc Hub