借助 Dataproc Hub,您可以利用 Vertex AI Workbench 和 Dataproc,使用 Jupyter 笔记本以及 Hadoop 和 Spark 生态系统大规模运行交互式机器学习和数据处理任务。
Dataproc Hub 笔记本是由管理员精选的单用户笔记本,在用户项目中创建并运行的 Dataproc JupyterLab 集群上运行。
Dataproc Hub 利用 JupyterHub 执行以下操作:
- 通过让管理员为不同数据群组和机器学习用户创建精心整理的笔记本模板,确保整个组织保持一致。
- 为数据和机器学习用户提供符合其软硬件要求的预配置环境,从而加快笔记本创建速度。
Dataproc Hub 为管理员和用户提供了单独的界面:
- 管理员可使用 Google Cloud 控制台中的 Dataproc→Workbench→用户管理的笔记本页面创建 Dataproc Hub 实例。每个 Hub 实例都包含一组由 YAML 集群配置文件定义的预定义的笔记本环境。
- 数据和机器学习用户使用 Google Cloud 控制台中的 Notebooks→“实例”界面选择预定义的笔记本环境,以便在其 Dataproc 集群上生成笔记本服务器。
- 没有控制台访问权限的用户可以使用管理员提供的 Dataproc Hub 实例网址访问 Dataproc Hub 实例,以从其网络浏览器生成 Dataproc 集群。
Dataproc Hub 使用场景:
- 数据和机器学习用户会划分到具有共同软件和硬件要求的组中(可以将用户放置到多个组中)
- 受限的 Dataproc 控制台访问权限:用户无权访问 Google Cloud 控制台中的 Dataproc
Dataproc Hub 功能:
- 预定义的用户环境
- 集群和笔记本隔离:一个群组的成员并不能获取轻松访问其他群组中成员的集群和笔记本的权限
了解详情
- 管理员:配置 Dataproc 中心
- 用户:使用 Dataproc 中心