Dataproc Hub 概览

借助 Dataproc Hub 服务,您可以利用 AI Platform Notebooks 和 Dataproc,通过 Jupyter 笔记本以及 Hadoop 和 Spark 生态系统大规模运行交互式机器学习和数据处理任务。

  • Dataproc Hub 利用 JupyterHub 实现以下目标:

    • 通过让管理员为不同数据群组和机器学习用户创建精心整理的笔记本模板,确保整个组织保持一致。
    • 为数据和机器学习用户提供符合其软硬件要求的预配置环境,从而加快笔记本创建速度。
  • Dataproc Hub 为管理员和用户提供了单独的界面:

    • 管理员使用 Cloud Console 中的 Notebooks→Dataproc Hub 界面创建 Dataproc Hub 实例。每个中心实例都包含一组预定义的笔记本环境(由 YAML 集群配置文件定义)。
    • 数据和机器学习用户使用 Cloud Console 中的“Notebooks→实例界面”来选择预定义的笔记本环境,以便在其 Dataproc 集群上生成笔记本服务器。
      • 没有控制台访问权限的用户可以使用管理员提供的 Dataproc Hub 实例网址,通过他们的网络浏览器转到 Dataproc Hub 实例以生成 Dataproc 集群。
  • Dataproc Hub 使用场景:

    • 数据和机器学习用户会划分到具有共同软件和硬件要求的组中(可以将用户放置到多个组中)
    • 受限 Dataproc 控制台访问权限:用户无权在 Cloud Console 中访问 Dataproc
  • Dataproc Hub 功能:

    • 预定义用户环境
    • 集群和笔记本隔离:一个群组的成员并不能获取轻松访问其他群组中成员的集群和笔记本的权限

了解详情