使用 Dataproc 中心


目标

  1. 使用 Dataproc Hub 创建在 Dataproc 集群上运行的单用户 JupyterLab 笔记本环境。

  2. 在 Dataproc 集群上创建笔记本并运行 Spark 作业。

  3. 删除集群并在 Cloud Storage 中保留您的笔记本。

准备工作

  1. 管理员必须授予您 notebooks.instances.use 权限(请参阅设置 Identity and Access Management (IAM) 角色)。

从 Dataproc 中心创建 Dataproc JupyterLab 集群

  1. 在 Google Cloud 控制台的 Dataproc→Workbench 页面上选择用户管理的笔记本标签页。

  2. 在管理员创建的 Dataproc Hub 实例所在行中,点击打开 JupyterLab

    1. 如果您无权访问 Google Cloud 控制台,请输入管理员在网络浏览器中与您共享的 Dataproc Hub 实例网址。
  3. Jupyterhub→Dataproc 选项页面上,选择集群配置和可用区。如果启用,请指定任何自定义设置,然后点击创建

    创建 Dataproc 集群后,系统会将您重定向到该集群上运行的 JupyterLab 接口。

创建笔记本并运行 Spark 作业

  1. 在 JupyterLab 界面的左侧面板中,点击 GCS (Cloud Storage)。

  2. 通过 JupyterLab 启动器创建 PySpark 笔记本。

  3. PySpark 内核会初始化 SparkContext(使用 sc 变量)。您可以从笔记本中检查 SparkContext 并运行 Spark 作业。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. 为笔记本命名并保存。在删除 Dataproc 集群后,笔记本将保存并保留在 Cloud Storage 中。

关停 Dataproc 集群

  1. 在 JupyterLab 界面中,选择文件→中心控制台以打开 Jupyterhub 页面。

  2. 点击停止我的集群以关闭(删除)JupyterLab 服务器,这会删除 Dataproc 集群。

后续步骤