使用 Dataproc 中心

使用 Dataproc 中心在单用户 Dataproc 集群上打开 JupyterLab 界面。

目标

  1. 使用 Dataproc 中心创建在单用户 Dataproc 集群上运行的 JupyterLab 笔记本环境。

  2. 在 Dataproc 集群上创建笔记本并运行 Spark 作业。

  3. 删除集群并在 Cloud Storage 中保留您的笔记本。

准备工作

  1. 管理员必须为您授予 notebooks.instances.use 权限(请参阅设置 Identity and Access Management (IAM) 角色)。

在 Dataproc 集群上打开 JupyterLab 笔记本界面

  1. 打开 Dataproc Hub 界面:

    1. 如果您有权访问 Cloud Console,请在 Cloud Console 的 Dataproc→Notebooks 实例页面上,点击列有管理员所创建的 Dataproc Hub 实例的行中的“打开 JUPYTERLAB”。
    2. 如果您无权访问 Cloud Console,请在网络浏览器中输入管理员与您分享的 Dataproc Hub 实例网址。
  2. Jupyterhub 页面上,选择集群配置和地区。启用后,请指定任意自定义项,然后点击“开始”。

    集群创建过程需要几分钟时间才能完成。创建集群后,您将被重定向到在 Dataproc 集群上运行的 JupyterLab 界面。

创建笔记本并运行 Spark 作业

  1. 在 JupyterLab 界面的左面板上,点击 GCSlocal

  2. 创建一个 PySpark 笔记本。

  3. PySpark 内核会初始化 SparkContext(使用 sc 变量)。您可以从笔记本中检查 SparkContext 并运行 Spark 作业。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. 为笔记本命名并保存。在删除 Dataproc 集群后,笔记本将保存并保留在 Cloud Storage 中。

关停 Dataproc 集群

  1. 从 JupyterLab 界面中,选择“文件→Hub 控制台”以打开 Dataproc Hub 界面。

  2. 点击停止我的集群以关停(删除)Jupyter 服务器,这会删除 Dataproc 集群。

后续步骤