使用 Dataproc 中心

使用 Dataproc 中心在单用户 Dataproc 集群上打开 JupyterLab 界面。

目标

  1. 使用 Dataproc 中心创建在单用户 Dataproc 集群上运行的 JupyterLab 笔记本环境。

  2. 在 Dataproc 集群上创建笔记本并运行 Spark 作业。

  3. 删除集群并在 Cloud Storage 中保留您的笔记本。

准备工作

  1. 您必须有权访问由管理员创建的 Dataproc 中心实例。 确保管理员已向您授予在中心虚拟机上运行的服务帐号roles/iam.serviceAccountUser 角色。

在 Dataproc 集群上打开 JupyterLab 笔记本界面

  1. 在 Cloud Console 的 Dataproc→笔记本实例页面上,点击列出管理员创建的 Dataproc 中心实例的行中的“打开 JUPYTERLAB”。

  2. Jupyterhub 页面上,选择集群配置和地区,指定任何自定义项,然后点击“开始”。

    创建集群后,您将被重定向到在 Dataproc 集群上运行的 JupyterLab 界面。

创建笔记本并运行 Spark 作业

  1. 从 JupyterLab 界面创建 PySpark 笔记本。

  2. PySpark 内核会初始化 SparkContext(使用 sc 变量)。您可以从笔记本中检查 SparkContext 并运行 Spark 作业。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  3. 为笔记本命名并保存。在删除 Dataproc 集群后,笔记本将保存并保留在 Cloud Storage 中。

删除 Dataproc 集群。

  1. 选择文件→中心控制面板以导航到 Dataproc 中心界面。

  2. 点击停止我的服务器以关闭 Dataproc 集群。

后续步骤