使用 Dataproc 中心在单用户 Dataproc 集群上打开 JupyterLab 界面。
目标
使用 Dataproc 中心创建在单用户 Dataproc 集群上运行的 JupyterLab 笔记本环境。
在 Dataproc 集群上创建笔记本并运行 Spark 作业。
删除集群并在 Cloud Storage 中保留您的笔记本。
准备工作
- 管理员必须为您授予
notebooks.instances.use
权限(请参阅设置 Identity and Access Management (IAM) 角色)。
在 Dataproc 集群上打开 JupyterLab 笔记本界面
打开 Dataproc Hub 界面:
- 如果您有权访问 Cloud Console,请在 Cloud Console 的 Dataproc→Notebooks 实例页面上,点击列有管理员所创建的 Dataproc Hub 实例的行中的“打开 JUPYTERLAB”。
- 如果您无权访问 Cloud Console,请在网络浏览器中输入管理员与您分享的 Dataproc Hub 实例网址。
- 如果您有权访问 Cloud Console,请在 Cloud Console 的 Dataproc→Notebooks 实例页面上,点击列有管理员所创建的 Dataproc Hub 实例的行中的“打开 JUPYTERLAB”。
在 Jupyterhub 页面上,选择集群配置和地区。启用后,请指定任意自定义项,然后点击“开始”。
集群创建过程需要几分钟时间才能完成。创建集群后,您将被重定向到在 Dataproc 集群上运行的 JupyterLab 界面。
创建笔记本并运行 Spark 作业
在 JupyterLab 界面的左面板上,点击
GCS
或local
。创建一个 PySpark 笔记本。
PySpark 内核会初始化 SparkContext(使用
sc
变量)。您可以从笔记本中检查 SparkContext 并运行 Spark 作业。rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem']) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a + b)) print(rdd.collect())
为笔记本命名并保存。在删除 Dataproc 集群后,笔记本将保存并保留在 Cloud Storage 中。
关停 Dataproc 集群
从 JupyterLab 界面中,选择“文件→Hub 控制台”以打开 Dataproc Hub 界面。
点击停止我的服务器以关停(删除)Jupyter 服务器,这会删除 Dataproc 集群。
后续步骤
- 在 GitHub 上探索 Spark 和 Jupyter 笔记本。