目标
本教程介绍了如何安装 Dataproc Jupyter 组件 然后连接到新集群上运行的 Jupyter 笔记本界面, 从本地浏览器访问集群 组件网关。
费用
在本文档中,您将使用 Google Cloud 的以下收费组件:
准备工作
如果您尚未创建 Google Cloud 项目和 Cloud Storage 存储桶。
设置项目
- 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
启用 Dataproc, Compute Engine, and Cloud Storage API。
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
启用 Dataproc, Compute Engine, and Cloud Storage API。
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
在您的项目中创建 Cloud Storage 存储分区,以存储您在本教程中创建的任何笔记本。
- 在 Google Cloud 控制台中,进入 Cloud Storage 存储桶页面。
- 点击创建存储分区。
- 在创建存储分区页面上,输入您的存储分区信息。要转到下一步,请点击继续。
- 点击创建。 您的笔记本将存储在 Cloud Storage 中的
gs://bucket-name/notebooks/jupyter
下。
创建集群并安装 Jupyter 组件
打开 Jupyter 和 JupyterLab 界面
点击 Google Cloud 控制台组件网关链接 打开 Jupyter 笔记本 或 JupyterLab 界面。
Jupyter 实例显示的顶级目录是一个虚拟目录,可让您查看 Cloud Storage 存储分区或本地文件系统的内容。您可以通过点击集群中 Cloud Storage 的 GCS 链接或集群中主节点的本地文件系统的本地磁盘来选择位置。
- 点击 GCS 链接。Jupyter 笔记本网页界面会显示存储在 Cloud Storage 存储分区中的笔记本,包括您在本教程中创建的所有笔记本。
清除数据
完成本教程后,您可以清理您创建的资源,让它们停止使用配额,以免产生费用。以下部分介绍如何删除或关闭这些资源。
删除项目
为了避免产生费用,最简单的方法是删除您为本教程创建的项目。
要删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,进入管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。
删除集群
- 如需删除您的集群,请执行以下操作:
gcloud dataproc clusters delete cluster-name \ --region=${REGION}
删除存储分区
- 要删除您在 Cloud Storage 中创建的 Cloud Storage 存储桶,请执行以下操作:
准备工作,第 2 步,包括笔记本
存储在存储桶中:
gcloud storage rm gs://${BUCKET_NAME} --recursive