本教程提供了一项 Cloud Shell 演示,该演示使用 Python 版 Google Cloud 客户端库以编程方式调用 Dataproc gRPC API 来创建集群并将作业提交到该集群。
以下部分介绍 GitHub GoogleCloudPlatform/python-dataproc 代码库中包含的演示代码操作。
运行 Cloud Shell 演示
点击在 Cloud Shell 中打开 (Open in Cloud Shell) 以运行演示。
了解代码
应用默认凭据
本教程中的 Cloud Shell 演示使用您的 Google Cloud 项目凭据提供身份验证。在本地运行代码时,推荐的做法是使用服务帐号凭据对代码进行身份验证。
创建 Dataproc 集群
创建集群时,需要设置以下值:
- 将在其中创建集群的项目
- 将创建集群的区域
- 集群的名称
- 集群配置,指定了 1 个主实例和 2 个主要工作器
默认集群设置适用于其余的集群设置。您可以替换默认集群配置设置。例如,您可以为集群添加辅助虚拟机(默认值 = 0),或指定非默认 VPC 网络。如需了解详情,请参阅 CreateCluster。
提交作业
以下值用于提交作业:
- 将在其中创建集群的项目
- 将创建集群的区域
- 作业配置,用于指定 PySpark 作业的集群名称和 Cloud Storage 文件路径 (URI)
如需了解详情,请参阅 SubmitJob。
删除集群
以下值被设置为删除集群:
- 将在其中创建集群的项目
- 将创建集群的区域
- 集群的名称
如需了解详情,请参阅 DeleteCluster。