使用模板提交 Spark 作业
本页面介绍如何使用 Google API Explorer 模板在现有 Dataproc 集群上运行简单的 Spark 作业。
如需了解将作业提交到 Dataproc 集群的其他方法,请参阅:
准备工作
您必须先创建一个用于运行作业的集群(包含一个或多个虚拟机),然后才能运行 Dataproc 作业。您可以使用 API Explorer、Google Cloud 控制台、gcloud CLI gcloud 命令行工具或快速入门:使用 Cloud 客户端库创建集群。提交作业
如需提交一个计算 pi 的粗略值的示例 Apache Spark 作业,请填写并执行 Google APIs Explorer 试用此 API 模板。
请求参数:
请求正文:
- job.placement.clusterName:将运行作业的集群的名称(确认或替换“example-cluster”)。
- job.sparkJob.args:“1000”,作业任务的数量。
- job.sparkJob.jarFileUris:“file:///usr/lib/spark/examples/jars/spark-examples.jar”。这是 Dataproc 集群主节点上的本地文件路径,包含 Spark Scala 作业代码的 jar 安装在此处。
- job.sparkJob.mainClass:“org.apache.spark.examples.SparkPi”。这是作业的 pi 计算 Scala 应用的主要方法。
点击执行。首次运行 API 模板时,系统可能会要求您选择并登录您的 Google 账号,然后授权 Google API Explorer 访问您的账号。如果请求成功,JSON 响应会显示作业提交请求处于待处理状态。
如需查看作业输出,请在 Google Cloud 控制台中打开 Dataproc 作业页面,然后点击顶部(最新)的作业 ID。点击“换行:开”以将超出右边距的内容显示在视图中。
... Pi is roughly 3.141804711418047 ...
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 如果您不需要使用集群来探索其他快速入门或运行其他作业,请使用 API Explorer、Google Cloud 控制台、gcloud CLI gcloud 命令行工具或 Cloud 客户端库删除集群。
后续步骤
- 了解如何使用模板更新 Dataproc 集群。