使用模板提交 Spark 作业

本页面介绍如何使用 Google API Explorer 模板在现有 Dataproc 集群上运行简单的 Spark 作业。

如需了解将作业提交到 Dataproc 集群的其他方法，请参阅：

准备工作

您必须先创建一个用于运行作业的集群（包含一个或多个虚拟机），然后才能运行 Dataproc 作业。您可以使用 APIs Explorer、Google Cloud 控制台、gcloud CLI gcloud 命令行工具或快速入门：使用 Cloud 客户端库创建集群。

如需提交一个计算 pi 的粗略值的示例 Apache Spark 作业，请填写并执行 Google APIs Explorer 试用此 API 模板：

请求参数：
1. 插入您的 projectId。
2. 指定您的集群所在的区域（确认或替换“us-central1”）。您的集群的区域列在Google Cloud 控制台的 Dataproc 集群页面上。
请求正文：
1. job.placement.clusterName：将运行作业的集群的名称（确认或替换“example-cluster”）。
2. job.sparkJob.args：“1000”，作业任务的数量。
3. job.sparkJob.jarFileUris：“file:///usr/lib/spark/examples/jars/spark-examples.jar”。这是 Dataproc 集群主节点上的本地文件路径，包含 Spark Scala 作业代码的 jar 安装在此处。
4. job.sparkJob.mainClass：“org.apache.spark.examples.SparkPi”。这是作业的 pi 计算 Scala 应用的主要方法。
点击执行。首次运行 API 模板时，系统可能会要求您选择并登录您的 Google 账号，然后授权 Google API Explorer 访问您的账号。如果请求成功，JSON 响应会显示作业提交请求处于待处理状态。
如需查看作业输出，请打开 Google Cloud 控制台中的 Dataproc 作业页面，然后点击顶部（最新）的作业 ID。点击“换行：开”以将超出右边距的内容显示在视图中。
```
...
Pi is roughly 3.141804711418047
...
```

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用，请按照以下步骤操作。

如果您不需要使用集群来探索其他快速入门或运行其他作业，请使用 APIs Explorer、Google Cloud 控制台、gcloud CLI gcloud 命令行工具或 Cloud 客户端库删除集群。