使用模板提交 Spark 作业

本页面介绍如何使用 Google API Explorer 模板在现有 Dataproc 集群上运行简单的 Spark 作业。

如需向 Dataproc 集群提交作业的其他方式,请参阅:

开始前须知

在运行 Dataproc 作业之前,您必须先创建一个或多个虚拟机 (VM) 集群来运行该作业。您可以使用 API ExplorerGoogle Cloud Consolegcloud CLI gcloud 命令行工具或快速入门:使用 Cloud 客户端库创建集群。

提交作业

如需提交示例 Apache Spark 作业以计算 pi 的粗略值,请填写并执行 Google API Explorer 试用此 API 模板。

  1. 请求参数

    1. 插入您的 projectId
    2. 指定集群所在的地区(确认或替换“us-central1”)。您的集群地区列在 Cloud Console 中的 Dataproc 集群页面上。
  2. 请求正文

    1. job.placement.clusterName:将要运行作业的集群的名称(确认或替换“example-cluster”)。
    2. job.sparkJob.args:1000 项作业任务的数量。
    3. job.sparkJob.jarFileUris:file:///usr/lib/spark/examples/jars/spark-examples.jar"这是 Dataproc 集群主节点上的本地文件路径,主节点包含安装有 Spark Scala 作业代码的 jar。
    4. job.sparkJob.mainClass:org.apache.spark.examples.SparkPi"作业是 pi 计算 Scala 的主要方法。
  3. 点击执行。第一次运行 API 模板时,系统可能会要求您选择并登录 Google 帐号,然后授权 Google API Explorer 访问您的帐号。如果请求成功,JSON 响应会显示作业提交请求处于待处理状态。

  4. 如需查看作业输出,请打开 Cloud Console 中的 Dataproc 作业页面,然后点击顶部(最新)的作业 ID。点击“LINE WRAP”切换为“开启”,将超出右边距的行显示在视图中。

    ...
    Pi is roughly 3.141804711418047
    ...
    

清理

为避免系统因本页面使用的资源向您的 Google Cloud 帐号收取费用,请按照以下步骤操作。

  1. 如果您不需要集群来浏览其他快速入门或运行其他作业,请使用 API ExplorerGoogle Cloud Consolegcloud CLI gcloud 命令行工具或快速入门:使用 Cloud 客户端库删除集群。

后续步骤