使用模板提交 Spark 作业

本页面介绍如何使用 Google API Explorer 模板在现有 Dataproc 集群上运行简单的 Spark 作业。

如需了解将作业提交到 Dataproc 集群的其他方法,请参阅:

准备工作

您必须先创建一个用于运行作业的集群(包含一个或多个虚拟机),然后才能运行 Dataproc 作业。您可以使用 API ExplorerGoogle Cloud 控制台、gcloud CLI gcloud 命令行工具或快速入门:使用 Cloud 客户端库创建集群。

提交作业

如需提交一个计算 pi 的粗略值的示例 Apache Spark 作业,请填写并执行 Google APIs Explorer 试用此 API 模板。

  1. 请求参数

    1. 插入您的 projectId
    2. 指定您的集群所在的区域(确认或替换“us-central1”)。您的集群的区域列在 Google Cloud 控制台中的 Dataproc 集群页面上。
  2. 请求正文:

    1. job.placement.clusterName:将运行作业的集群的名称(确认或替换“example-cluster”)。
    2. job.sparkJob.args:“1000”,作业任务的数量。
    3. job.sparkJob.jarFileUris:“file:///usr/lib/spark/examples/jars/spark-examples.jar”。这是 Dataproc 集群主节点上的本地文件路径,包含 Spark Scala 作业代码的 jar 安装在此处。
    4. job.sparkJob.mainClass:“org.apache.spark.examples.SparkPi”。这是作业的 pi 计算 Scala 应用的主要方法。
  3. 点击执行。首次运行 API 模板时,系统可能会要求您选择并登录您的 Google 账号,然后授权 Google API Explorer 访问您的账号。如果请求成功,JSON 响应会显示作业提交请求处于待处理状态。

  4. 如需查看作业输出,请在 Google Cloud 控制台中打开 Dataproc 作业页面,然后点击顶部(最新)的作业 ID。点击“换行:开”以将超出右边距的内容显示在视图中。

    ...
    Pi is roughly 3.141804711418047
    ...
    

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 如果您不需要使用集群来探索其他快速入门或运行其他作业,请使用 API ExplorerGoogle Cloud 控制台、gcloud CLI gcloud 命令行工具或 Cloud 客户端库删除集群。

后续步骤