快速入门:使用控制台

本页面介绍如何使用 Google Cloud Console 创建 Dataproc 集群、在该集群中运行简单的 Apache Spark 作业,然后修改集群中的工作器数量。

如需了解如何使用 API Explorer 和 gcloud 命令行工具执行相同的任务,请参阅快速入门:使用 API Explorer快速入门:使用 gcloud 命令行工具

准备工作

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Dataproc API。

    启用 API

  5. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  6. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  7. 启用 Dataproc API。

    启用 API

创建集群

  1. 转到 Cloud Console 的 Cloud Dataproc 集群页面。
  2. 点击创建集群
  3. 名称字段中输入 example-cluster
  4. 地区区域下拉菜单中选择集群的地区和区域。您可以选择不同的地区(例如 us-east1europe-west1),以存储 Dataproc 在指定地区内使用的隔离资源(包括虚拟机实例和 Cloud Storage)和元数据存储位置。您还可以选择 global 地区,它是一个特殊的多地区端点,可以将实例部署到任何用户指定的 Compute Engine 地区。请参阅地区端点以详细了解全球和地区端点之间的差异。如需了解如何选择地区和区域,请参阅可用的地区和区域
  5. 将提供的默认值用于所有其他选项。
  6. 点击创建以创建集群。

您的新集群应显示在“集群”列表中。在集群准备好投入使用之前,集群状态会被列为“正在配置”,准备好之后,状态会更改为“正在运行”。

提交作业

要运行示例 Spark 作业,请执行以下操作:

  1. 在左侧导航栏中选择作业以切换到 Dataproc 的作业视图。
  2. 点击提交作业
  3. 您可以接受作业 ID 或提供自己的 ID,但该 ID 在项目中必须是唯一的。
  4. 选择 example-cluster 的地区
  5. 集群下拉菜单中选择 example-cluster
  6. 作业类型下拉菜单中选择 Spark
  7. 主类或 Jar 字段中输入 org.apache.spark.examples.SparkPi
  8. Jar 文件字段中输入 file:///usr/lib/spark/examples/jars/spark-examples.jar
  9. 参数字段中输入 1000 以设置任务数量。
  10. 点击提交

您的作业应出现在作业列表中,作业列表显示了您的项目的作业以及它们的集群、类型和当前状态。作业状态显示为“正在运行”,然后在完成后显示为“已成功”。要查看完成的作业的输出结果,请执行以下操作:

  1. 点击作业列表中的作业 ID。
  2. 选择换行以避免滚动。

您应看到您的作业已经成功为 pi 计算了一个粗略值!

更新集群

要更改集群中的工作器实例数量,请执行以下操作:

  1. 在左侧导航窗格中选择集群以返回 Cloud Dataproc 集群视图。
  2. 点击集群列表中的 example-cluster。默认情况下,该页面显示集群 CPU 使用率的概览。
  3. 点击配置以显示您的集群的当前设置。
  4. 点击修改。现在,您可以修改工作器节点的数量。
  5. 工作器节点字段中输入 5
  6. 点击保存

您的集群现在已更新。您可以按照相同的步骤将工作器节点的数量减少为原始值。

清理

为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。

  1. 在 example-cluster 的集群页面上,点击删除以删除集群。 系统会提示您确认是否要删除集群。点击确定

后续步骤