快速入门:使用 Cloud Console 创建 Dataproc 集群

使用 Cloud Console 创建 Dataproc 集群

本页面介绍如何使用 Google Cloud Console 创建 Dataproc 集群、在该集群中运行基本的 Apache Spark 作业,然后修改集群中的工作器数量。

准备工作

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Cloud 项目已启用结算功能。了解如何检查项目是否已启用结算功能

  4. 启用 Dataproc API。

    启用 API

  5. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  6. 确保您的 Cloud 项目已启用结算功能。了解如何检查项目是否已启用结算功能

  7. 启用 Dataproc API。

    启用 API

创建集群

  1. 在 Cloud Console 中,转到 Dataproc 集群页面。

    转到集群

  2. 点击创建集群

  3. 集群名称字段中,输入 example-cluster

  4. 区域可用区列表中,选择区域和可用区。

    您可以选择特定区域(例如 us-east1europe-west1),以隔离指定区域的 Dataproc 使用的资源,如虚拟机 (VM) 实例、Cloud Storage 以及元数据存储位置。您还可以选择 global,这是一个特殊的多区域端点,能够将实例部署到任何用户指定的 Compute Engine 可用区。如需了解详情,请参阅可用区域和可用区区域端点

  5. 对于所有其他选项,请使用默认设置。

  6. 如需创建集群,请点击创建

    您的新集群将显示在集群页面上的列表中。在集群准备好投入使用之前,状态为配置,然后状态会更改为运行。配置集群可能需要几分钟的时间。

提交 Spark 作业

提交估算 Pi 值的 Spark 作业:

  1. 在 Dataproc 导航菜单中,点击作业
  2. 作业页面上,点击 提交作业,然后执行以下操作:

    1. 集群字段中,点击浏览
    2. example-cluster 对应的行中,点击选择
    3. 作业 ID 字段中,使用默认设置,或提供您 Google Cloud 项目独有的 ID。
    4. 对于作业类型,请选择 Spark
    5. 主类或 Jar 字段中,输入 org.apache.spark.examples.SparkPi
    6. Jar 文件字段中,输入 file:///usr/lib/spark/examples/jars/spark-examples.jar
    7. 参数字段中,输入 1000 以设置任务数量。

    8. 点击提交

      您的作业将显示在作业详情页面上。作业状态为正在运行正在启动,然后在提交后更改为成功

      为避免在输出中滚动,请点击换行:关闭。输出内容如下所示:

      Pi is roughly 3.1416759514167594
      

      如需查看作业详情,请点击配置标签页。

更新集群

通过更改工作器实例的数量来更新集群:

  1. 在导航菜单中,点击 集群
  2. 在集群列表中,点击 example-cluster
  3. 集群详情页面上,点击配置标签页

    此时将显示您的集群设置。

  4. 点击 修改

  5. 工作器节点字段中,输入 5

  6. 点击保存

您的集群现在已更新。要将工作器节点的数量减少为原始值,请按照相同的过程操作。

清理

为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。

  1. example-cluster集群详情页面上,点击 删除以删除集群。
  2. 如需确认要删除集群,请点击删除

后续步骤