使用 Google Cloud 控制台创建 Dataproc 集群
本页介绍了如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行基本的 Apache Spark 作业,然后修改集群中的工作器数量。
如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示:
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
创建集群
在 Google Cloud 控制台中,前往 Dataproc 集群页面。
点击创建集群。
在创建 Dataproc 集群对话框中,点击创建 Compute Engine 上的集群行。
在集群名称字段中,输入
example-cluster
。在区域和可用区列表中,选择区域和可用区。
选择一个区域(例如
us-east1
或europe-west1
),以隔离该区域的 Dataproc 使用的资源,如虚拟机 (VM) 实例、Cloud Storage 以及元数据存储位置。如需了解详情,请参阅可用区域和可用区和区域端点。对于所有其他选项,请使用默认设置。
如需创建集群,请点击创建。
您的新集群将显示在集群页面上的列表中。在集群准备好投入使用之前,状态为配置,然后状态会更改为运行。配置集群可能需要几分钟的时间。
提交 Spark 作业
提交估算 Pi 值的 Spark 作业:
- 在 Dataproc 导航菜单中,点击作业。
在作业页面上,点击
提交作业,然后执行以下操作:- 在集群字段中,点击浏览。
- 在
example-cluster
对应的行中,点击选择。 - 在作业 ID 字段中,使用默认设置,或提供您 Google Cloud 项目独有的 ID。
- 对于作业类型,请选择 Spark。
- 在主类或 Jar 字段中,输入
org.apache.spark.examples.SparkPi
。 - 在 Jar 文件字段中,输入
file:///usr/lib/spark/examples/jars/spark-examples.jar
。 在参数字段中,输入
1000
以设置任务数量。点击提交。
您的作业将显示在作业详情页面上。作业状态为正在运行或正在启动,然后在提交后更改为成功。
为避免在输出中滚动,请点击换行:关闭。输出内容如下所示:
Pi is roughly 3.1416759514167594
如需查看作业详情,请点击配置标签页。
更新集群
通过更改工作器实例的数量来更新集群:
- 在导航菜单中,点击 集群。
- 在集群列表中,点击
example-cluster
。 在集群详情页面上,点击配置标签页
此时将显示您的集群设置。
点击
修改。在工作器节点字段中,输入
5
。点击保存。
您的集群现在已更新。要将工作器节点的数量减少为原始值,请按照相同的过程操作。
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 在
example-cluster
的集群详情页面上,点击 删除以删除集群。 - 如需确认要删除集群,请点击删除。
后续步骤
- 使用其他工具尝试本快速入门:
- 了解如何在创建项目时创建强大的防火墙规则。
- 了解如何编写和运行 Spark Scala 作业。