使用作业构建器运行流水线
本快速入门介绍如何使用 Dataflow 作业构建器运行 Dataflow 作业。作业构建器是一个直观的界面,可用于在 Google Cloud 控制台中构建和运行 Dataflow 流水线,而无需编写任何代码。
在本快速入门中,您将示例流水线加载到作业构建器中,运行作业,并验证作业是否创建了输出。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
- 创建 Cloud Storage 存储分区,请运行以下命令:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create bucket.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
For Choose where to store your data, do the following:
- Select a Location type option.
- Select a Location option.
- For Choose a default storage class for your data, select the following: Standard.
- For Choose how to control access to objects, select an Access control option.
- For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
- Click Create.
为完成本快速入门中的步骤,您的用户账号必须具有 Dataflow Admin 角色和 Service Account User 角色。Compute Engine 默认服务账号必须具有 Dataflow Worker 角色。如需在 Google Cloud 控制台中添加所需的角色,请执行以下操作:
- 转到 IAM 页面。
转到 IAM - 选择您的项目。
- 在用户账号所在的行中,点击 修改主账号
- 点击 添加其他角色,然后在下拉列表中选择 Dataflow Admin。
- 点击 添加其他角色,然后在下拉列表中选择 Service Account User。
- 点击保存。
- 在 Compute Engine 默认服务账号所在的行中,点击 修改主账号。
- 点击 添加其他角色,然后在下拉列表中选择 Dataflow Worker。
- 点击 添加其他角色,然后在下拉列表中选择 Storage Object Admin。
点击保存。
如需详细了解如何授予角色,请参阅使用控制台授予 IAM 角色。
- 转到 IAM 页面。
- 默认情况下,每个新项目起初都有一个默认网络。如果您的项目的默认网络已停用或者已被删除,则您需要在自己的用户账号具备 Compute Network User 角色 (
roles/compute.networkUser
) 的项目中拥有网络。
加载示例流水线
在此步骤中,您将加载一个示例流水线,用于统计莎士比亚的《King Lear》中的字数。
前往 Google Cloud 控制台中的作业页面。
点击
基于模板创建作业。点击作业构建器。
点击加载。
点击字数统计。作业构建器会填充流水线的图形表示。
对于每个流水线步骤,作业构建器都会显示一个卡片,用于指定该步骤的配置参数。例如,第一步从 Cloud Storage 中读取文本文件。系统会在文本位置框中预先填充源数据的位置。
设置输出位置
在此步骤中,您需要指定流水线将输出写入到的 Cloud Storage 存储桶。
找到标题为新建接收器的卡片。您可能需要滚动屏幕。
在文本位置框中,点击浏览。
选择您在准备工作中创建的 Cloud Storage 存储桶的名称。
点击
查看子资源。在“文件名”框中,输入
words
。点击选择。
运行作业
点击运行作业。 作业构建器会创建 Dataflow 作业,然后前往作业图。作业启动时,作业图会显示流水线的图形表示,类似于作业构建器中显示的图形表示。随着流水线的每个步骤运行,作业图中的状态也会更新。
作业信息面板会显示作业的整体状态。如果作业成功完成,作业状态字段会更新为 Succeeded
。
检查作业输出
作业完成后,请执行以下步骤以查看流水线的输出:
在 Google Cloud 控制台中,进入 Cloud Storage 存储桶页面。
在存储桶列表中,点击您在准备工作中创建的存储桶的名称。
点击名为
words-00000-of-00001
的文件。在对象详情页面中,点击经过身份验证的网址以查看流水线输出。
输出应类似如下所示:
brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
删除项目
避免产生费用的最简单方法是删除您为本快速入门创建的 Google Cloud 项目。
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
逐个删除资源
如果您希望保留本快速入门中使用的 Google Cloud 项目,请删除 Cloud Storage 存储桶:
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click the checkbox for the bucket that you want to delete.
- To delete the bucket, click Delete, and then follow the instructions.