此页面由 Cloud Translation API 翻译。

实现 Datastream 和 Dataflow 以进行分析

Datastream

Datastream 支持将数据从 Oracle、MySQL 和 PostgreSQL 数据库直接流式传输到 BigQuery 数据集。不过，如果您需要更好地控制流处理逻辑（例如数据转换或手动设置逻辑主键），可以将 Datastream 与 Dataflow 作业模板集成。

本教程将展示 Datastream 如何通过使用 Dataflow 作业模板与 Dataflow 集成，从而在 BigQuery 中实现最新具体化视图以执行分析。

对于拥有许多独立数据源的组织而言，访问整个组织内的企业数据（尤其是实时访问）可能会受到限制，并且速度较慢。这会限制组织进行检查的能力。

Datastream 提供近乎实时的访问权限，让您能够更改各种本地和云端数据源中的数据。Datastream 提供了一种设置体验，让您无需对流式数据进行太多配置；Datastream 会为您完成此操作。Datastream 还具有统一的使用 API，让组织普遍能够访问可用的最新企业数据，从而构建集成式场景。

其中一种场景是将数据从源数据库转移到云端存储服务或消息传递队列。在 Datastream 流式传输数据后，数据会转换为其他应用和服务可读取的形式。在本教程中，Dataflow 是一项与存储服务或消息传递队列通信的 Web 服务，用于在 Google Cloud上捕获和处理数据。

您将了解如何使用 Datastream 将更改（插入、更新或删除的数据）从源 MySQL 数据库流式传输到 Cloud Storage 存储桶中的文件夹。然后，您将配置 Cloud Storage 存储桶以发送通知，供 Dataflow 了解包含 Datastream 从源数据库流式传输的数据更改的任何新文件。然后，Dataflow 作业会处理这些文件并将更改转移到 BigQuery。

集成用户流程图

目标

在本教程中，您将执行以下操作：

在 Cloud Storage 中创建存储桶。DataStream 将架构、表和数据从源 MySQL 数据库流式传输到的目标存储桶。
为 Cloud Storage 存储桶启用 Pub/Sub 通知。这样，您就可以配置存储桶来发送通知，供 Dataflow 用来了解已准备好进行处理的任何新文件。这些文件包含 Dataflow 从源数据库流式传输到存储桶的数据更改。
在 BigQuery 中创建数据集。BigQuery 使用数据集来包含它从 Dataflow 接收的数据。此数据表示 Datastream 流式传输到 Cloud Storage 存储桶中的源数据库更改。
创建和管理用于 Cloud Storage 中源数据库和目标存储桶的连接配置文件。Datastream 中的数据流使用连接配置文件中的信息将源数据库中的数据流式传输到存储桶。
创建并启动数据流。此数据流会将数据、架构和表从源数据库转移到存储桶。
验证 Datastream 是否将与源数据库的架构关联的数据和表转移到存储桶中。
在 Dataflow 中创建作业。在 Datastream 将数据更改从源数据库流式传输到 Cloud Storage 存储桶后，系统会向 Dataflow 发送包含更改的新文件的通知。Dataflow 作业会处理这些文件并将更改转移到 BigQuery。
验证 Dataflow 是否处理包含与此数据关联的更改的文件并将更改转移到 BigQuery。因此，Datastream 和 BigQuery 之间具有端到端集成。
清理您在 Datastream、Cloud Storage、Pub/Sub、Dataflow 和 BigQuery 上创建的资源，以避免这些资源占用配额，日后产生费用。

费用

在本文档中，您将使用 Google Cloud的以下收费组件：

Datastream
Cloud Storage
Pub/Sub
Dataflow
BigQuery

如需根据您的预计使用量来估算费用，请使用价格计算器。

新 Google Cloud 用户可能有资格申请免费试用。

准备工作

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

启用 Datastream API。
启用 API
确保您已向自己的用户账号授予 Datastream Admin 角色。
转到 IAM 页面
确保您有一个 Datastream 可以访问的源 MySQL 数据库。此外，还要验证数据库中是否有数据、表和架构。
配置 MySQL 数据库以允许来自 Datastream 公共 IP 地址的传入连接。如需查看包含所有 Datastream 区域及其关联公共 IP 地址的列表，请参阅 IP 许可名单和地区。
为源数据库设置变更数据捕获 (CDC)。如需了解详情，请参阅配置源 MySQL 数据库。
确保您满足所有前提条件，以便为 Cloud Storage 启用 Pub/Sub 通知。

在本教程中，您将在 Cloud Storage 中创建目标存储桶，并为该存储桶启用 Pub/Sub 通知。这样设置后，Dataflow 就可以接收通知来了解 Datastream 写入存储桶的新文件。这些文件包含 Dataflow 从源数据库流式传输到存储桶的数据更改。

要求

Datastream 提供各种来源选项、目标选项和网络连接方法。

在本教程中，假设您使用独立的 MySQL 数据库和目标 Cloud Storage 服务。对于源数据库，您应该能够将网络配置为添加入站防火墙规则。源数据库可以位于本地，也可以位于云提供商。对于 Cloud Storage 目标位置，无需配置连接。

由于我们无法获知您环境的具体细节，因此我们无法提供网络配置的详细步骤。

在本教程中，您将选择 IP 许可名单作为网络连接方法。IP 许可名单是一项安全功能，通常用于仅限受信任的用户访问您的源数据库中的数据并对这些访问进行控制。您可以使用 IP 许可名单创建受信任的 IP 地址或 IP 地址范围列表，您的用户和其他 Google Cloud 服务（如 Datastream）可通过这些地址访问此数据。要使用 IP 许可名单，您必须向来自 Datastream 的传入连接开放源数据库或防火墙。

在 Cloud Storage 中创建存储分区

在 Cloud Storage 中创建一个目标存储桶，DataStream 会将架构、表和数据从源 MySQL 数据库流式传输到该存储桶。

在 Google Cloud 控制台中，前往 Cloud Storage 的浏览器页面。

转到“浏览器”页面
点击创建存储分区。此时将显示创建存储桶页面。
在为存储桶命名区域的文本字段中，为存储桶输入一个唯一的名称，然后点击继续。
对于页面每个剩余区域，请接受默认设置。在每个区域的末尾，点击继续。
点击创建。

为 Cloud Storage 存储桶启用 Pub/Sub 通知

在本部分中，您将为创建的 Cloud Storage 存储桶启用 Pub/Sub 通知。这样，您就可以配置存储桶来通知 Dataflow Datastream 写入该存储桶的任何新文件。这些文件包含 Datastream 从源 MySQL 数据库流式传输到存储桶的数据的更改。

访问您创建的 Cloud Storage 存储桶。此时将显示存储桶详情页面。
点击 激活 Cloud Shell。
在提示符处，输入以下命令：

gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/

bucket-name 是 Cloud Storage 存储桶名称的占位符。

通过输入此命令，您将在 Pub/Sub 中创建 my_integration_notifs 主题。您还可以配置 Pub/Sub 通知，使其仅监听您在为 Cloud Storage 创建目标连接配置文件这一步中定义的 Datastream 输出路径。在此过程的后续步骤中，您将在 Pub/Sub 中配置此主题，以向 Dataflow 发送通知，供其了解 Datastream 流式传输到 Cloud Storage 存储桶的数据的更改。

Pub/Sub 主题会捕获对此数据所做的任何更改。此主题的任何订阅者（例如 Dataflow）都会收到此信息。
可选：如果系统显示为 Cloud Shell 提供授权 窗口，请点击授权。

验证您是否看到以下代码行：

Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
Created notification config projects/_/buckets/bucket-name/notificationConfigs/1

在 Google Cloud 控制台中，前往 Pub/Sub 的主题页面。

转到“主题”页面
点击您创建的 my_integration_notifs 主题。
在 my_integration_notifs 页面上，前往页面底部。验证订阅标签页是否处于有效状态，以及是否显示没有可显示的订阅消息。

您将为 my_integration_notifs 主题创建订阅。订阅此订阅的应用（例如 Dataflow）可以获取主题中的信息。此信息与 Datastream 流式传输到 Cloud Storage 存储桶的源数据库数据更改相关联。
点击创建订阅。
在随即显示的菜单中，选择创建订阅。
在为主题添加订阅页面中：
1. 在订阅 ID 字段中，输入 my_integration_notifs_sub。
2. 将确认截止时间值设置为 120 秒。这样，Dataflow 便有足够的时间来确认已处理的文件，有助于提升 Dataflow 作业的整体性能。如需详细了解 Pub/Sub 订阅属性，请参阅订阅属性。
3. 保留页面上的所有其他默认值。
4. 点击创建。

在本教程后面部分，您将创建 Dataflow 作业。在创建此作业时，您需要将 Dataflow 指定为 my_integration_notifs_sub 订阅的订阅者。指定后，Dataflow 可以接收通知来了解 Datastream 写入 Cloud Storage 的新文件、处理这些文件并将数据更改转移到 BigQuery。

在 BigQuery 中创建数据集

在本部分中，您将在 BigQuery 中创建数据集。BigQuery 使用数据集来包含它从 Dataflow 接收的数据。此数据表示 Datastream 将流式传输到 Cloud Storage 存储桶的源 MySQL 数据库中的更改。

前往 Google Cloud 控制台中 BigQuery 的 SQL 工作区页面。

转到“SQL 工作区”页面
在探索器窗格中，点击 Google Cloud 项目名称旁边的 查看操作。
在随即显示的菜单中，选择创建数据集。
在创建数据集窗口中执行以下操作：
1. 在数据集 ID 字段中，输入数据集的 ID。在本教程中，在字段中输入 My_integration_dataset_log。
2. 保留窗口中的所有其他默认值。
3. 点击创建数据集。
Dataflow 使用 My_integration_dataset_log 数据集来暂存从 Datastream 接收的数据更改。
在探索器窗格中，点击 Google Cloud 项目名称旁边的 展开节点，然后验证您能看到自己创建的数据集。
按照此过程中的步骤创建第二个数据集：My_integration_dataset_final。

将在 My_integration_dataset_log 数据集中暂存的更改合并到 My_integration_dataset_final 数据集中，以在源数据库中创建表的一对一副本。
展开每个数据集旁边的 展开节点。
验证每个数据集是否为空。

在 Datastream 将数据更改从源数据库流式传输到 Cloud Storage 存储桶后，Dataflow 作业会处理包含更改的文件，并将更改转移到 BigQuery 数据集。

在 Datastream 中创建连接配置文件

在本部分中，您将在 Datastream 中为源数据库和目标位置创建连接配置文件。在创建连接配置文件时，您需要选择 MySQL 作为来源连接配置文件的类型，选择 Cloud Storage 作为目标连接配置文件的类型。

Datastream 使用连接配置文件中定义的信息同时连接到来源和目标位置，以便可将数据从源数据库流式传输到 Cloud Storage 中的目标存储桶。

为 MySQL 数据库创建来源连接配置文件

在 Google Cloud 控制台中，前往 Datastream 的连接配置文件页面。

转到“连接配置文件”页面
点击 Create profile（创建配置文件）。
如需为 MySQL 数据库创建来源连接配置文件，请在创建连接配置文件页面中，点击 MySQL 配置文件类型。
在创建 MySQL 配置文件页面的定义连接设置部分中，提供以下信息：
- 在连接配置文件名称字段中，输入 My Source Connection Profile。
- 保留自动生成的连接配置文件 ID。
- 选择您要存储连接配置文件的地区。
  
  与所有资源一样，连接配置文件也保存在地区中，并且数据流只能使用与该数据流存储在同一地区的连接配置文件。地区选择不会影响 Datastream 是否可连接到来源或目标位置，但如果该地区发生停机，则可能会影响可用性。
- 输入连接详情：
  - 在主机名或 IP 字段中，输入 Datastream 可用于连接到源数据库的主机名或公共 IP 地址。您将提供公共 IP 地址，因为您在本教程中使用 IP 许可名单作为网络连接方法。
  - 在端口字段中，输入为源数据库预留的端口号。对于 MySQL 数据库，默认端口通常为 3306。
  - 输入用户名和密码，对源数据库进行身份验证。
在定义连接设置部分中，点击继续。创建 MySQL 配置文件页面的确保与源的连接安全部分处于活跃状态。
从加密类型菜单中，选择无。如需详细了解此菜单，请参阅为 MySQL 数据库创建连接配置文件。
在确保与源的连接安全部分中，点击继续。创建 MySQL 配置文件页面的定义连接方法部分处于活跃状态。
在连接方法下拉菜单中，选择您要在 Datastream 与源数据库之间建立连接时使用的网络方法。在本教程中，请选择 IP 许可名单作为连接方法。
配置源数据库以允许来自显示的 Datastream 公共 IP 地址的传入连接。
在定义连接方法部分中，点击继续。创建 MySQL 配置文件页面的测试连接配置文件部分处于活跃状态。
点击运行测试，验证源数据库和 Datastream 是否可以相互通信。
验证您是否看到“已通过测试”状态。
如果测试失败，您可以在流程的适当部分解决问题，然后返回重新测试。如需了解问题排查步骤，请参阅诊断问题页面。
点击创建。

为 Cloud Storage 创建目标连接配置文件

在 Google Cloud 控制台中，前往 Datastream 的连接配置文件页面。

转到“连接配置文件”页面
点击 Create profile（创建配置文件）。
如需为 Cloud Storage 创建目标连接配置文件，请在创建连接配置文件页面中点击 Cloud Storage 配置文件类型。
在创建 Cloud Storage 配置文件页面中提供以下信息：
- 在连接配置文件名称字段中，输入 My Destination Connection Profile。
- 保留自动生成的连接配置文件 ID。
- 选择您要存储连接配置文件的地区。
- 在连接详情窗格中，点击浏览以选择您在本教程前面部分创建的 Cloud Storage 存储桶。Datastream 会将数据从源数据库转移到该存储桶中。完成选择后，点击选择。
  
  您的存储桶会显示在连接详情窗格的存储桶名称字段中。
- 在连接配置文件路径前缀字段中，提供当 Datastream 将数据流式传输到目标位置时要追加到存储桶名称的路径的前缀。确保 Datastream 将数据写入存储分区内的路径，而不是存储桶根文件夹。在本教程中，请使用您在配置 Pub/Sub 通知时定义的路径。在相应字段中输入 /integration/tutorial。
点击创建。

为 MySQL 数据库创建来源连接配置文件，并为 Cloud Storage 创建目标连接配置文件后，您可以使用它们来创建数据流。

在 Datastream 中创建数据流

在本部分中，您将创建一个数据流。此数据流使用连接配置文件中的信息将数据从源 MySQL 数据库转移到 Cloud Storage 中的目标存储桶。

定义数据流的设置

在 Google Cloud 控制台中，前往 Datastream 的数据流页面。

转到“数据流”页面
点击创建数据流。
在创建数据流页面的定义数据流详情面板中提供以下信息：
- 在信息流名称字段中，输入 My Stream。
- 保留自动生成的数据流 ID。
- 从地区菜单中，选择您在其中创建了来源和目标连接配置文件的地区。
- 从来源类型菜单中，选择 MySQL 配置文件类型。
- 从目标类型菜单中，选择 Cloud Storage 配置文件类型。
查看自动生成的必要前提条件，以反映如何为数据流准备您的环境。这些前提条件可能包括如何配置源数据库，以及如何将 Datastream 连接到 Cloud Storage 中的目标存储桶。

如需详细了解这些前提条件，请参阅配置源 MySQL 数据库。
点击继续。系统会显示创建数据流页面的定义 MySQL 连接配置文件面板。

指定有关来源连接配置文件的信息

在本部分中，您需要选择为源数据库创建的连接配置文件（源连接配置文件）。在本教程中，我们使用的是我的来源连接配置文件。

从来源连接配置文件菜单中，选择 MySQL 数据库的来源连接配置文件。
点击运行测试，验证源数据库和 Datastream 是否可以相互通信。

如果测试失败，会显示与连接配置文件关联的问题。如需查看问题排查步骤，请参阅诊断问题页面。进行必要的更改以纠正问题，然后重新测试。
点击继续。系统会显示创建数据流页面的配置数据流来源面板。

配置有关数据流的源数据库的信息

在本部分中，您将通过指定源数据库中 Datastream 对其执行以下操作的表和架构，配置数据流的源数据库的相关信息：

可以转移到目标位置。
无法转移到目标位置。

您还可以确定 Datastream 是回填历史数据并将进行中的更改流式传输到目标位置，还是仅流式传输对数据的更改。

使用要包含的对象菜单指定源数据库中 Datastream 可转移到 Cloud Storage 目标存储桶中的文件夹的表和架构。仅当数据库中的对象不超过 5,000 个时，系统才会加载菜单。

在本教程中，您希望 Datastream 转移所有表和架构。因此，请从菜单中选择所有架构中的所有表。
验证选择要排除的对象面板是否设置为无。您不希望限制 Dataflow 将源数据库中的任何表和架构转移到 Cloud Storage 的操作。
验证选择历史数据的回填模式 面板是否设置为自动。除了数据更改外，Datastream 还会将所有现有数据从来源流式传输到目标位置。
点击继续。系统显示创建数据流页面的定义 Cloud Storage 连接配置文件面板。

选择目标连接配置文件

在本部分中，您将选择为 Cloud Storage 创建的连接配置文件（目标连接配置文件）。在本教程中，我们使用的是我的目标连接配置文件。

从目标连接配置文件菜单中，选择 Cloud Storage 的目标连接配置文件。
点击继续。系统会显示创建数据流页面的配置数据流目标位置面板。

配置有关数据流的目标位置的信息

在本部分中，您将配置有关数据流的目标存储桶的信息。此类信息包括：

写入 Cloud Storage 的文件的输出格式。
DataStream 将架构、表和数据从来源数据库转移到的目标存储桶的文件夹。

在输出格式字段中，选择写入 Cloud Storage 的文件的格式。Datastream 支持两种输出格式：Avro 和 JSON。在本教程中，使用 Avro 文件格式。

您无需填充流路径前缀字段。在此字段中，您可以提供一个在 Datastream 将数据转移到目标位置时要追加到存储桶名称中的路径的前缀。这是您的 Cloud Storage 存储桶的路径，DataStream 会将架构、表和数据从源 MySQL 数据库转移到该存储分区中。

您在为 Cloud Storage 创建目标连接配置文件时，已提供 /integration/tutorial 路径。
点击继续。系统会显示创建数据流页面的审核数据流详情并创建面板。

创建数据流

验证数据流的详细信息，以及数据流用于将数据从源 MySQL 数据库转移到 Cloud Storage 中目标存储桶的来源和目标连接配置文件。
如需验证数据流，请点击运行验证。通过验证数据流，Datastream 会检查来源是否配置正确，验证数据流是否可以连接到来源和目标位置，并验证数据流的端到端配置。

如果验证检查通过，则会显示一个对勾标记图标。
如果验证检查未通过，则会显示一个感叹号图标和一个查看错误详情按钮。点击该按钮后，系统会显示一个对话框，其中说明了检查未通过的原因以及如何纠正问题。进行适当的更正后，请点击重新验证。

如需详细了解如何排查未通过的验证检查，请参阅诊断问题。
所有验证检查都通过后，点击创建。
在创建数据流？对话框中，点击创建。

启动数据流

在本教程中，您将分别创建和启动数据流，以防数据流创建过程造成源数据库负载增加。如需消除该负载，您需要创建数据流但不启动它，然后在数据库可以处理该负载时启动数据流。

通过启动数据流，Datastream 可以将数据、架构和表从源数据库转移到目标位置。

在 Google Cloud 控制台中，前往 Datastream 的数据流页面。

转到“数据流”页面
选中要启动的数据流旁边的复选框。在本教程中，这是我的数据流。
点击开始。
在对话框中，点击开始。数据流的状态从 Not started 更改为 Starting，再更改为 Running。

数据流大约需要 30 秒才能开始运行。需要启动后台资源，然后才能启动数据流。

启动数据流后，您可以验证 Dataflow 是否将数据从源数据库转移到目标位置。

验证数据流

在本部分中，您将确认 Datastream 将数据从源 MySQL 数据库的所有表转移到 Cloud Storage 目标存储桶的 /integration/tutorial 文件夹中。

在 Google Cloud 控制台中，前往 Datastream 的数据流页面。

转到“数据流”页面
点击您创建的数据流。在本教程中，这是我的数据流。
在数据流详情页面中，点击 bucket-name/integration/tutorial 链接，其中 bucket-name 是您为 Cloud Storage 存储桶指定的名称。此链接显示在目标写入路径字段之后。Cloud Storage 的存储分区详情页面会在单独的标签页中打开。

该链接由存储桶的名称以及 Datastream 将架构、表和数据从源数据库转移到的存储桶的文件夹组成。在为 Cloud Storage 创建目标连接配置文件时，您已将此文件夹指定为 /integration/tutorial。
验证您是否看到表示源数据库的表的文件夹。
点击其中一个表文件夹，然后点击每个子文件夹，直到您看到与该表关联的数据。

第一个文件夹是 [schema]_[table]，后跟文件夹表示 Datastream 将数据从源数据库转移到 Cloud Storage 中的目标存储桶的具体时间（年、月、日、小时和分钟）。

每分钟创建一个文件夹（当要写入新数据时）。

当文件大小达到 250 MB 或架构发生更改时，系统将创建一个新文件。如果表已分区，则系统会为每个分区创建文件。

创建 Dataflow 作业

在本部分中，您将在 Dataflow 中创建作业。在 Datastream 将源 MySQL 数据库中的数据更改流式传输到 Cloud Storage 存储桶后，Pub/Sub 会向 Dataflow 发送包含更改的新文件的通知。Dataflow 作业会处理这些文件并将更改转移到 BigQuery。

在 Google Cloud 控制台中，前往 Dataflow 的作业页面。

转到作业页面
点击基于模板创建作业。
在从模板创建作业页面的作业名称字段中，输入您要创建的 Dataflow 作业的名称。在本教程中，在字段中输入 my-dataflow-integration-job。
从地区端点菜单中，选择要存储作业的区域。此地区就是您为所创建的来源连接配置文件、目标连接配置文件和数据流选择的地区。
从 Dataflow 模板菜单中，选择要用于创建作业的模板。在本教程中，请选择 Datastream to BigQuery。

进行选择后，将显示与此模板相关的其他字段。

Datastream to BigQuery 模板是一种流处理流水线，可读取 Datastream 数据并将其复制到 BigQuery 中。该模板使用 Pub/Sub 通知从 Cloud Storage 中读取数据，并将其复制到时间分区的 BigQuery 暂存表中。复制后，该模板会在 BigQuery 中执行 Merge，将所有变更数据捕获获 (CDC) 更改插入/更新到源表的副本中。

为了最大限度降低频繁 Merge 操作产生的费用，我们建议首先采用初始频率，即每 6-12 小时操作一次。完成所有回填且顺利复制数据后，请将此值降低至您选择的频率。

如需详细了解 Datastream to BigQuery 模板，请参阅 Datastream to BigQuery (Stream)。
在 Cloud Storage 中 Datastream 文件输出的文件位置字段中，输入 Cloud Storage 存储桶的名称，格式如下：gs://bucket-name。
在 Cloud Storage 通知政策中使用的 Pub/Sub 订阅字段中，输入包含 Pub/Sub 订阅名称的路径。在本教程中，请输入 projects/project-name/subscriptions/my_integration_notifs_sub。

project-name 是您的 Google Cloud 项目名称的占位符。此外，您在本教程的为 Cloud Storage 存储桶启用 Pub/Sub 通知部分创建了 my_integration_notifs_sub 订阅。
在 Datastream 输出文件格式 (avro/json) 字段中输入 avro，因为在本教程中，Avro 是 Datastream 写入 Cloud Storage 的文件的格式。
在包含暂存表的数据集的名称或模板字段中输入 My_integration_dataset_log，因为 Dataflow 使用此数据集暂存从 Datastream 接收的数据更改。
在包含副本表的数据集的模板字段中输入 My_integration_dataset_final，因为将在此数据集中合并暂存在 My_integration_dataset_log 数据集中的更改，以创建源数据库中表的一对一副本。

您在本教程的在 BigQuery 中创建数据集部分创建了 My_integration_dataset_log 和 My_integration_dataset_final 数据集。
在死信队列目录字段中，输入包含 Cloud Storage 存储桶的名称和死信队列文件夹的路径。确保您未使用根文件夹中的路径，并且该路径与 Datastream 写入数据的路径不同。Dataflow 无法转移到 BigQuery 的任何数据更改都会存储在队列中。您可以修复队列中的内容，以便 Dataflow 可以重新处理它。

在本教程中，请在死信队列目录字段中输入 gs://bucket-name/dlq（其中，bucket-name 是您的存储桶的名称，dlq 是死信队列的文件夹）。
点击运行作业。

验证集成

在本教程的验证数据流部分中，您已确认 Datastream 将数据从源 MySQL 数据库的所有表转移到 Cloud Storage 目标存储桶的 /integration/tutorial 文件夹中。

在本部分中，您将验证 Dataflow 是否处理包含与此数据关联的文件，以及是否将更改传输到 BigQuery。因此，Datastream 和 BigQuery 之间具有端到端集成。

在 Google Cloud 控制台中，前往 BigQuery 的 SQL 工作区页面。

转到“SQL 工作区”页面
在探索器窗格中，展开 Google Cloud 项目名称旁边的节点。
展开 My_integration_dataset_log 和 My_integration_dataset_final 数据集旁边的节点。
验证每个数据集现在是否包含数据。这会确认 Dataflow 已处理与 Datastream 流式传输到 Cloud Storage 中的数据相关联的文件，并且已将这些更改转移到 BigQuery 中。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用，请使用 Google Cloud 控制台执行以下操作：

删除您的项目、Datastream 数据流和 Datastream 连接配置文件。
停止 Dataflow 作业。
删除 BigQuery 数据集、Pub/Sub 主题和订阅以及 Cloud Storage 存储桶。

清理您在 Datastream、Dataflow、BigQuery、Pub/Sub 和 Cloud Storage 上创建的资源后，这些资源不会占用配额，日后也不会产生费用。

删除项目

若要避免产生费用，最简单的方法是删除您为本教程创建的项目。

在 Google Cloud 控制台中，前往管理资源页面。

转到“管理资源”页面
在项目列表中，选择要删除的项目，然后点击删除。
如需删除项目，请在对话框中输入项目 ID，然后点击关停。

删除数据流

在 Google Cloud 控制台中，前往 Datastream 的数据流页面。

转到“数据流”页面
点击要删除的数据流。在本教程中，这是我的数据流。
点击暂停。
在对话框中，点击暂停。
在数据流详情页面的数据流状态窗格中，验证数据流的状态是否为 Paused。

在删除数据流之前，请先暂停该数据流，以确保所有“运行中”数据从源数据库转移到目标位置。
点击删除。
在对话框的文本字段中输入 Delete，然后点击删除。

删除连接配置文件

在 Google Cloud 控制台中，前往 Datastream 的连接配置文件页面。

转到“连接配置文件”页面
选中您要删除的每个连接配置文件对应的复选框：我的来源连接配置文件和我的目标连接配置文件。
点击删除。
在该对话框中，点击删除。

停止 Dataflow 作业

在 Google Cloud 控制台中，前往 Dataflow 的作业页面。

转到作业页面
点击要停止的作业。在本教程中，这是 my-dataflow-integration-job。
点击停止。
在停止作业对话框中，选择排空选项，然后点击停止作业。

Dataflow 会完成对所有剩余缓冲数据的处理，以便在作业停止之前将所有“运行中”数据转移到 BigQuery。

删除 BigQuery 数据集

在 Google Cloud 控制台中，前往 BigQuery 的 SQL 工作区页面。

转到“SQL 工作区”页面
在探索器窗格中，展开 Google Cloud 项目名称旁边的节点。
点击您在在 BigQuery 中创建数据集中创建的其中一个数据集右侧的查看操作按钮。该按钮形似垂直省略号。

在本教程中，点击 My_integration_dataset_log 右侧的查看操作按钮。
从显示的下拉菜单中选择删除。
在删除数据集？对话框中，在文本字段中输入 delete，然后点击删除。
重复此过程中的步骤，删除您创建的第二个数据集：My_integration_dataset_final。

删除 Pub/Sub 订阅和主题

在 Google Cloud 控制台中，前往 Pub/Sub 的订阅页面。

转到“订阅”页面
点击要删除的订阅旁边的复选框。在本教程中，点击 my_integration_notifs_sub 订阅旁边的复选框。
点击删除。
在删除订阅对话框中，点击删除。
在 Google Cloud 控制台中，前往 Pub/Sub 的主题页面。

转到“主题”页面
点击 my_integration_notifs 主题旁边的复选框。
点击删除。
在删除主题对话框中，在文本字段中输入 delete，然后点击删除。

删除您的 Cloud Storage 存储桶

在 Google Cloud 控制台中，前往 Cloud Storage 的浏览器页面。

转到“浏览器”页面
选中相应存储桶旁边的复选框。
点击删除。
在对话框的文本字段中输入 Delete，然后点击删除。

后续步骤

详细了解 Datastream。
使用旧版流式传输 API 将流式数据传输到 BigQuery 中，以实现高级功能。
自行试用其他 Google Cloud 功能。查阅我们的教程。