使用 Datastream 近乎实时地流式传输数据更改

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Datastream API.

    Enable the API

  7. 确保您已将 Datastream Admin 角色分配给您的用户账号。

    转到 IAM 页面

如果要为标准或共享 VPC 网络创建专用连接配置,还需要满足其他前提条件。如需了解详情,请参阅创建专用连接配置

使用要求

Datastream 提供各种来源选项、目标选项和网络连接方法。

在本快速入门中,我们假设您使用的是独立的 Oracle 数据库和目标 Cloud Storage 服务。对于源数据库,您应该能够将网络配置为添加入站防火墙规则。源数据库可以位于本地,也可以位于云提供商。由于目标位置是 Cloud Storage,因此它应该位于 Google 的云提供商中。

由于我们无法获知您环境的具体细节,因此我们无法提供网络配置的详细步骤。

对于此快速入门,您将选择 IP 许可名单作为连接方法。IP 许可名单是一项安全功能,通常用于仅限受信任的用户访问您的源数据库中的数据并对这些访问进行控制。您可以使用 IP 许可名单创建受信任的 IP 地址或 IP 地址范围列表,您的用户和其他 Cloud 服务(如 Datastream)可通过这些地址访问此数据。要使用 IP 许可名单,您必须向来自 Datastream 的传入连接开放源数据库或防火墙。

创建连接配置文件

通过为源数据库和目标位置创建连接配置文件,您可以创建包含来源和目标位置相关信息的记录。

在本快速入门中,选择 Oracle 作为来源连接配置文件的类型,选择 Cloud Storage 作为目标连接配置文件的类型。Dataflow 使用连接配置文件中的信息将源 Oracle 数据库中的数据迁移到 Cloud Storage 中的目标存储桶。

为 Oracle 数据库创建来源连接配置文件

  1. 转到 Google Cloud Console 中 Datastream 的连接配置文件页面。

    转到“连接配置文件”页面

  2. 点击创建配置文件

  3. 创建连接配置文件页面中,点击 Oracle 配置文件类型(因为您希望为 Oracle 数据库创建来源连接配置文件)。

  4. 创建 Oracle 配置文件页面的定义连接设置部分中提供以下信息:

    • 输入 My Source Connection Profile 作为源数据库的连接配置文件名称
    • 保留自动生成的连接配置文件 ID
    • 选择用于存储连接配置文件的地区

    • 输入连接详情

      • 主机名或 IP 字段中,输入 Datastream 可用于连接到源 Oracle 数据库的主机名或公共 IP 地址。您将提供公共 IP 地址,因为 IP 许可名单将用作本快速入门的网络连接方法。
      • 端口字段中,输入为源数据库预留的端口号。对于 Oracle 数据库,默认端口通常为 1521
      • 输入用户名密码,对源数据库进行身份验证。
      • 系统标识符 (SID) 字段中,输入标识数据库实例的 SID 或服务名称。对于 Oracle 数据库,这通常为 ORCL
  5. 定义连接设置部分中,点击继续创建 Oracle 配置文件页面的定义连接方法部分处于活动状态。

  6. 选择要在 Datastream 和源数据库之间建立连接的网络方法。在本快速入门中,使用连接方法下拉菜单选择 IP 许可名单作为网络方法。

  7. 配置源数据库以允许来自显示的 Datastream 公共 IP 地址的传入连接。

  8. 定义连接方法部分中,点击继续创建 Oracle 配置文件页面的测试连接配置文件部分处于活动状态。

  9. 点击运行测试,验证源 Oracle 数据库和 Datastream 是否可以相互通信。

  10. 验证是否显示“已通过测试”状态。

  11. 如果测试失败,您可以在流程的相应部分解决问题,然后返回重新测试。请参阅诊断问题页面,了解问题排查步骤。

  12. 点击创建

为 Cloud Storage 创建目标连接配置文件

  1. 转到 Google Cloud Console 中 Datastream 的连接配置文件页面。

    转到“连接配置文件”页面

  2. 点击创建配置文件

  3. 创建连接配置文件页面中,点击 Cloud Storage 配置文件类型(因为您希望为 Cloud Storage 创建目标连接配置文件)。

  4. 创建 Cloud Storage 配置文件页面中提供以下信息:

    • 输入 My Destination Connection Profile 作为目标 Cloud Storage 服务的连接配置文件名称
    • 保留自动生成的连接配置文件 ID
    • 选择用于存储连接配置文件的地区
    • 连接详情窗格中,点击浏览
    • 选择存储桶窗格中,选择 Datastream 要将源数据库中的数据转移到的目标 Cloud Storage 存储桶,然后点击选择

      您的存储桶会显示在创建 Cloud Storage 配置文件页面的存储桶名称字段中。

    • (可选)在连接配置文件路径前缀字段中,您可以提供一个在 Datastream 将数据转移到目标位置时要追加到存储桶名称中的路径的前缀。

  5. 点击创建

为 Oracle 数据库创建来源连接配置文件,并为 Cloud Storage 创建目标连接配置文件后,您可以使用它们来创建数据流。

创建数据流

在本部分中,您将创建一个数据流。Datastream 使用此数据流将数据从源 Oracle 数据库转移到 Cloud Storage 中的目标存储桶。

创建数据流涉及到:

  • 定义数据流的设置。
  • 选择您为源数据库创建的连接配置文件(来源连接配置文件)。在本快速入门中,我们使用的是我的来源连接配置文件
  • 通过在源数据库中指定 Datastream 对其执行以下操作的表和架构,配置数据流的源数据库的相关信息:
    • 可以转移到目标位置。
    • 无法转移到目标位置。
  • 确定 Datastream 是回填历史数据并将进行中的更改流式传输到目标位置,还是仅流式传输对数据的更改。
  • 选择您为 Cloud Storage 创建的连接配置文件(目标连接配置文件)。在本快速入门中,我们使用的是我的目标连接配置文件
  • 配置有关数据流的目标存储桶的信息。此类信息包括:
    • DataStream 将架构、表和数据从源 Oracle 数据库转移到的目标存储桶的文件夹。
    • 写入 Cloud Storage 的文件的输出格式。Datastream 目前支持两种输出格式:Avro 和 JSON。在本快速入门中,使用 Avro 文件格式。

定义数据流的设置

  1. 转到 Google Cloud Console 中数据流页面。

    转到“数据流”页面

  2. 点击创建信息流

  3. 创建数据流页面的定义数据流详情面板中提供以下信息:

    • 输入 My Stream 作为数据流名称
    • 保留自动生成的数据流 ID
    • 地区菜单中,选择您创建来源连接配置文件的地区。
    • 来源类型菜单中,选择 Oracle 配置文件类型。
    • 目标类型菜单中,选择 Cloud Storage 配置文件类型。
  4. 查看自动生成的必要前提条件,以反映如何为数据流准备您的环境。这些前提条件可能包括如何配置源数据库,以及如何将 Datastream 连接到 Cloud Storage 中的目标存储桶。

  5. 点击继续。系统会显示创建数据流页面的定义 Oracle 连接配置文件面板。

指定有关来源连接配置文件的信息

  1. 来源连接配置文件菜单中,选择 Oracle 数据库的来源连接配置文件

  2. 点击运行测试,验证源数据库和 DataStream 是否可以相互通信。

    如果测试失败,会显示与连接配置文件关联的问题。请参阅诊断问题页面,了解问题排查步骤。进行必要的更改以纠正问题,然后重新测试。

  3. 点击继续。系统会显示创建数据流页面的配置数据流来源面板。

配置有关数据流的源数据库的信息

  1. 使用要包含的对象菜单指定源数据库中 Datastream 可以转移到 Cloud Storage 目标存储桶中的文件夹的表和架构。只有当您的数据库中最多包含 5,000 个对象时,该菜单才会加载。

    在本快速入门中,您希望 Datastream 转移所有表和架构。因此,请从菜单中选择所有架构中的所有表

  2. 点击继续。系统显示创建数据流页面的定义 Cloud Storage 连接配置文件面板。

选择目标连接配置文件

  1. 目标连接配置文件菜单中,选择 Cloud Storage 的目标连接配置文件

  2. 点击继续。系统会显示创建数据流页面的配置数据流目标位置面板。

配置有关数据流的目标位置的信息

  1. 数据流路径前缀字段中,输入 Datastream 将架构、表和数据从源 Oracle 数据库转移到的目标存储桶的文件夹。

    在本快速入门中,您希望 Datastream 将数据从源数据库转移到 Cloud Storage 目标存储桶中的 /root/tutorial 文件夹。因此,请在数据流路径前缀字段中输入 /root/tutorial

  2. 输出格式字段中,选择写入 Cloud Storage 的文件的格式。在本快速入门中,使用 Avro 文件格式。

  3. 点击继续。系统会显示创建数据流页面的审核数据流详情并创建面板。

创建数据流

  1. 验证数据流的详细信息,以及数据流用于将数据从源 Cloud 数据库转移到 Cloud Storage 中目标存储桶的来源和目标连接配置文件。

  2. 点击运行验证来验证数据流。通过验证数据流,Datastream 会检查来源是否配置正确,验证数据流是否可以连接到来源和目标位置,并验证数据流的端到端配置。

  3. 所有验证检查都通过后,点击创建

  4. 创建数据流?对话框中,点击创建

创建数据流后,您可以启动它。

启动数据流

在本快速入门的上一部分中,您创建了一个数据流,但并未启动它。您现在可以进行启动。

在本快速入门中,您将分别创建和启动数据流,以防数据流创建过程造成源数据库负载增加。如需消除该负载,您需要创建数据流但不启动它,然后在可产生负载时启动数据流。

通过启动数据流,Datastream 可以将数据、架构和表从源数据库转移到目标位置。

  1. 转到 Google Cloud Console 中数据流页面。

    转到“数据流”页面

  2. 选择要启动的数据流左侧的复选框。在本快速入门中,这是我的数据流

  3. 点击启动

  4. 在对话框中,点击启动。数据流的状态从 Not started 更改为 Starting,再更改为 Running

启动数据流后,您可以验证 Dataflow 是否将数据从源数据库转移到目标位置。

验证数据流

在本部分中,您将确认 Dataflow 将数据从源 Oracle 数据库的所有表转移到 Cloud Storage 目标存储桶的 /root/tutorial 文件夹中。

  1. 转到 Google Cloud Console 中数据流页面。

    转到“数据流”页面

  2. 点击您创建的数据流。在本快速入门中,这是我的数据流

  3. 数据流详情页面中,点击目标写入路径字段下方显示的链接。Cloud Storage 的存储桶详情页面会在单独的标签页中打开。

  4. 验证您是否看到表示源 Oracle 数据库的表的文件夹。

  5. 点击其中一个表文件夹并展开细目,直到您看到与该表关联的数据。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 使用 Google Cloud 控制台删除您的项目、Datastream 流和连接配置文件以及 Cloud Storage 目标存储桶。

清理您在 Datastream 上创建的资源后,这些资源不会占用配额,日后也不会产生费用。以下部分介绍如何删除或关闭这些资源。

删除项目

若要避免产生费用,最简单的方法是删除您为本快速入门创建的项目。

  1. 在 Cloud Console 中,转到管理资源页面:

    转到“管理资源”页面

  2. 在项目列表中,选择要删除的项目,然后点击删除

  3. 在对话框中输入项目 ID,然后点击关停以删除项目。

删除数据流

  1. 转到 Google Cloud Console 中数据流页面。

    转到“数据流”页面

  2. 点击要删除的数据流。在本快速入门中,这是我的数据流

  3. 点击暂停

  4. 在对话框中,点击暂停

  5. 数据流详情页面的数据流状态窗格中,验证数据流的状态是否为 Paused

  6. 点击删除

  7. 在对话框中的文本字段中输入 Delete,然后点击删除

删除连接配置文件

  1. 转到 Google Cloud Console 中 Datastream 的连接配置文件页面。

    转到“连接配置文件”页面

  2. 选中您要删除的每个连接配置文件对应的复选框。在本快速入门中,选中我的来源连接配置文件我的目标连接配置文件对应的复选框。

  3. 点击删除

  4. 在对话框中,点击删除

删除您的 Cloud Storage 目标存储桶

  1. 转到 Google Cloud Console 中 Cloud Storage 的浏览器页面。

    转到“浏览器”页面

  2. 选中存储桶左侧的复选框,然后点击删除

  3. 在对话框中的文本字段中输入 DELETE,然后点击删除

后续步骤