从 Pub/Sub 流式传输来源读取

Cloud Data Fusion 支持流式数据流水线中的 Pub/Sub 源。

准备工作

角色与权限

如需获得从 Pub/Sub 流式来源读取数据所需的权限,请让您的管理员为您授予用于访问 Pub/Sub 订阅的服务账号的 Pub/Sub Editor (roles/pubsub.editor) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

此预定义角色包含从 Pub/Sub 流式来源读取数据所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

如需从 Pub/Sub 流式来源读取数据,您需要拥有以下权限:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

您也可以使用自定义角色或其他预定义角色来获取这些权限。

您需要为插件属性中指定的用于访问 Pub/Sub 的服务账号授予相应角色。如果未指定,请向 Dataproc 服务账号授予相应角色。

如需详细了解如何授予角色,请参阅管理访问权限

向流式处理数据流水线添加 Pub/Sub 来源

  1. 前往您的实例:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 在 Cloud Data Fusion 网页界面中,点击 Studio

  3. 选择数据流水线 - 实时

  4. 来源菜单中,选择 Pub/Sub。流水线中会显示一个 Pub/Sub 流式处理源节点。

  5. 在 Pub/Sub 节点上,点击属性以配置来源。如需了解详情,请参阅 Pub/Sub 流式来源

支持单个 Pub/Sub 源,不含 Windower 插件

Cloud Data Fusion 版本 6.9.1 支持具有单个 Pub/Sub 流式来源且没有 Windower 插件的实时流水线。

  • Pub/Sub 流式处理数据源具有内置支持,并且数据至少会被处理一次。无需启用 Spark 检查点。
  • Pub/Sub 流式来源会在每个批次开始时创建一个 Pub/Sub 快照,并在每个批次结束时将其移除。
  • 创建 Pub/Sub 快照会产生相关费用。如需了解详情,请参阅 Pub/Sub 价格
  • 您可以在 Cloud Audit Logs 中监控快照创建情况。

升级具有 Pub/Sub 流式来源的流水线

Cloud Data Fusion 支持对在 6.9.1 或更高版本中创建的具有 Pub/Sub 流式来源的流式流水线进行直接应用升级

Cloud Data Fusion 不支持在 6.9.0 版或更低版本中升级具有 Pub/Sub 流式传输数据源的数据流水线。请改为将这些流水线升级到 6.9.1:

  1. 计划升级实例时,停止向主题发布数据。
  2. 等待流水线完成对已发布数据的处理。
  3. 数据完全处理完毕后,停止流水线。
  4. 升级实例
  5. 复制现有流水线并更新到最新插件。
  6. 部署流水线。
  7. 运行新流水线以读取数据。

    新版本会自动使用快照,而不是 Spark 检查点。

  8. 删除旧流水线。

后续步骤