Cloud Data Fusion 支持流式数据流水线中的 Pub/Sub 来源。
准备工作
角色与权限
如需获取从 Pub/Sub 流式来源读取内容所需的权限,请让管理员向您授予对用于访问 Pub/Sub 订阅的服务帐号的 Pub/Sub Editor (roles/pubsub.editor
) IAM 角色。如需详细了解如何授予角色,请参阅管理访问权限。
此预定义角色包含从 Pub/Sub 流式来源读取数据所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
如需从 Pub/Sub 流式来源读取数据,您需要具备以下权限:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
您可以针对在插件属性中指定的服务帐号授予用于访问 Pub/Sub 的角色。如果未指定,则授予对 Dataproc 服务帐号的角色。
如需详细了解如何授予角色,请参阅管理访问权限。
将 Pub/Sub 来源添加到流式数据流水线
转到您的实例:
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
在 Cloud Data Fusion 网页界面中,点击 Studio。
选择数据流水线 - 实时。
在来源菜单中,选择 Pub/Sub。Pub/Sub 流式传输源节点将显示在流水线中。
在 Pub/Sub 节点上,点击属性以配置来源。如需了解详情,请参阅 Pub/Sub 流式传输来源。
支持单个 Pub/Sub 来源,无需 Windower 插件
Cloud Data Fusion 6.9.1 版支持具有单个 Pub/Sub 流处理来源且没有 Windower 插件的实时流水线。
- Pub/Sub 流式传输来源具有内置支持,并且数据至少处理一次。无需启用 Spark 检查点。
- Pub/Sub 流式来源会在每批开始时创建 Pub/Sub 快照,并在每个批次结束时删除该快照。
- 创建 Pub/Sub 快照会产生费用。如需了解详情,请参阅 Pub/Sub 价格。
- 您可以在 Cloud Audit Logs 中监控快照的创建过程。
升级具有 Pub/Sub 流式来源的流水线
对于具有在 6.9.1 或更高版本中创建的 Pub/Sub 流处理来源的流处理流水线,Cloud Data Fusion 支持直接应用升级。
Cloud Data Fusion 不支持在 6.9.0 或更低版本中对具有 Pub/Sub 流式来源的数据流水线进行升级。请改为将这些流水线升级到 6.9.1:
- 在计划升级实例时,停止将数据发布到主题。
- 等待流水线处理完已发布的数据。
- 完全处理数据后,停止流水线。
- 升级实例。
- 复制现有流水线并更新到最新插件。
- 部署流水线。
运行新流水线以读取数据。
新版本自动使用快照,而不是 Spark 检查点。
删除旧流水线。
后续步骤
- 参阅 CDAP Pub/Sub 流式传输来源。