数据流分析解决方案

在全托管式基础架构上实时提取、处理和分析事件数据流

免费试用 与销售人员联系

集成的开放式数据流分析

数据流分析已成为批处理 ETL 的替代解决方案并且更加简单快捷,可用于从用户交互事件、应用日志及机器日志中汲取最大价值。快速高效地提取、处理和分析这些数据流对于欺诈检测、点击流分析和在线建议等使用场景至关重要。对于这些使用场景,Google Cloud 提供了一个集成的开放式数据流分析解决方案,该方案非常易于实现、扩容和管理。

在事件发生时即时响应

借助由 Google 独一无二的高速专用网络驱动的 Cloud Pub/Sub,每秒可从世界各地提取数百万流式事件。使用 Cloud Dataflow 处理数据流,以确保实现可靠、低延时的数据转换,并且转换正好一次。将转换后的数据流式传输到 BigQuery(云端原生的数据仓库服务),以便通过 SQL 或常用的可视化工具即时进行分析。最后,通过将基于 TensorFlow 的 Cloud Machine Learning 模型和 API 集成到您的流式数据流水线,为欺诈检测、实时个性化设置和类似的使用场景提供预测分析功能。

加速开发,无需牺牲其他方面

Google Cloud Platform (GCP) 上的数据流分析简化了 ETL 流水线,且稳健性、准确性或功能均不受影响。Cloud Dataflow 支持通过 Apache Beam SDK 中表现力出色的 Java 和 Python API 实现快速的流水线开发。该 SDK 提供一组丰富的数据选取和会话分析基础功能,以及一个包含众多源连接器与接收器连接器的生态系统。此外,得益于 Beam 独特而统一的开发模型,您可以跨流处理流水线和批处理流水线复用更多代码。

简化运营和管理

在您部署流式数据处理流水线后,GCP 的无服务器方案可为您降低运营开销,同时可自动处理性能、容量、可用性、安全性和合规性问题。借助与 Stackdriver(GCP 的统一日志记录和监控解决方案)的集成,您可以在流水线运行时对其进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您发现和处理潜在的问题。

继续使用您喜爱的工具和系统

GCP 上的数据流分析采用可互操作的开放式设计。Cloud Pub/Sub 的开放式 API 和多种客户端让您可以实现多云部署和混合式部署。Apache Kafka 用户可使用 Google 推荐的 Confluent 运行托管式 Kakfa,并可使用 Cloud Dataflow 连接器自行轻松集成 GCP。BigQuery 能通过标准 SQL 与您熟知和喜爱的 ETL 和 BI 工具无缝配合工作。使用基于 Beam 的 Cloud Dataflow 2.x SDK 编写的数据处理流水线可在 Cloud Dataflow、Apache Spark 和 Apache Flink 之间移植。最后,Cloud Dataproc 可为流式传输工作负载和批处理工作负载提供 Spark 支持。

解决方案组件

服务 数据流分析使用场景
Cloud Pub/Sub 用于大规模提取来自世界各地的流式数据。(此解决方案中的开源替代方案:Apache Kafka)
Cloud Dataflow 用于以流式和批量模式对提取的数据进行转换并丰富数据内容,同时保持同等的可靠性和表现力。(此解决方案中的开源替代方案:Cloud Dataproc 上的 Spark)
BigQuery 全托管式数据仓库服务,支持每秒 10 万次流式行插入,并可通过标准 SQL 对实时数据进行即时分析。
Apache Beam 适用于编写流处理流水线和批处理流水线的统一开发框架。由 Google 以 Cloud Dataflow SDK 2.x 的形式提供。
Cloud Machine Learning 通过自定义 (Cloud Machine Learning Engine) 或预先构建 (Cloud API) 的基于 TensorFlow 的机器学习模型对事件流进行分析,使您的流水线更加智能。
Cloud Bigtable 低延时的宽列键值存储,非常适合用于大批量时间序列和对读取延时敏感的应用。

其他资源

“正好一次”处理

了解 Cloud Dataflow 中“正好一次”处理的含义。

查看博文

Cloud Dataflow:示例流水线

通过移动游戏示例,了解流水线的工作方式。

查看文档

代码实验室:NYC Taxi Tycoon

逐步完成向导式实践编码教程,了解如何通过 Dataflow 和 Pub/Sub 处理流式数据。

探索示例应用

金融服务解决方案

构建一个具备扩缩能力,可处理数千个同步数据流的近乎实时的分析系统。

阅读解决方案论文

架构图

了解可用于对 Google Cloud Platform 上的大规模分析提取作业进行优化的架构。

阅读文章

Streaming 101

阅读 Tyler Akidau 的开创性论文,了解不同于批处理的另一种数据处理方式。

阅读论文