跳转到

什么是流式分析?

流式分析是指对数据记录进行连续不断地处理和分析,而不是分批进行。通常,流式分析对于在生成数据时连续发送少量数据(通常为 KB 级)的数据源类型很有用。

了解 Google Cloud 的统一流式和批量数据处理服务 Dataflow

流式分析概览

流式分析可能包括各种各样的数据源,例如来自连接设备的遥测、客户使用 Web 应用生成的日志文件、电子商务交易或来自社交网络或地理空间服务的信息。流式分析通常用于实时汇总和关联、过滤或采样。

传统上,数据是批量移动的。批处理通常会同时处理大量数据,延迟时间较长。例如,一个流程可能每 24 小时运行一次。虽然这可能是处理大量数据的有效方法,但它并不适用于对时间敏感、需要流式传输的数据,因为这些数据在处理时可能已经过时了。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣在 Google Cloud 上的支出。
开始使用
与 Google Cloud 销售专员联系,详细讨论您的独特挑战。
与我们联系

如何优化流式分析

当公司以每秒几十万甚至上百万个事件的速度收集数据时,就会产生非常庞大的数据集。传统系统可能需要几天的时间才能从这种规模的数据中获得数据洞见。

如需生成实时操作,您需要进行实时数据处理和分析。这可以通过正确的数据流平台和基础架构来实现。例如,基于 Google Cloud 产品和服务的流式分析能够帮助公司实时注入、处理和分析数据流。

流式分析使用场景

公司使用流式分析来实时分析数据,并针对各种活动提供数据洞见,例如计量、服务器活动,设备地理定位或网站点击次数。一些可能的使用场景如下:

电子商务

分析用户点击流,通过实时定价、促销和库存管理来优化购物体验。

金融服务

分析帐号活动以检测数据流中的异常行为,并为异常行为生成安全提醒。

投资服务

跟踪市场变化,并根据已配置的限制条件调整客户投资组合设置,例如在达到某个库存值时出售。

新闻媒体

对来自各种新闻媒体平台的用户点击记录进行流式分析,并通过受众特征信息丰富数据,以更好地提供与目标受众群体相关的文章。

公用事业

在达到既定阈值时,监控整个电网的吞吐量并生成提醒或启动工作流。

Google Cloud 提供的流式分析使数据更有条理、更加有用,令其从生成的一刻起就可访问。Google Cloud 流式分析以 Pub/SubDataflowBigQuery 自动扩缩基础架构为基础而构建,可预配所需的资源来注入、处理和分析数量不断波动的实时数据,提供实时业务数据洞见和可执行的操作。这种抽象化的预配降低了复杂性,使数据分析师和数据工程师都能进行流式分析。