数据流分析和实时数据分析

实时提取、处理和分析事件数据流

免费试用 与销售人员联系

异常轻松地实现实时性能

Google Cloud 的数据流分析服务可让数据在生成的那一刻起便整理妥当、发挥作用并便于访问。Google 的流处理解决方案构建于包含其核心组件(Cloud Pub/Sub、Cloud Dataflow 和 BigQuery)的自动扩缩基础架构之上,可准确预配所需的资源,提取、处理和分析数量变化不定的实时数据,从而能够降低复杂性。Google Cloud 对预配过程进行了抽象化处理,可让数据分析师和数据工程师通过简单而熟悉的工具使用数据流分析服务。

Google Cloud 提供的数据流分析服务

自动扩展基础架构,减少后顾之忧

即使您不确定具体作业的确切需求,Google Cloud 的流处理基础架构也能通过自动扩缩来满足您的需要。这意味着您只需专心进行实时分析并获取实用信息,而将变化不定的数据量、性能调整和资源预配等方面的难题交由 Google 来处理。您无需提前计划或超额预配,也无需为未使用的资源额外付费。

基础架构扩容

采用简单的提取服务来处理复杂的事件

Cloud Pub/Sub 是 Google Cloud 的数据流提取服务,每秒可提取和递送数亿个事件。使用 Cloud Pub/Sub 后,一旦有事件发布到某个主题,任意数量的数据流水线都可以接收该事件。全球性的主题,让您可以直接从服务器或通过 IoT Core 从连接的设备跨所选的众多地理位置无缝提取数据流。在基于 SQL 的 ELT 用例中,BigQuery 的流处理 API 可直接将数据流提取到数据仓库。对于 Apache Kafka 用户,Confluent 与 Google Cloud 联手提供了原生服务形式的 Kafka。

数据流提取服务

统一了流处理和批处理,不受任何束缚

Cloud Dataflow 旨在处理实际的流处理作业。在这种处理过程中,那些为分析目的而需要加以丰富和转换的数据可以通过批量模式、数据流模式和文件流模式进入。工程师可以通过 Apache Beam(Cloud Dataflow 的开源 SDK)跨这些模式重复使用代码。Beam 可为混合或多云环境带来流水线可移植性(可移植到 Apache Flink、Samza 和其他框架),并可提供编程语言灵活性(支持 Python、SQL 和 Java)。Dataflow 可自动处理资源管理任务,并可确保对数据只进行“正好一次”处理,从而使您的流处理流水线更加一致和可靠。

实际的流处理和批处理

在探索下一代 AI 的同时保留您当前的工具

现有的本地和云端流处理架构通常会部署 Apache Kafka 和 Apache Spark。Google Cloud 可以通过 Confluent Cloud 和 Cloud Dataproc 桥接、迁移或扩展这些解决方案。如果将这些服务与 Cloud Data Fusion 的 GUI 结合使用,数据分析师和工程师可以构建流处理流水线。无论您选择以何种方式实现实时分析,也无论您是否具备机器学习方面的相关经验,Google Cloud 的众多低门槛 AI 产品都可以帮助您强化数据流分析并加快行动速度。

探索下一代 AI

解决方案组件

服务 数据流分析使用场景
Cloud Pub/Sub 用于大规模提取来自世界各地的流式数据。(此解决方案中的开源替代方案:Apache Kafka)
Cloud Dataflow 用于以流式和批量模式对提取的数据进行转换并丰富其内容,同时保持同等的可靠性和表现力。(此解决方案中的开源替代方案:Cloud Dataproc 上的 Spark)
BigQuery 全托管式数据仓库服务,支持每秒 10 万次流式行插入,并可通过标准 SQL 对实时数据进行即时分析。
Apache Beam 适用于编写流处理流水线和批处理流水线的统一开发框架。由 Google 通过 Cloud Dataflow SDK 2.x 提供。
Cloud Machine Learning 通过自定义 (Cloud Machine Learning Engine) 或预先构建 (Cloud API) 的基于 TensorFlow 的机器学习模型对事件流进行分析,为您的流水线添加智能层级。
Cloud Bigtable 低延时的宽列键值存储,非常适合用于大批量时间序列和对读取延时敏感的应用。

其他资源

“正好一次”处理

了解 Cloud Dataflow 中“正好一次”处理的含义。

查看博文

Cloud Dataflow:示例流水线

通过移动游戏示例,了解流水线的工作方式。

查看文档

Codelab:NYC Taxi Tycoon

逐步完成向导式实际编码教程,了解如何通过 Dataflow 和 Pub/Sub 处理流式数据。

探索示例应用

金融服务解决方案

构建一个具备扩缩能力,可处理数千个同步数据流、近乎实时的分析系统。

阅读解决方案论文

架构图

了解可用于对 Google Cloud Platform 上的大规模分析提取作业进行优化的架构。

阅读文章

数据流基础知识(Streaming 101)

阅读 Tyler Akidau 的开创性论文,了解批处理之外的数据处理方式。

阅读论文