适用于 Apache Flink 的 BigQuery 引擎概览

适用于 Apache Flink 的 BigQuery 引擎是 Google Cloud 服务,可帮助您运行 Apache Flink。您可以专注于构建流式应用,而无需费心管理基础设施。

适用于 Apache Flink 的 BigQuery 引擎可为您提供 Apache Flink 的优势,包括状态管理、事件时间处理语义和“正好一次”语义,同时可完全集成到 Google Cloud中。 Google Cloud集成提供了自动扩缩和监控等其他功能,并简化了与其他 Google Cloud 服务(例如 BigQuery 和 Google Cloud Managed Service for Apache Kafka)的连接。

如需详细了解 Apache Flink,请访问 Apache Flink 网站

适用于 Apache Flink 的 BigQuery 引擎的优势

适用于 Apache Flink 的 BigQuery 引擎可帮助您在 Google Cloud上运行安全可伸缩的 Apache Flink 流水线。适用于 Apache Flink 的 BigQuery 引擎提供以下功能:

  • 运行与您的现有部署兼容的开源 Apache Flink。适用于 Apache Flink 的 BigQuery 引擎使用 Apache Flink 的 API 和生态系统。

  • 让您可以在全代管式环境中使用开源软件。您无需维护基础架构即可维护开源工作流。

  • 自动执行伸缩、升级和维护,这可减少运营开销,让您专注于应用。

  • 提高流水线可观测性。BigQuery Engine for Apache Flink 与 Cloud Logging 和 Cloud Monitoring 完全集成,可让您在 Google Cloud 控制台中监控作业。

  • 通过与其他 Google Cloud服务(例如 Google Cloud Managed Service for Apache Kafka、BigQuery、Cloud Monitoring 和 Cloud Logging)集成,简化流水线管理。

代管式

适用于 Apache Flink 的 BigQuery 引擎是一项代管式服务,这意味着 Google 会管理运行作业和部署所需的资源。当您运行适用于 Apache Flink 的 BigQuery 引擎作业时,该服务会分配所需资源来执行流水线。您无需预配或管理计算资源。如需详细了解费用,请参阅 适用于 Apache Flink 的 BigQuery Engine 价格

扩缩能力强

适用于 Apache Flink 的 BigQuery 引擎旨在支持大规模的批处理和流式流水线。数据会并行处理,因此工作会分布在多个任务槽中。适用于 Apache Flink 的 BigQuery 引擎可以通过预配额外的任务槽或者根据需要关停任务槽来自动扩缩。它还会根据流水线的特性优化工作。

Observable

您可以通过Google Cloud 控制台中的监控界面监控 BigQuery Engine for Apache Flink 作业的状态。使用 Google Cloud 控制台跟踪与作业运行相关的指标。

工作原理

适用于 Apache Flink 的 BigQuery 引擎会运行您的 Apache Flink 部署和作业。

部署是用于运行 Apache Flink 作业的专属独立环境。该部署包含运行作业所需的计算资源,以及用于管理作业的配置。

作业用于运行 Apache Flink 流水线。您可以在现有部署中运行作业,也可以创建按需作业。

适用于 Apache Flink 的 BigQuery 引擎会上传您的可执行代码和依赖项,并创建适用于 Apache Flink 的 BigQuery 引擎部署或作业。然后,它会分配任务槽来运行流水线。任务槽是资源(例如内存)的固定子集。

下图显示了使用适用于 Apache Flink 的 BigQuery Engine 和其他 Google Cloud 服务的典型 ETL 和 BI 解决方案:

使用适用于 Apache Flink 的 BigQuery 引擎的 ETL 和 BI 解决方案的示意图

下图显示了以下阶段:

  1. Google Cloud Managed Service for Apache Kafka 会从外部系统提取数据。
  2. 适用于 Apache Flink 的 BigQuery 引擎会从 Google Cloud Managed Service for Apache Kafka 读取数据,并将其写入 BigQuery。在此阶段,适用于 Apache Flink 的 BigQuery 引擎可能会转换或汇总数据。
  3. BigQuery 充当数据仓库,可让数据分析师对数据运行临时查询。
  4. Looker 可根据存储在 BigQuery 中的数据提供实时 BI 数据分析。

如需了解详情,请参阅 Apache Flink 文档中的 Apache Flink 架构部署部分。

后续步骤