数据生命周期

本文介绍了一些 Google Cloud Platform (GCP) 服务,您可以使用这些服务在从初始获取到最终可视化的整个数据生命周期中管理数据。您将了解每项服务的特性和功能,以便明智地为您的工作负载选择最合适的服务。

数据生命周期包含以下四个步骤:

  • 提取:第一阶段是提取原始数据,例如来自设备的流式数据、本地批量数据、应用日志或移动应用用户事件和分析。

  • 存储:获得数据后,需要以持久且易于访问的格式进行存储。

  • 处理和分析:在此阶段,数据从原始格式转换为实用的信息。

  • 探索和可视化:最后阶段是将分析结果转换为易于从中获得数据洞见并与同事和同行分享的格式。

在每个阶段,GCP 都提供多种服务来管理您的数据。这意味着您可以选择一组适合您的数据和工作流的服务。

将 GCP 服务映射到数据生命周期。

提取

您可以根据数据的多少、来源和延时情况采用多种方法来收集原始数据。

  • 应用:应用事件中的数据(例如日志文件或用户事件)通常在推送模型中收集,其中应用调用 API 以将数据发送到存储空间。

  • 流式:数据由连续的小型异步消息流组成。

  • 批量:大量数据存储在一组文件中,这些文件将批量传输到存储空间。

下图展示了 GCP 服务如何映射到“应用”、“流式”和“批量”工作负载。

将 GCP 服务映射到应用、流式和批量数据。

您选择的数据传输模型取决于您的工作负载,每个模型都有不同的基础架构要求。

提取应用数据

应用和服务会生成大量数据,包括应用事件日志、点击流数据、社交网络互动和电子商务交易等数据。收集和分析事件驱动的数据,可以呈现用户趋势并提供有价值的商业数据洞见。

GCP 提供了各种可用于托管应用的服务,例如 Compute Engine 的虚拟机、App Engine 的托管平台,以及 Google Kubernetes Engine (GKE) 的容器管理。

当您在 GCP 上托管应用时,您可以使用其内置工具和流程,将您的数据发送到 GCP 丰富的数据管理服务生态系统。

请参考以下示例:

  • 将数据写入文件:应用将批量 CSV 文件输出到 Cloud Storage 的对象存储。分析数据仓库 BigQuery 的导入函数可以从中拉取数据进行分析和查询。

  • 将数据写入数据库:应用将数据写入 GCP 提供的数据库之一,例如 Cloud SQL 的托管 MySQL 或 Cloud DatastoreCloud Bigtable 提供的 NoSQL 数据库。

  • 将数据作为消息进行流式传输:应用将数据流式传输到实时消息传递服务 Cloud Pub/Sub。订阅消息的第二个应用可以将数据传输到存储空间,或者在欺诈检测等应用情形中立即对其进行处理。

Stackdriver Logging:集中式日志管理

Logging 是一种集中式日志管理服务,可以从在 GCP 和其他公共和专用云平台上运行的应用收集日志数据。借助将数据发送到 Cloud StorageCloud Pub/SubBigQuery 的内置工具,可以导出 Logging 收集的数据。

许多 GCP 服务会自动将日志数据记录到 Logging。例如,在 App Engine 上运行的应用会自动记录每个请求的详细信息以及对 Logging 的响应。此外,您还可以将自定义日志记录消息写入 stdoutstderr,然后 Logging 会自动进行收集并在日志查看器中显示。

Logging 提供一个基于 fluentd 的 Logging 代理,该代理可在 Compute Engine 上托管的虚拟机 (VM) 实例以及由 GKE 管理的容器集群上运行。它将来自常见第三方应用和系统软件的日志数据流式传输到 Logging。

提取流式数据

流式数据是异步传输的,不需要回复,并且传输的消息为小型消息。通常,流式数据用于遥测,从地理位置分散的设备收集数据。流式数据可用于触发事件触发器、执行复杂的会话分析以及作为机器学习任务的输入。

以下是流式数据的两种常见用法。

  • 遥测数据:物联网 (IoT) 设备是网络连接设备,其通过传感器从周围环境收集数据。虽然每台设备可能每分钟只发送一个数据,但当您通过大量设备获得大量数据时,很快就需要应用大数据策略和模式。

  • 用户事件和分析:移动应用可能会在用户打开应用以及每次发生错误或出现崩溃时记录事件。从安装了此应用的各种移动设备上汇总这一数据,可以提供有关使用情况、指标和代码质量的宝贵信息。

Cloud Pub/Sub:实时消息传递

Cloud Pub/Sub 是一种实时消息传递服务,允许您在应用之间发送和接收消息。应用间消息传递的主要使用场景之一是提取流式事件数据。通过流式数据,Cloud Pub/Sub 可自动管理传入数据流的分片、复制、负载平衡和分区等各个方面的细节。

大多数流式数据是由分布在全球各地的用户或系统生成的。Cloud Pub/Sub 拥有全球端点,并利用 Google 的全球前端负载平衡器支持跨所有 GCP 区域的数据提取,并且具有最短的延时。此外,Cloud Pub/Sub 可快速自动扩缩以满足需求,而无需开发者预配系统资源。如需详细了解 Cloud Pub/Sub 如何扩缩,请参阅 Spotify 的案例研究。

Cloud Pub/Sub 通过主题组织消息流。应用将数据流式传输到 Cloud Pub/Sub 中的目标主题。当该主题收到消息时,Cloud Pub/Sub 会为其附加唯一标识符和时间戳。

在提取数据之后,一个或多个应用可以通过使用主题订阅来获取消息。此操作可以通过拉取或推送模型完成。在推送订阅中,Cloud Pub/Sub 服务器在预配置的网址端点向订户应用发送请求。在拉取模型中,订户从服务器请求消息并确认收到。Cloud Pub/Sub 保证每个订户至少传输一次消息。

Cloud Pub/Sub 不提供对消息传递顺序的保证。通过缓冲(通常使用 Cloud Dataflow)可以实现严格的消息排序。

Cloud Pub/Sub 的一个常见用途是将流式数据转移到 Cloud Dataflow 中,以便按实际事件时间进行实时处理。处理完成后,您可以将数据转移到永久存储服务,例如 Cloud DatastoreBigQuery,它们支持按应用时间戳排序的查询。

提取批量数据

批量数据由大型数据集组成,这类提取需要在少量数据源和目标之间的高聚合带宽。数据可以存储在文件中,例如 CSV、JSON、Avro 或 Parquet 文件,或存储在关系型数据库或 NoSQL 数据库中。源数据可以位于本地或其他云平台上。

参考以下提取批量数据的使用场景。

  • 科学工作负载:以变体调用格式 (VCF) 文本文件存储的基因数据上传到 Cloud Storage,以便后续导入到 Genomics

  • 迁移到云端:使用 Informatica 将存储在本地 Oracle 数据库中的数据转移到全托管式 Cloud SQL 数据库。

  • 备份数据:使用 Cloud Storage Transfer Service 将存储在 AWS 存储分区中的数据复制到 Cloud Storage。

  • 导入旧数据:将十年的网站日志数据复制到 BigQuery 中进行长期趋势分析。

GCP 及其合作伙伴公司提供了各种工具,方便您将大量数据加载到 GCP 中。

Storage Transfer Service:托管文件传输

Storage Transfer Service 管理将数据传输到 Cloud Storage 存储分区的过程。数据源可以是 AWS S3 存储分区、可通过网页访问的网址或其他 Cloud Storage 存储分区。Storage Transfer Service 适用于批量传输,并针对大于 1 TB 的数据进行了优化。

备份数据是 Storage Transfer Service 的常见用途。您可以将数据从其他存储提供商处备份到 Cloud Storage 存储分区。或者,您可以在 Cloud Storage 存储分区之间移动数据,例如将数据从 Multi-Regional 存储空间归档到 Nearline 存储空间以降低存储费用。

Storage Transfer Service 支持一次性传输或定期传输。它提供基于文件创建日期、文件名过滤条件以及您希望导入数据的时段等高级过滤条件。不仅如此,它还支持在复制源数据后对其进行删除。

Transfer Appliance:可运输的高容量存储服务器

Transfer Appliance 是您从 Google 租用的高容量存储服务器。您可以将其连接到自己的网络,将数据加载到其中,并将其运输到将把数据上传到 Cloud Storage 的上传设施。Transfer Appliance 有多种容量。此外,根据数据的性质,您可以使用重复信息删除和压缩来大幅提高设备的有效容量。

要确定何时使用 Transfer Appliance,请计算使用网络连接上传数据所需的时间。如果您确定需要一周或更长时间,或者您有超过 60 TB 的数据(无论传输速度如何),使用 Transfer Appliance 传输数据可能会更加方便可靠。

Transfer Appliance 使用您提供的密码,通过强大的 AES-256 加密对捕获的数据进行重复信息删除、压缩和加密。从 Cloud Storage 中读取数据时,请输入相同的密码。每次使用 Transfer Appliance 后,设备都会安全擦除并重置映像,以防下一位用户看到您的数据。

Cloud Storage gsutil:命令行界面

Cloud Storage 提供了 gsutil,这是一个命令行实用程序,可用于将基于文件的数据从任意现有文件系统转移到 Cloud Storage 中。gsutil 用 Python 编写,可在 Linux、macOS 和 Windows 系统上运行。除了将数据转移到 Cloud Storage 之外,您还可以使用 gsutil 创建和管理 Cloud Storage 存储分区、修改对象的访问权限以及从 Cloud Storage 中复制对象。如需详细了解如何使用 gsutil 进行批量数据提取,请参阅脚本生产转移

Cloud Storage 离线媒体导入/导出

离线媒体导入/导出是一种第三方解决方案,该方案允许您将物理介质(如硬盘驱动器、磁带和 USB 闪存驱动器)运输到代表您上传数据的第三方服务提供商,从而将数据加载到 Cloud Storage 中。如果您受限于缓慢、不可靠或昂贵的互联网连接,则离线媒体导入/导出是更佳的选择。

数据库迁移工具

如果您的源数据存储在数据库中,无论是在本地还是由其他云提供商托管,您都可以使用多个第三方应用将数据批量迁移到 GCP。这些应用通常与源系统位于同一环境中,并提供一次性和持续传输。TalendInformatica 等应用通过对 GCP 的内置支持,提供提取、转换和加载 (ETL) 功能。

GCP 有几个适用于从外部数据库迁移数据的目标数据库。

  • 关系型数据库:存储在关系型数据库管理系统 (RDBMS) 中的数据可以迁移到 Cloud SQLCloud Spanner

  • 数据仓库:存储在数据仓库中的数据可以转移到 BigQuery

  • NoSQL 数据库:在面向列的 NoSQL 数据库(如 HBase 或 Cassandra)中存储的数据可以迁移到 Cloud Bigtable 中。在面向 JSON 的 NoSQL 数据库(如 Couchbase 或 MongoDB)中存储的数据可以迁移到 Cloud Datastore

合作伙伴解决方案

许多 GCP 合作伙伴提供专用于批量数据移动的补充解决方案。

  • WANDisco 提供的 Google Active Migrator 可自动将本地和网络存储空间中的数据传输到 Cloud Dataproc 集群。

  • Tervela 提供的 Cloud FastPath 可自动执行数据迁移,还可将本地文件系统和 Cloud Storage 同步。

  • Iron MountainPrime Focus 能够将物理介质(如硬盘驱动器、磁带和 USB 闪存驱动器)中的数据加载到 Cloud Storage 中。

要详细了解合作伙伴的数据和分析解决方案,请参阅关于数据和分析的合作伙伴生态系统

存储

数据的格式和大小各不相同,其结构完全取决于生成它的来源和后续的下游使用场景。对于数据和分析工作负载,提取的数据可以以各种格式存储在各种位置。

将 GCP 服务映射到不同类型的数据存储空间。

存储对象数据

文件是存储数据的常用格式,尤其是批量数据。借助 GCP,您可以将文件数据上传到 Cloud Storage,从而使这些数据可用于各种其他服务。

Cloud Storage:托管对象存储空间

Cloud Storage 为结构化和非结构化数据提供持久且可用性高的对象存储空间。例如,该数据可能是日志文件、数据库备份和导出文件、图片和其他二进制文件。Cloud Storage 中的文件按项目组织到各个存储分区中。这些存储分区可以支持自定义访问控制列表 (ACL) 或集中式身份和访问权限管理 (IAM) 控件。

Cloud Storage 充当分布式存储层,可通过在 App EngineGKECompute Engine 上运行的应用和服务进行访问,也可通过 Logging 等其他服务进行访问。

参考以下存储数据的使用场景。

  • 数据备份和灾难恢复:Cloud Storage 提供高度耐用且更安全的存储空间,用于备份和归档数据。

  • 内容分发:Cloud Storage 可以存储和分发内容。例如,媒体文件的存储和分发可以相应扩缩。

  • 存储 ETL 数据:Cloud Dataflow 可以访问 Cloud Storage 数据来进行转换并将其加载到其他系统(如 Cloud Bigtable 或 BigQuery)。

  • 存储 MapReduce 作业的数据:对于 Hadoop 和 Spark 作业,可以使用 Cloud Dataproc 在本地访问 Cloud Storage 中的数据。

  • 存储查询数据:BigQuery 能够将数据从 Cloud Storage 导入到数据集和表格中,或者无需导入即可在现有数据中进行联合查询。对于直接访问,BigQuery 原生支持从指定的 Cloud Storage 存储分区导入 CSV、JSON 和 Avro 文件。

  • 机器学习种子设定:GCP 机器学习 API(例如 Cloud AutoML Vision API 或 Cloud Natural Language)可以直接访问存储在 Cloud Storage 中的数据和文件。

  • 归档冷数据:对于计划每月访问不到一次和每年访问不到一次的对象,可分别使用 Nearline 存储空间Coldline 存储空间获取低延时、低费用的存储空间。

Cloud Storage 有多个类别,具体取决于应用和服务所需的可用性和性能。

  • Multi-Regional 存储空间提供最高级别的可用性,适用于存储需要经常进行高冗余、低延时访问的数据。示例使用场景包括传送网站内容、交互式存储工作负载以及支持移动和游戏应用的数据。

  • Regional 存储空间在单个区域中提供高性能存储空间,适用于存储 Compute Engine 实例使用的数据。示例使用场景包括数据密集型计算或大数据处理。

  • Nearline 存储空间是一种低费用、高度耐用的存储服务,用于存储每月访问不到一次的数据。Nearline 存储空间可按亚秒级响应时间的顺序对数据进行快速访问,尤为适合数据归档、在线备份或灾难恢复使用场景。

  • Coldline 存储空间是一项费用极低、高度耐用的存储服务,用于存储计划每年访问不到一次的数据。Coldline 存储空间可按亚秒级响应时间的顺序对数据进行快速访问,适用于数据归档、在线备份和灾难恢复。

Cloud Storage for Firebase:适用于移动应用开发者的可扩缩存储空间

Cloud Storage for Firebase 是一种简单且经济实惠的对象存储服务,可根据您的用户群进行调节。Cloud Storage for Firebase 非常适合用于存储和检索移动及网页应用中的资源,例如图片、音频、视频和其他由用户生成的内容。

无论网络质量如何,适用于 Cloud Storage 的 Firebase SDK 都能执行上传和下载操作。如果传输由于连接不畅而中断,则其会在停止的地方重启,从而节省时间和带宽。由于其已直接与 Firebase 身份验证集成,因此允许您根据文件名、大小、内容类型和其他元数据配置访问权限。

Cloud Storage for Firebase 将您的文件存储在 Cloud Storage 存储分区中,这使您可以灵活地从使用 Firebase SDK 的移动客户端上传和下载文件。此外,您还可以使用 GCP 执行服务器端处理,例如图片过滤或视频转码。

要开始使用 Cloud Storage for Firebase,请参阅相关文档。Firebase 具有适用于 iOS、Android、网页、C++ 和 Unity 客户端的 SDK。

存储数据库数据

GCP 提供了各种数据库,包括 RDBMS 和 NoSQL,您可以使用它们来存储关系型数据和非关系型数据。

Cloud SQL:托管 MySQL 和 PostgreSQL 引擎

Cloud SQL 是一个全托管式云原生 RDBMS,它为 MySQL 和 PostgreSQL 引擎提供内置复制功能。它对低延时、事务性、关系型数据库工作负载非常有用。由于 Cloud SQL 基于 MySQL 和 PostgreSQL,因此其支持用于连接的标准 API。此外,Cloud SQL 提供内置备份和恢复、高可用性和读取副本。

Cloud SQL 支持 MySQL 和 PostgreSQL 高达 10 TB 的 RDBMS 工作负载。您可以通过在 App EngineGKECompute Engine 上运行的应用访问 Cloud SQL。由于 Cloud SQL 构建于 MySQL 和 PostgreSQL 之上,因此它支持标准连接驱动程序、第三方应用框架(如 Django 和 Ruby on Rails)以及热门迁移工具。存储在 Cloud SQL 中的数据无论是在传输过程中还是存储在某个位置,都会进行加密。Cloud SQL 实例具有内置的访问权限控制支持,使用网络防火墙来管理数据库访问权限。

Cloud SQL 适用于典型的联机事务处理 (OLTP) 工作负载。

  • 金融事务:存储金融事务需要 ACID 数据库语义,而数据通常分布在多个表格中,因此需要复杂的事务支持。

  • 用户凭据:存储密码或其他安全数据需要复杂的字段支持和实施以及架构验证。

  • 客户订单:订单或帐单通常包括高度规范化的关系型数据和捕获库存变化时的多表格事务支持。

对于联机分析处理 (OLAP) 工作负载或需要基于每个对象的动态架构的数据,Cloud SQL 不是合适的存储系统。如果您的工作负载需要动态架构,请考虑使用 Cloud Datastore。对于 OLAP 工作负载,请考虑使用 BigQuery。如果您的工作负载需要宽列架构,请考虑使用 Cloud Bigtable。

对于下游处理和分析使用场景,可以从多个平台工具访问 Cloud SQL 中的数据。您可以使用 Cloud Dataflow 或 Cloud Dataproc 创建从 Cloud SQL 拉取数据并将其插入其他存储系统的 ETL 作业。

Cloud Bigtable:托管宽列 NoSQL

Cloud Bigtable 是一种托管式高性能 NoSQL 数据库服务,专用于 TB 级至 PB 级工作负载。Cloud Bigtable 建立在 Google 的内部 Cloud Bigtable 数据库基础架构之上,支持 Google 搜索、Google Analytics(分析)、Google 地图和 Gmail。该服务为大规模 NoSQL 数据提供一致、低延时和高吞吐量的存储空间。Cloud Bigtable 专为实时应用服务工作负载以及大规模分析工作负载而构建。

Cloud Bigtable 架构使用与一组列关联的单索引行键。此架构通常采用“高”或“宽”结构,其查询以行键为基础。架构的风格取决于下游使用场景,因此必需考虑数据的位置和读写分布以最大限度地提高性能。“高”架构通常用于存储时间序列事件,即时间戳在某些部分中键入的数据,每行的列数相对较少。“宽”架构则完全相反,它以简单的标识符作为行键,并含有大量列。如需了解详情,请参阅 Cloud Bigtable 架构设计文档。

Cloud Bigtable 非常适合各种大规模、高吞吐量的工作负载,如广告技术或物联网数据基础架构。

  • 实时应用数据:可以通过在 App Engine 柔性环境、GKE 和 Compute Engine 中运行的应用访问 Cloud Bigtable,以处理实时提供服务的工作负载。

  • 流式处理:Cloud Pub/Sub 提取数据后,可以使用 Cloud Dataflow 来转换数据并将其加载到 Cloud Bigtable 中。

  • 物联网时间序列数据:可以使用 Cloud Bigtable 中的时间序列架构存储传感器捕获的数据和流式传输到 GCP 的数据。

  • 广告技术工作负载:Cloud Bigtable 可用于存储和跟踪广告展示次数,并用作通过 Cloud Dataproc 和 Cloud Dataflow 进行后续处理和分析的来源。

  • 数据提取:Cloud Dataflow 或 Cloud Dataproc 可用于转换 Cloud Storage 中的数据,并将其加载到 Cloud Bigtable。

  • 分析工作负载:Cloud Dataflow 可用于直接从存储在 Cloud Bigtable 中的数据执行复杂聚合,Cloud Dataproc 可用于执行 Hadoop 或 Spark 处理和机器学习任务。

  • Apache HBase 替代品:Cloud Bigtable 还可以作为使用 Apache HBase 构建的系统的直接替代品。Apache HBase 是一个基于 Google 发布的原始 Cloud Bigtable 白皮书构建的开源数据库。Cloud Bigtable 符合 HBase 1.x API 标准,因此可以集成到许多现有的大数据系统中。Apache Cassandra 使用的数据模型以 Cloud Bigtable 白皮书中的数据洞见为基础,这意味着 Cloud Bigtable 还可以支持多个采用面向宽列的架构和结构的工作负载。

虽然 Cloud Bigtable 被视为 OLTP 系统,但它不支持多行事务、SQL 查询或联接。对于这些使用场景,请考虑使用 Cloud SQL 或 Cloud Datastore。

Cloud Spanner:可横向扩容的关系型数据库

Cloud Spanner 是一个全托管式关系型数据库服务,适用于关键任务 OLTP 应用。Cloud Spanner 可横向扩容,具备高度一致性、高可用性和全球覆盖。这些特点使其成为一项独特的服务。由于 Cloud Spanner 是一项全托管式服务,因此您可以专注于设计应用而不是基础架构。

如果您熟悉关系型数据库并希望利用其易用性,以及通常与 NoSQL 数据库结合时可实现的可伸缩性,那么 Cloud Spanner 非常适合您。与关系型数据库一样,Cloud Spanner 支持架构、ACID 事务和 SQL 查询 (ANSI 2011)。与许多 NoSQL 数据库一样,Cloud Spanner 可在区域内横向扩容,但它也可以跨区域扩容,以满足具有更严格的可用性要求的工作负载。此外,Cloud Spanner 还可以执行自动分片,同时以 10 毫秒以内的延时传送数据。Cloud Spanner 中的安全功能包括数据层加密、审核日志记录以及 Cloud IAM 集成。

要开始使用 Cloud Spanner,请参阅 Cloud Spanner 文档

以下是 Cloud Spanner 的典型使用场景。

  • 金融服务:金融服务工作负载需要在读/写操作之间保持高度一致性。Cloud Spanner 提供了这种一致性,同时不会影响高可用性。

  • 广告技术:延时是广告技术领域的关键考虑因素。Cloud Spanner 可在不影响规模或可用性的情况下实现低延时查询。

  • 零售和全球供应链:覆盖全球范围的需要会迫使供应链专家在一致性和维护费用之间进行权衡。Cloud Spanner 提供低延时的自动全球同步复制,从而保证数据始终一致且高度可用。

Cloud Firestore:灵活、可扩容的 NoSQL 数据库

Cloud Firestore 是一个存储 JSON 数据的数据库。JSON 数据可以实时同步到不同平台上已连接的客户端,包括 iOS、Android、JavaScript、IoT 设备和桌面应用。如果客户端没有网络连接,则 Cloud Firestore API 允许您的应用将数据永久保存到本地磁盘。重新建立连接后,客户端设备会将其存储的数据与当前服务器状态同步。

Cloud Firestore 提供基于表达式的灵活规则语言 - Cloud Firestore 安全规则,该规则与 Firebase 身份验证集成,因此您可以定义谁有权访问哪些数据。

Cloud Firestore 是一个带有 API 的 NoSQL 数据库,您可以使用它来构建为数百万用户提供实时体验的服务,而不会影响响应速度。为了配合这种级别的规模和响应能力,适当地设计数据结构非常重要。要开始使用 Cloud Firestore,请参阅相关文档。Cloud Firestore 具有适用于 iOS、Android、网页、C++ 和 Unity 客户端的 SDK。

以下是 Cloud Firestore 的几个使用场景。

  • 聊天和社交:存储和检索图片、音频、视频以及用户生成的其他内容。

  • 移动游戏:跟踪跨设备和设备平台的游戏进度和统计信息。

生态系统数据库

除了 GCP 提供的数据库服务之外,您还可以在具有高度可扩容的永久性存储空间的高性能 Compute Engine 虚拟机上部署自己的数据库软件。GCP 支持 EnterpriseDBMicrosoft SQL Server 等传统的 RDBMS。高性能配置中也支持 MongoDBCassandra 等 NoSQL 数据库系统。

借助 GCP Marketplace,您可以使用预构建的映像、存储空间和网络设置将多种类型的数据库部署到 GCP 上。Compute Engine 实例、永久性磁盘、网络配置等部署资源支持直接管理,并且可以针对不同的工作负载或使用场景轻松地进行自定义。

存储数据仓库的数据

数据仓库存储了大量数据以供查询和分析,而不是进行事务处理。对于数据仓库工作负载,GCP 提供了 BigQuery。

BigQuery:托管式数据仓库

对于最终将在 BigQuery 中分析的提取数据,您可以直接在 BigQuery 中存储该数据,绕过其他存储介质。BigQuery 支持通过网页界面、命令行工具和 REST API 调用加载数据。

批量加载数据时,数据应采用 CSV、JSON 或 Avro 文件的格式。然后,您可以使用 BigQuery 网页界面、命令行工具或 REST API 调用将这些文件格式的数据加载到 BigQuery 表格中。

对于流式数据,您可以结合使用 Cloud Pub/Sub 和 Cloud Dataflow 来处理传入流并将结果数据存储在 BigQuery 中。但是,在某些工作负载中,您可以将数据直接流式传输到 BigQuery,无需额外处理。此外,您还可以构建在 GCP 或本地基础架构上运行的自定义应用,这些应用从具有已定义架构和行的数据源读取数据。然后,自定义应用可以使用 GCP SDK 或直接 REST API 调用将该数据流式传输到 BigQuery 表格中。

处理和分析

为了从数据中获取业务价值和数据洞见,您必须对其进行转换和分析。这需要一个既可以直接分析数据,也可以为下游分析准备数据的处理框架,还需要用于分析和理解处理结果的工具。

  • 处理:来自源系统的数据在多台机器上进行清理、标准化和处理,并存储在分析系统中。

  • 分析:处理后的数据存储在允许进行临时查询和探索的系统中。

  • 理解:根据分析结果,数据用于训练和测试自动化机器学习模型。

GCP 提供用于处理大规模数据、分析和查询大数据以及通过机器学习理解数据的服务。

处理大规模数据

大规模数据处理通常涉及从源系统(如 Cloud Storage、Cloud Bigtable 或 Cloud SQL)读取数据,然后对该数据进行复杂的归一化或聚合。在许多情况下,数据太大而无法放在单个机器上,因此要使用框架来管理分布式计算集群并提供协助处理的软件工具。

将 Cloud Dataproc 和 Cloud Dataflow 映射到数据处理工作负载。

Cloud Dataproc:托管式 Apache Hadoop 和 Apache Spark

自 Google 于 2004 年首次发布 MapReduce 论文以来,处理超大型数据集的功能便开启了发展的脚步。现在,许多组织在 Hadoop 分布式文件系统 (HDFS) 中加载和存储数据,并使用以批量为导向的传统工具(如 Hive 或 Pig)运行定期聚合、报告或转换。Hadoop 有一个庞大的生态系统,可支持使用 Mahout 进行机器学习、使用 Flume 进行日志提取以及使用 R 进行统计等活动。这种基于 Hadoop 的数据处理的结果对业务至关重要。对于依赖这些流程的组织而言,将它们迁移到新框架是一项非常重要的工作。

作为 Hadoop MapReduce 的替代品,Spark 在过去几年中越来越受欢迎。Spark 通常具有比 Hadoop MapReduce 更快的性能,具体是通过在集群的内存中分配数据集和计算来实现。除了速度提升之外,这种分配使 Spark 能够使用 Spark Streaming 处理流式数据,以及使用 Spark SQL 和简单的 API 进行传统批量分析、转换和聚合。Spark 社区非常活跃,并由此诞生了几个流行的库,包括可用于机器学习的 MLlib。

然而,以不断增长的规模运行 Spark 或 Hadoop 会产生操作复杂性和开销,以及持续且不断增长的固定费用。即使只需要在离散的时间间隔内使用集群,您仍然需要为永久性集群支付费用。借助 Cloud Dataproc,您可以将现有的 Hadoop 或 Spark 部署迁移到全托管式服务,该服务可自动创建集群、简化集群的配置和管理、提供内置监控和利用率报告,并可在不使用时关闭。

启动新的 Cloud Dataproc 集群平均需要 90 秒,这样可以轻松创建 10 节点集群甚至 1000 节点集群。这降低了管理 Spark 或 Hadoop 部署的操作和费用开销,同时仍然保留了这两种框架的一致性和您对其的熟悉。Cloud Dataproc 提供了在需要时按需启动 Spark 或 Hadoop 集群,并在不再需要时终止集群的简便性和灵活性。参考以下使用场景。

  • 日志处理:通过最小程度的修改,您每日可以使用现有的 MapReduce 处理来自多个来源的大量文本日志数据。

  • 报告:将数据汇总到报告中并存储在 BigQuery 中。然后,您可以将汇总数据推送到支持信息中心并执行分析的应用中。

  • 按需 Spark 集群:使用 Spark(Spark SQL、PySpark 和 Spark shell)快速启动临时集群以分析存储在 blob 存储空间中的数据。

  • 机器学习:使用预安装在集群上的 Spark 机器学习库 (MLlib) 来自定义和运行分类算法。

此外,Cloud Dataproc 还简化了软件安装或集群大小调整等操作。借助 Cloud Dataproc,您可以以原生方式读取数据并将结果写入 Cloud Storage、Cloud Bigtable 或 BigQuery,或集群提供的随附 HDFS 存储空间。借助 Cloud Storage,Cloud Dataproc 可以更快地访问数据,并且可以让许多集群对数据集执行无缝操作,无需移动数据,并且无需专注于数据复制。这种在外部存储和检查点数据的能力使您可以将 Cloud Dataproc 集群视为具有外部持久性的临时资源,可以按需启动、使用和终止。

Cloud Dataflow:无服务器、全托管式批量和流式处理

分析流式数据的能力已经改变了组织开展业务以及进行实时响应的方式。但是,组织必须维护不同的处理框架来处理批量和流式分析,这需要两个不同的流水线,因而增加了复杂性。与 Spark 和 Hadoop 一样,花时间优化集群利用率和资源会导致无法专注于过滤、聚合和转换数据的基本目标。

Cloud Dataflow 旨在简化流式和批量工作负载的大数据。它通过统一编程模型和执行模型来实现这一点。作为一种托管服务,Cloud Dataflow 不必指定集群大小和管理容量,而是可以在其中创建、自动扩缩和同时载入所需的资源。作为真正的无运维服务,您可以根据作业需求添加或移除工作器。此外,Cloud Dataflow 还通过持续监控、确定和重新编排工作(包括拆分)给集群中的空闲工作器,来解决分布式系统中工作器利用率不足的常见问题。

考虑以下使用场景。

  • MapReduce 替代方案:处理非 MapReduce 处理范例中常会导致操作复杂性或失败的并行工作负载。

  • 用户分析:分析大量用户行为数据,例如游戏内事件、点击流数据和零售数据。

  • 数据科学:处理基因组学、气候和金融数据等大量数据来进行科学探索和预测。

  • ETL:将数据提取、转换并加载到数据仓库(例如 BigQuery)中。

  • 日志处理:持续处理事件日志数据,以构建实时信息中心、应用指标和提醒。

此外,Cloud Dataflow SDK 也作为开源项目 Apache Beam 进行发布,它支持在 Apache Spark 和 Apache Flink 上执行。由于 Cloud Dataflow 可自动扩缩且易于部署,因此是运行 Cloud Dataflow/Apache Beam 工作流的理想服务。

Cloud Dataprep by Trifacta:可视化数据探索、清理和处理

Cloud Dataprep 是一种用于可视化探索、清理和准备数据以进行分析的服务。您可以使用基于浏览器的界面来使用 Cloud Dataprep,且无需编写代码。Cloud Dataprep 根据需求自动部署和管理执行转换所需的资源。

使用 Cloud Dataprep,您可以转换以 CSV、JSON 或关系型表格存储的任意大小的数据。Cloud Dataprep 使用 Cloud Dataflow 自动扩缩,能够处理 TB 级的数据集。由于 Cloud Dataprep 与 GCP 完全集成,因此您可以处理任何地方的数据,无论它位于 Cloud Storage、BigQuery 还是桌面设备。处理完数据后,您可以将干净的数据直接导出到 BigQuery 进行进一步分析。最后,您可以使用 Cloud Identity and Access Management 管理用户访问权限和数据安全性。

以下是 Cloud Dataprep 的一些常见使用场景。

  • 机器学习:您可以清理训练数据来微调机器学习模型。
  • 分析:您可以转换原始数据,以便将其提取到 BigQuery 等数据仓储工具中。

分析和查询数据

数据经过提取、存储和处理后,需要以能够轻松访问和查询的格式保存。

BigQuery:托管式数据仓库

BigQuery 是一个全托管式数据仓库,支持临时 SQL 查询和复杂架构。您可以使用 BigQuery 来分析、理解和组织数据。如果您习惯使用传统数据仓库来运行标准 SQL 查询或商业情报和可视化工具,那么您将会受益于 BigQuery 的强大功能和熟悉的界面。

BigQuery 是一个扩容能力强、高度分布、低费用的分析 OLAP 数据仓库,能够实现每秒 1 TB 以上的扫描速率。这是一个全托管式服务,为系统中输入的每个查询启动计算节点。

要开始使用 BigQuery,您需要在项目中创建数据集,将数据加载到表格中,然后执行查询。通过使用 Cloud Pub/Sub 和 Cloud Dataflow 中的流式提取、从 Cloud Storage 加载数据,或使用在 Cloud Dataflow 或 Cloud Dataproc 上运行的处理作业的输出,可以简化加载数据的过程。BigQuery 可以导入 CSV、Avro 和 JSON 数据格式,并支持 JSON 中的嵌套和重复项。

BigQuery 中的所有数据均通过加密通道访问,并在静态时加密。BigQuery 在 Google 合规性计划(包括 SOC、PCI、ISO 27001 和 HIPAA)的涵盖范围内,因此可用于处理和查询敏感信息。支持通过 ACL 控制对数据的访问。

BigQuery 根据查询和存储这两个独立的维度计算费用。在 BigQuery 中存储数据的费用与在 Cloud Storage 中存储数据的费用相当,这意味着您无需在将日志数据保存在存储分区和 BigQuery 中之间进行选择。BigQuery 中可存储的数据量没有上限,此外,如果表格在 90 天内未修改,则该表格的存储价格会降低 50%

BigQuery 的一个典型使用场景是流式加载或定期批量加载来自服务器或其他高速生成信号的系统(如物联网设备)的日志数据。此外,其原生支持与多种 Google 服务集成。例如,可以将 Logging 配置为将日志记录数据直接传输到 BigQuery。

在 BigQuery 中查询数据时,您可以选择两种价格模式,包括按需付费或固定价格。使用按需付费,查询费用会根据处理的数据量定价(以 TB 为单位)。使用固定价格时,BigQuery 通过更简单的费用模型,以一致的查询容量计费。

作为全托管式服务,BigQuery 可以自动执行基础架构维护期和数据清理等任务。要改进查询的设计,您可以检查任何给定查询的查询计划说明。数据以列式格式存储,该格式针对大规模聚合和数据处理进行了优化。此外,BigQuery 还内置对数据的时间序列分区的支持。从设计角度来看,这意味着您可以设计加载活动以使用时间戳,然后在特定日期分区中定位查询。由于 BigQuery 查询费用基于扫描的数据量,因此适当的数据分区可以极大地提高查询效率并降低费用。

在 BigQuery 上运行查询可以使用标准 SQL 来完成,标准 SQL 与 SQL 2011 兼容,并且具有支持查询嵌套和重复数据的扩展程序。BigQuery 中有一组丰富的内置函数和运算符,并支持用户定义的函数 (UDF)

您可以通过各种方式利用 BigQuery。

  • 用户分析:提取广告技术、点击流、游戏遥测等大量由用户生成的活动,并确定用户行为和特征。

  • 设备和操作指标:从 IT 系统、IoT 设备等收集流式信息,并分析数据来了解趋势和变化情况。

  • 商业情报:将业务指标存储为数据仓库,并驱动 BI 工具或合作伙伴产品,如 Tableau、QlikView 或 Looker。

如需查看使用 BigQuery 的教程和示例,请访问 BigQuery 网站

通过机器学习理解数据

机器学习已成为数据生命周期中分析阶段的关键组成部分。它可用于扩充处理结果、为数据收集优化提供建议,以及预测数据集中的结果。

参考以下使用场景。

  • 产品建议:您可以根据以往的购买历史和网站导航来构建产品推荐模型。

  • 预测:使用机器学习来预测金融市场等复杂系统的性能。

  • 自动化助理:构建能够理解并回答用户问题的自动化助理。

  • 情感分析:确定用户对商品评价和新闻报道的评论中的潜在情感。

在 GCP 中有许多利用机器学习的方案。

  • 特定于任务的机器学习 API:GCP 通过预训练的视觉、语音、自然语言和文本翻译模型提供成套托管式机器学习服务。这些 API 采用相同的技术进行构建,可为 Google 相册、Google 移动应用、Google 翻译和 Inbox 智能回复等应用提供支持。

  • 自定义机器学习:AI Platform 是一种托管式服务,可以大规模运行自定义模型。此外,Cloud Dataproc 还可以运行使用 Mahout 或 Spark MLlib 构建的机器学习模型。

AutoML Vision API

您可以通过 AutoML Vision API 使用预训练神经网络分析和了解图片内容。借助 AutoML Vision API,您可以对图片进行分类、检测各个对象和面孔,以及识别印刷文字。此外,您还可以使用 AutoML Vision API 检测不当内容,还可以分析人们的面部表情属性。

您可以通过 REST 端点访问 AutoML Vision API。您可以直接将图片发送到服务,也可以将图片上传到 Cloud Storage,并在请求中包含指向该图片的链接。请求可以包括单张图片,或者在单一批次中为多张图片添加注释。在请求中,您可以选择特征注释以检测所包含的每张图片。特征检测包括标签、文本、人脸、地标、徽标、安全搜索和图片属性(例如主色)。响应将包含有关为原始请求中提供的每个特征选择的特征类型注释的元数据。如需详细了解请求和响应,请参阅 AutoML Vision API 文档

您可以轻松地将 AutoML Vision API 集成到在 App Engine、GKE、Compute Engine 和移动平台(如 Android 和 iOS)上运行的自定义应用中。您还可以通过 GCP 服务(例如 Cloud Dataflow、Cloud Dataproc 和 Cloud Datalab)访问此 API。

Cloud Speech-to-Text

Cloud Speech-to-Text 支持分析音频并将其转换为文本。此 API 可识别 80 多种语言及其变体,并由不断发展和改进的深度学习神经网络算法提供支持。

您可以将 Cloud Speech-to-Text 用于不同类型的工作负载。

  • 实时语音转文本:Cloud Speech-to-Text 可以接受流式音频输入,并在可用时开始返回部分识别结果。此功能对于在应用中集成实时听写或通过语音启用命令和控制非常有用。Cloud Speech-to-Text 支持 gRPC,这是一种高性能、开源且通用的 RPC 框架,用于为 App Engine、GKE 和 Compute Engine 以及 Android 和 iOS 等移动平台上运行的自定义应用进行流式音频语音分析。

  • 批量分析:要处理大量音频文件,您可以使用 REST 端点和 gRPC 调用 Cloud Speech-to-Text。支持同步和异步语音转文本功能。您还可以通过 GCP 服务(如 Cloud Dataflow、Cloud Dataproc 和 Cloud Datalab)访问 REST API。

自然语言

Natural Language 提供分析和呈现文本结构和含义的能力。此 API 可用于提取关于人物、地点、事件、输入文本情感等的信息。生成的分析可用于过滤不当内容、按主题对内容进行分类,或者从输入文本中找到的提取实体构建关系。

您可以将 Natural Language 与 AutoML Vision API OCR 功能或 Cloud Speech-to-Text 功能相结合,以创建功能强大的应用或服务。

Natural Language 可通过 REST 端点进行访问。您可以直接向服务发送文本,也可以将文本文件上传到 Cloud Storage 并链接到请求中的文本。您可以将此 API 轻松集成到在 App Engine、GKE、Compute Engine 和移动平台(如 Android 和 iOS)上运行的自定义应用中。您还可以通过其他 GCP 服务(例如 Cloud Dataflow、Cloud Dataproc 或 Cloud Datalab)访问此 API。

Cloud Translation

您可以使用 Translation 翻译 90 多种不同的语言。如果输入语言未知,Translation 会自动检测语言,且准确度很高。

Translation 可以为网页和移动应用提供实时翻译,并支持分析工作负载的批量请求。

Translation 可通过 REST 端点进行访问。您可以将此 API 集成到在 App Engine、GKE、Compute Engine 和移动平台(如Android 和 iOS)上运行的自定义应用中。您还可以通过其他 GCP 服务(例如 Cloud Dataflow、Cloud Dataproc 或 Cloud Datalab)访问此 API。

Cloud Video Intelligence:视频搜索和发现

传统上,视频内容是不透明的,并且不易用于分析。但借助 Video Intelligence (一种易于使用的 REST API),您现在可以在视频中搜索、发现和提取元数据。Video Intelligence 可以检测视频内容中的实体(名词),例如“狗”、“花”或“汽车”。您还可以在视频内容的场景中查找实体。

您可以使用帧级和视频级元数据来注释视频。(此服务可以以每秒 1 帧的最大粒度提取数据。)此 API 支持常见的视频格式,包括 MOV、MPEG4、MP4 和 AVI。发出注释视频的请求非常简单,具体是创建一个 JSON 请求文件,其中包含视频的位置以及您要执行的注释的类型,然后将此请求提交给 API 端点。

要开始使用此 API,请参阅 Video Intelligence 快速入门

以下是 Video Intelligence 的一些常见使用场景。

  • 从视频中收集数据洞见:无需使用机器学习或实现计算机视觉算法即可从视频中提取数据洞见。

  • 视频目录搜索:搜索视频目录以确定感兴趣的实体的存在状态和时间戳。

AI Platform:托管机器学习平台

AI Platform 是一个托管平台,可用于大规模运行自定义机器学习模型。您可以使用 TensorFlow 框架(一种机器智能的开源框架)创建模型,然后使用 AI Platform 管理预处理、训练和预测。

AI Platform 与 Cloud Dataflow 集成,用于进行数据预处理,以访问存储在 Cloud Storage 和 BigQuery 中的数据。它还可与 Cloud Load Balancing 搭配使用,以大规模提供在线预测。

您可以使用 Cloud Datalab 和 Jupyter 笔记本在 GCP 中完整开发并测试 TensorFlow 模型,然后将 AI Platform 用于大规模训练和预测工作负载。

为 AI Platform 构建的模型可完整迁移。通过利用 TensorFlow 框架,您可以在本地构建和测试模型,然后将它们部署在多台机器上,以进行分布式训练和预测。最后,您可以将经过训练的模型上传到 AI Platform,并在多个分布式虚拟机实例中运行这些模型。

AI Platform 的工作流包括以下阶段:

  • 预处理:AI Platform 将输入数据集内的特征转换为受支持的格式,还可以对数据进行归一化和转换,以实现更高效的学习。在预处理期间,用于训练、评估和测试的数据存储在 Cloud Storage 中。这样,还可在此阶段通过 Cloud Dataflow 访问这些数据来进行任何其他所需的预处理。

  • 图形构建:AI Platform 将提供的 TensorFlow 模型转换为 AI Platform 模型,其中包含用于训练、评估和预测的操作。

  • 训练:AI Platform 根据提交的参数不断迭代和评估模型。

  • 预测:AI Platform 使用模型执行计算。预测可以作为在线预测服务以批量或按需的方式进行计算。批量预测旨在针对大型数据集异步运行,使用 Cloud Dataflow 等服务来编排分析。按需预测通常与 App Engine、GKE 或 Compute Engine 上运行的自定义应用搭配使用。

通用机器学习

除了 Google 构建的机器学习平台和 API 之外,您还可以在 GCP 上部署其他大规模机器学习工具。MahoutMLlib 是 Hadoop 和 Spark 生态系统中的两个项目,可提供一系列通用机器学习算法。这两个软件包都提供用于聚簇、分类、协同过滤等的机器学习算法。

您可以使用 Cloud Dataproc 部署托管式 Hadoop 和 Spark 集群,并使用其他软件引导这些集群。这意味着您可以在 GCP 上运行使用 Mahout 或 MLlib 构建的机器学习工作负载,并且能够使用常规或抢占式虚拟机扩缩集群。

探索和可视化

数据生命周期的最后一步是深入的数据探索和可视化,以更好地理解处理和分析的结果。

在探索过程中获得的数据洞见可用于提高数据提取的速度或数量、使用不同的存储介质来加速分析,以及增强处理流水线。充分探索和理解这些数据集通常涉及数据科学家和业务分析师,以及接受过概率学、统计学培训和理解业务价值的人员提供的服务。

探索数据科学的成果

数据科学是从原始数据资源中获取价值的过程。为此,数据科学家可能会将不同的数据集组合在一起,其中一些是公共的,一些是专用的,并执行一系列聚合和分析技术。与数据仓储不同,分析类型和数据结构差异很大,并且不会预先确定。这些技术包括统计方法,例如聚簇、贝叶斯、最大似然和回归,以及机器学习,例如决策树和神经网络。

Cloud Datalab:交互式数据洞见

Cloud Datalab 是一种基于网页的交互式工具,可用于探索、分析和可视化数据。它基于 Jupyter 笔记本构建,后者原称为 IPython。使用 Cloud Datalab,您只需点击一下,即可启动基于网页的交互式笔记本,您可以在其中编写和执行 Python 程序以处理和可视化数据。笔记本保持其状态,可以在数据科学家之间共享,也可以在 GitHub、Bitbucket 和 Dropbox 等网站上发布。

Cloud Datalab 开箱即用,它支持许多热门数据科学工具包,例如 pandasnumpyscikit-learn,还支持 matplotlib 等常见的可视化软件包。Cloud Datalab 还包括对 Tensorflow 和 Cloud Dataflow 的支持。使用这些库和云服务,数据科学家可以加载和清理数据、构建和验证模型,然后使用 matplotlib 可视化结果。这适用于存放在单台计算机上的数据或需要存储在集群中的数据。使用 !pip install 命令可以加载其他 Python 模块。

数据科学生态系统

使用高性能 Compute Engine 实例,您可以部署多种类型的数据科学工具,并使用它们在 GCP 上运行大规模分析。

R 编程语言通常由统计学家使用。如果要使用 R 编程语言进行数据探索,可以在 Compute Engine 实例上部署 RStudio ServerMicrosoft Machine Learning Server。其中,RStudio Server 提供交互式运行时环境,用于处理和操作数据、构建复杂模型以及可视化结果。Microsoft Machine Learning Server 是 R 桌面客户端的大规模高性能补充服务,用于运行分析工作负载。

Cloud Datalab 基于 Jupyter 构建,目前支持 Python。如果要使用其他语言(如 R、Julia、Scala 和 Java)进行数据探索,可以在 Compute Engine 实例上部署开源 JupyterJupyterHub

Apache Zeppelin 是另一种基于网页、以笔记本为中心的热门数据科学工具。与 Jupyter 类似,Zeppelin 支持其他语言和数据处理后端系统,如 Spark、Hive、R 和 Python。

Jupyter 和 Zeppelin 都可以使用预构建的 Cloud Dataproc 初始化操作进行部署,以快速启动常见的 Hadoop 和 Spark 生态系统软件包。

可视化商业情报结果

在分析阶段,您可能会发现生成复杂的数据可视化、信息中心和报告以向更广泛的受众群体说明数据处理结果非常有用。为了简化这一过程,GCP 集成了许多报告和信息汇总工具。

Google Data Studio 提供了一个拖放式报表制作工具,您可以使用该工具将数据可视化到报告和信息中心,然后与其他人共享。报告中的图表由实时数据支持,可以共享和更新。报告可以包含交互式控件,允许协作者调整用于生成可视化的维度。

借助 Data Studio,您可以从现有数据文件、Google 表格,Cloud SQL 和 BigQuery 创建报告和信息中心。通过将 Data Studio 与 BigQuery 相结合,您可以利用 BigQuery 的完整计算和存储容量,而无需手动将数据导入 Data Studio 或创建自定义集成。

如果您希望在电子表格中可视化数据,则可以使用 Google 表格,它与 BigQuery 直接集成。使用 Google Apps 脚本,您可以直接在 Google 表格中嵌入 BigQuery 查询和数据。此外,您还可以将 BigQuery 查询结果导出为 CSV 文件,并在 Google 表格或其他电子表格中打开它们。这对于创建用于共享或分析的小型数据集很有用。您也可以反过来使用 BigQuery 查询存储在 Google 表格中的分布式数据集或存储在 Google 云端硬盘中的文件。

BigQuery 还支持从 SaaS 到桌面应用的一系列第三方商业情报工具和集成。如需了解详情,请参阅 BigQuery 合作伙伴文档

编排

将数据生命周期的所有元素合并到一组互连且内聚的操作中需要某种形式的编排。编排层通常用于协调启动任务、停止任务、复制文件,并提供一个信息中心来监控数据处理作业。例如,工作流可能包括将文件复制到 Cloud Storage、启动 Cloud Dataproc 处理作业,然后在处理结果存储到 BigQuery 中时发送通知。

编排工作流可以很简单,也可以很复杂,具体取决于处理任务,并且通常使用集中式调度机制自动运行工作流。有几种支持 GCP 的开源编排工具,例如 LuigiAirflow。对于自定义编排应用,您可以创建一个使用内置调度任务功能的 App Engine 应用来创建和运行工作流。

后续步骤

如需详细了解如何在 GCP 上管理数据,请参阅以下参考架构和使用场景。

  • 亲自试用其他 Google Cloud Platform 功能。查阅我们的教程
此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Solutions