本文档讨论了分析混合云和多云端模式的目标是利用事务和分析工作负载之间的拆分。
在企业系统中,大多数工作负载可分为以下类别:
- 事务性工作负载包括销售、财务处理、企业资源规划或通信等交互式应用。
- 分析工作负载包括可转换、分析、优化或直观显示数据以辅助决策制定过程的应用。
分析系统通过查询 API 或访问数据库从事务系统获取数据。在大多数企业中,分析系统和事务系统往往各自独立,松散地耦合。分析混合云和多云模式的目标是通过在两个不同的计算环境中运行事务和分析工作负载来利用这种预先存在的分离。首先从私有计算环境中运行的工作负载中提取原始数据,然后将其加载到 Google Cloud 中,它在此用于分析处理。其中一些结果随后可能会反馈给事务系统。
下图通过展示潜在的数据流水线说明了概念上可能的架构。每个路径/箭头都表示可能的数据移动和转换流水线选项,这些选项可以基于 ETL 或 ELT,具体取决于可用的数据质量和有针对性的使用场景。
如需将数据迁移到 Google Cloud 并挖掘数据的价值,请使用数据移动服务,这是一套完整的数据注入、集成和复制服务。
如上图所示,将 Google Cloud 与本地环境和其他云环境连接可以启用各种数据分析用例,例如数据流和数据库备份。为了支持需要大量数据传输的混合云和多云分析模式的基础传输,Cloud Interconnect 和 Cross-Cloud Interconnect 可为本地和其他云提供商提供专用连接。
优点
在云中运行分析工作负载具有多项主要优势:
- 入站流量(即从您的私有计算环境或其他云端向 Google Cloud 移动数据)可能免费。
- 分析工作负载通常需要处理大量数据并且可能具有突发性,因此特别适合将其部署在公有云环境中。通过动态调节计算资源,您可以快速处理大型数据集,同时避免前期投资或超额预配计算设备。
- Google Cloud 提供了一套丰富的服务,用于在数据的整个生命周期内对其进行管理;整个生命周期是指从初始的获取到处理和分析,再到最终可视化的整个过程。
- Google Cloud 上的数据移动服务提供了一整套产品,可让您以不同方式无缝移动、集成和转换数据。
- Cloud Storage 非常适合构建数据湖。
Google Cloud 可帮助您对数据平台进行现代化改造和优化,以打破数据孤岛。使用数据湖仓一体有助于跨不同的存储格式进行标准化。它还可以提供所需的灵活性、可扩缩性和敏捷性,有助于确保您的数据为您的业务创造价值,而不是造成低效。如需了解详情,请参阅 BigLake。
BigQuery Omni 提供在本地 AWS 或 Azure 存储空间运行的计算能力。此外,它还可帮助您查询存储在 Amazon Simple Storage Service (Amazon S3) 或 Azure Blob Storage 中的自己的数据。这种多云分析功能可让数据团队打破数据孤岛。如需详细了解如何查询存储在 BigQuery 外部的数据,请参阅外部数据源简介。
最佳做法
要实现分析混合和多云架构模式,请考虑以下一般最佳做法:
- 使用切换网络模式来启用数据注入。如果需要将分析结果反馈回事务系统,您可以将切换和门控出站流量模式结合使用。
- 使用 Pub/Sub 队列或 Cloud Storage 存储桶,将数据从私有计算环境中运行的事务系统提供给 Google Cloud。然后,这些队列或存储桶可用作数据处理流水线和工作负载的源。
- 如需部署 ETL 和 ELT 数据流水线,请考虑根据您的具体使用场景要求使用 Cloud Data Fusion 或 Dataflow。这两种服务都是完全托管的云优先数据处理服务,可用于构建和管理数据流水线。
- 如需发现、分类和保护有价值的数据资产,请考虑使用 Google Cloud 敏感数据保护功能,例如去标识化技术。 借助这些方法,您可以使用随机生成或预先确定的密钥(如果适用且符合相关规定)遮盖、加密和替换敏感数据(例如个人身份信息 [PII])。
- 如果您当前具有 Hadoop 或 Spark 工作负载,请考虑将作业迁移到 Dataproc,并将现有 HDFS 数据迁移到 Cloud Storage。
执行从私有计算环境到 Google Cloud 的初始数据传输时,请选择最适合您的数据集大小和可用带宽的传输方法。如需了解详情,请参阅迁移到 Google Cloud:传输大型数据集。
如果您需要在 Google Cloud 与其他云平台之间长期进行数据转移或交换,并且流量较高,则应使用 Google Cloud Cross-Cloud Interconnect,以帮助您在 Google Cloud 与其他云服务提供商之间建立高带宽专用连接(可在特定位置提供)。
如果需要在连接层进行加密,则可以根据所选的混合连接解决方案选择各种选项。这些选项包括 VPN 隧道、通过 Cloud Interconnect 实现的高可用性 VPN 和 MACsec for Cross-Cloud Interconnect。
在环境之间使用一致的工具和流程。在分析混合场景中,此做法有助于提高运营效率,但这并非先决条件。