数据仓库是一种企业系统,用于分析和报告来自多个来源的结构化和半结构化数据,例如销售终端交易、营销自动化、客户关系管理等数据。数据仓库适用于点对点分析以及自定义报告。数据仓库可以将当前数据和历史数据都存储在一个地方,旨在提供长期数据视图,这使其成为商业智能的主要组成部分。
传统数据仓库在本地托管,数据从关系型数据库、事务系统、业务应用和其他源系统流入。然而,它们通常用于批量捕获一部分数据并基于严格的架构进行存储,因此不适合自发式查询或实时分析。公司还必须购买自己的硬件和软件以及本地数据仓库,这使得扩缩和维护成本极高。在传统仓库中,与计算相比,存储空间通常很有限,因此数据会快速转换,然后被舍弃以留出充足的存储空间。
当今的数据分析活动已转变为所有核心业务活动的中心,包括创收、成本控制、改进运营和提升客户体验。随着数据的演化和多样化,组织需要更强大的数据仓库解决方案和高级分析工具,以便在整个组织中存储、管理和分析大量数据。
对于受监管行业,这些系统必须具有可伸缩性、可靠性和安全性,并且足够灵活,能够支持各种数据类型和大数据应用场景。它们还需要支持灵活的价格和计算能力,因此您只需为所需的资源付费,而无需猜测容量。这些要求超出了大多数旧数据仓库的功能。因此,许多企业转而选择基于云的数据仓库解决方案。
云数据仓库与传统数据仓库没有权衡,而是扩展了功能并在云的全托管式服务上运行。云数据仓储提供即时可伸缩性以满足不断变化的业务需求,并且提供强大的数据处理功能来支持复杂的分析查询。
借助云数据仓库,您可以受益于云环境固有的灵活性,同时还能预测费用。使用本地数据仓库解决方案时,前期投资通常要低得多,交货期也更短,因为物理基础设施是由云服务提供商管理和维护的。
与传统数据仓库一样,云数据仓库会收集、集成和存储来自内部和外部数据源的数据。通常使用数据流水线从源系统传输数据。从源系统中提取、转换数据,然后加载到数据仓库中,此过程称为 ETL(提取、转换、加载)。数据也可以直接发送中央存储库,然后使用 ELT(提取、加载、转换)过程进行转换。然后,用户可以使用不同的商业智能 (BI) 工具来访问、挖掘数据并生成报告。云数据仓库还应支持流式传输用例,以实时或近乎实时地激活数据。
云数据仓库可在公有云环境中提供结构化和半结构化数据的存储、处理、集成、清理、加载等操作。还可将它们与云数据湖搭配使用,以收集和存储非结构化数据。对于某些提供商,您甚至可以统一数据仓库和数据湖,以维护和集中管理企业数据的单个副本。
在提供云数据仓库服务时,不同的云服务提供商可能会采用不同的方法。例如,一些云数据仓库可能使用类似于传统数据仓库的基于集群的架构。某些云数据仓库则采用现代无服务器架构,进一步降低了数据管理职责。不过,大多数云数据仓库都提供内置的数据存储和容量管理功能以及自动升级。
云数据仓库的其他主要功能包括:
越来越多的公司开始将数据从传统数据仓库迁移到云,以利用托管式服务提供的可伸缩性来节省费用。
以下是云数据仓储的主要优势。
可灵活扩缩
云数据仓库具有弹性,可提供近乎无限的存储空间和容量。您可以根据业务需求的变化轻松扩缩容量,并且只需为实际用量付费。
机器学习和 AI 计划
客户可以基于云数据仓库快速解锁机器学习模型和 AI 技术并将其付诸应用,以挖掘数据、预测业务成果和优化其他领域,包括数据生命周期管理、业务流程和运营费用等。
更长的正常运行时间
云服务商有义务满足服务等级协议 (SLA),并通过可顺畅扩缩的可靠云基础设施提供更好的正常运行时间。本地数据仓库具有规模和资源限制,可能会影响性能。
费用可预测性
借助云,您可以获得更灵活、更可预测的价格。有些服务商按吞吐量或每节点每小时收费, 有些服务商则对一定量的资源按固定价格收费。不管采用哪些模式,您都可以避免为每周 7 天、每天 24 小时不间断运行的本地数据仓库支付巨额费用,无论是否有在使用资源。
运营成本节约
云数据仓库是全托管式的,可让您将繁琐的管理工作外包给必须满足服务等级协议 (SLA) 要求的云服务提供商。这样可以节省运营费用,并使您的内部团队专注于增长计划。
实时分析
云数据仓库提供支持流式数据的更强大的计算功能,让您可以实时查询数据。因此,您可以比本地数据仓库更快地访问和使用数据,从而更快地获得更准确的数据洞见,并做出更明智的业务决策。
云数据仓库提供了一系列有益于组织的解决方案。以下是一些最常见的数据仓库使用场景:
做出实时决策:实时分析数据,以主动应对挑战、发现机会、提高效率、降低费用以及主动响应业务事件。
整合孤岛数据:快速从组织中的多个结构化来源(例如销售终端系统、网站和电子邮件收件人列表)中提取数据,并将其放在同一个位置,以便执行分析并获得数据洞见。
支持业务报告和临时分析: 将历史数据与运营数据保存在不同的服务器上,以便最终用户能够访问这些数据并运行自己的查询和报告,而不会影响运营系统的性能,也不必等待 IT 部门的帮助。
实现机器学习和 AI:收集历史和实时数据以开发可提供预测性数据洞见的算法,例如预测流量高峰或向浏览网站的客户推荐相关产品。
许多企业和行业所需的数据分析不仅规模庞大,而且需要实时进行。例如,某些服务提供商使用实时数据来全天动态调整价格。保险公司跟踪保单、销售、理赔、工资单等。他们还会使用机器学习来预测欺诈。游戏公司必须实时跟踪用户行为并做出回应,以增强玩家体验。数据仓库让所有这些活动都有了实现的可能性。
如果您的组织具有以下资源或正在执行以下任意一项任务,则您可能适合使用数据仓库:
在选择云端数据仓库时,请务必评估解决方案的工作原理,并深入了解您的云数据仓库需要支持的现有应用场景。
在不同提供商之间进行选择时,除了仓储功能之外,还有许多需要考虑的因素,包括架构、可伸缩性、安全性、价格、性能等方面的差异。例如,您可能会发现易于实施的解决方案不那么易于扩展,或者您可能需要重新培训所有数据分析师并购买额外的许可来升级您当前的系统。
除了审视供应商之间的差异之外,您还必须考虑迁移到云数据仓库的具体过程,以及这与您现有 IT 投资和特定业务需求之间的关系。
企业数据仓库在组织的决策中发挥核心作用。因此,您需要确保深入了解业务要求、当前用例,以及与现有解决方案的任何差距。让关键利益相关者在流程的早期阶段参与进来,有助于弄清楚替换旧数据仓库解决方案的影响、应对挑战所需的功能要求,以及有关数据源、工具、框架等的详细技术信息。