什么是数据仓库?

数据仓库也称为企业数据仓库 (EDW),是一种企业数据平台,用于分析和报告来自多个数据源(例如销售终端交易、营销自动化、客户关系管理等)的结构化和半结构化数据。

数据仓库包括分析数据库以及关键分析组件和流程。它们支持临时分析和自定义报告,例如数据流水线、查询和业务应用。他们可以将大量当前数据和历史数据整合到一个位置,并可提供长期的数据视图。这些数据仓库功能使数据仓库成为企业分析的主要组成部分,从而帮助做出明智的业务决策

了解 BigQuery,它是 Google Cloud 经济实惠的无服务器多云企业数据仓库。

数据仓库的定义

数据仓库是一种企业系统,用于分析和报告来自多个来源的结构化和半结构化数据,例如销售终端交易、营销自动化、客户关系管理等数据。数据仓库适用于点对点分析以及自定义报告。数据仓库可以将当前数据和历史数据都存储在一个地方,旨在提供长期数据视图,这使其成为商业智能的主要组成部分。

传统数据仓库与云端数据仓库

传统的数据仓库在本地托管,数据从关系型数据库、事务系统、业务应用和其他源系统流入。然而,它们通常设计为批量捕获一部分数据并基于严格的架构进行存储,这使得它们不适合自发查询或实时分析。公司还必须购买自己的硬件和软件以及本地数据仓库,因此扩展和维护成本高昂。在传统仓库中,与计算相比,存储通常是有限的,因此数据会快速转换,然后被丢弃,以保持可用的存储空间。

如今的数据分析活动已转变为所有核心业务活动的中心,包括创收、控制成本、改善运营和改善客户体验。随着数据的演变和多样化,组织需要更强大的数据仓库解决方案和高级分析工具,以便在整个组织中存储、管理和分析大量数据。

这些系统必须具有可伸缩性、可靠性、安全性,足以满足受监管行业的需求,并且足够灵活,能够支持各种数据类型和大数据使用场景。它们还需要支持灵活的价格和计算能力,因此您只需为实际需求付费,而不必猜测容量。这些要求超出了大多数旧数据仓库的功能范围。因此,许多企业转向云端数据仓库解决方案。

云数据仓库与传统数据仓库没有权衡,而是扩展了功能并在云的全托管式服务上运行。云数据仓库具有即时的可伸缩性来满足不断变化的业务需求,具有强大的数据处理功能,可以为复杂的分析查询提供支持。

借助云数据仓库,您可以受益于费用可预测性更高的云环境固有的灵活性。使用本地数据仓库解决方案时,前期投资通常要低得多,交货期也更短,因为物理基础设施是由云服务提供商管理和维护的。

数据仓储在云端的工作原理

与传统数据仓库一样,云数据仓库会收集、集成和存储来自内部和外部数据源的数据。通常使用数据流水线从源系统传输数据。从源系统中提取、转换数据,然后加载到数据仓库中,此过程称为 ETL(提取、转换、加载)。数据也可以直接发送中央存储库,然后使用 ELT(提取、加载、转换)过程进行转换。然后,用户可以使用不同的商业智能 (BI) 工具来访问、挖掘数据并生成报告。云数据仓库还应支持流式传输用例,以实时或近乎实时地激活数据。

云数据仓库可在公有云环境中提供结构化和半结构化数据的存储、处理、集成、清理、加载等操作。还可将它们与云数据湖搭配使用,以收集和存储非结构化数据。对于某些提供商,您甚至可以统一数据仓库和数据湖,以维护和集中管理企业数据的单个副本。

在提供云数据仓库服务时,不同的云服务提供商可能会采用不同的方法。例如,一些云数据仓库可能使用类似于传统数据仓库的基于集群的架构。某些云数据仓库则采用现代无服务器架构,进一步降低了数据管理职责。不过,大多数云数据仓库都提供内置的数据存储和容量管理功能以及自动升级。

云数据仓库的其他主要功能包括:

  • 大规模并行处理 (MPP)
  • 列式数据存储区
  • 自助式 ETL 和 ELT 数据集成
  • 灾难恢复功能和自动备份
  • 合规性和数据治理工具
  • BI、AI 和机器学习的内置集成

云数据仓储的优势

越来越多的公司开始将数据从传统数据仓库迁移到云,以利用托管式服务提供的可伸缩性来节省费用。

云数据仓储的主要优势如下。

可灵活扩缩

云数据仓库具有弹性,可提供近乎无限的存储空间和容量。您可以根据业务需求的变化轻松扩缩容量,并且只需为实际用量付费。

机器学习和 AI 计划

客户可以基于云数据仓库快速解锁机器学习模型和 AI 技术并将其付诸应用,以挖掘数据、预测业务成果和优化其他领域,包括数据生命周期管理、业务流程和运营费用等。

更长的正常运行时间

云服务商有义务满足服务等级协议 (SLA),并通过可顺畅扩缩的可靠云基础设施提供更好的正常运行时间。本地数据仓库具有规模和资源限制,可能会影响性能。

费用可预测性

借助云,您可以获得更灵活、更可预测的价格。有些服务商按吞吐量或每节点每小时收费, 有些服务商则对一定量的资源按固定价格收费。不管采用哪些模式,您都可以避免为每周 7 天、每天 24 小时不间断运行的本地数据仓库支付巨额费用,无论是否有在使用资源。

运营节省

云数据仓库是全托管式的,可让您将繁琐的管理工作外包给必须满足服务等级协议 (SLA) 要求的云服务提供商。这样可以节省运营费用,并使您的内部团队专注于增长计划。

实时分析

云数据仓库提供支持流式数据的更强大的计算功能,让您可以实时查询数据。因此,您可以比本地数据仓库更快地访问和使用数据,从而更快地获得更准确的数据洞见,并做出更明智的业务决策。

数据仓库有什么用途?

云数据仓库提供了一系列有益于组织的解决方案。下面是最常见的数据仓库使用场景:

做出实时决策:实时分析数据,以主动应对挑战、发现机会、提高效率、降低费用以及主动响应业务事件。

整合孤岛数据:快速从组织中的多个结构化来源(例如销售终端系统、网站和电子邮件收件人列表)中提取数据,并将其放在同一个位置,以便执行分析并获得数据洞见。

支持业务报告和临时分析 :将历史数据与运营数据分开存放在不同的服务器上,以便最终用户可以访问这些数据,自行运行查询和报告,而不会影响运营系统的性能,也无需等待 IT 部门提供帮助。

实现机器学习和 AI:收集历史和实时数据以开发可提供预测性数据洞见的算法,例如预测流量高峰或向浏览网站的客户推荐相关产品。

许多企业和行业所需的数据分析不仅规模庞大,而且需要实时进行。例如,某些服务提供商使用实时数据来全天动态调整价格。保险公司跟踪保单、销售、理赔、工资单等。他们还会使用机器学习来预测欺诈。游戏公司必须实时跟踪用户行为并做出回应,以增强玩家体验。数据仓库让所有这些活动都有了实现的可能性。

如果您的组织具有以下资源或正在执行以下任意一项任务,则您可能适合使用数据仓库:

  • 多种数据来源
  • 大数据分析和可视化 - 包括异步和实时
  • 机器学习模型和其他 AI 驱动的流程
  • 流式分析
  • 自定义报告生成和点对点分析
  • 数据挖掘
  • 数据科学和地理空间分析

如何选择云端数据仓库解决方案

在选择云端数据仓库时,评估解决方案的工作原理并深入了解您的云数据仓库需要支持的现有使用场景至关重要。

在选择不同的提供商时,除了仓储功能之外,还需要考虑许多因素,包括架构、可伸缩性、安全性、价格、性能等方面的差异。例如,您可能会发现,易于实施的解决方案不易扩展,或者您可能需要重新培训所有数据分析师并购买额外的许可来升级当前系统。

除了考虑供应商之间的差异之外,还请务必考虑迁移到云数据仓库具体包含哪些内容,以及迁移与您现有的 IT 投资和特定业务需求的关系。

企业数据仓库在组织的决策中发挥核心作用。因此,您需要确保深入了解业务需求、当前使用场景以及现有解决方案的所有不足之处。让关键利益相关者在流程的早期阶段参与进来,有助于弄清楚替换旧数据仓库解决方案的影响、应对挑战所需的功能要求,以及有关数据源、工具、框架等的详细技术信息。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。
与 Google Cloud 销售专员联系,详细讨论您的独特挑战。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台
Google Cloud