跳转到

什么是数据湖?

数据湖是一个集中存储区,用于存储、处理和保护大量结构化、半结构化和非结构化数据。它可以以原生格式存储数据,并处理任何转换格式,而无需考虑大小限制。

详细了解如何在 Google Cloud 上对数据湖进行现代化改造

数据湖概览

数据湖提供了一个可伸缩的安全平台,使企业能够:以任何速度从任何系统中提取任何数据,无论数据来自本地、云还是边缘计算系统;以全保真的方式存储任何类型或数量的数据;实时或批量处理数据;使用 SQL、Python、R 或任何其他语言、第三方数据或分析应用分析数据。

与数据仓库相比,数据湖同时由其“不”是什么来定义。它不仅仅是存储空间,也不完全等同于数据仓库。

虽然数据湖和数据仓库都能够存储一定容量的数据,但它们都针对不同用途进行了优化。两者之间是互补关系而非竞争关系,因此公司可能需要同时使用这两种技术。相对而言,数据仓库通常适用于存储商业行为中常见的重复性报告和分析数据,如月度销售报告、每个区域的销售跟踪数据或网站流量。

您是否需要数据湖?

在确定公司是否需要数据湖时,应考虑您要处理的数据类型、您想用这些数据做什么、数据获取过程的复杂性、数据管理和治理策略,以及组织中人员使用的工具和技能水平。

如今,各个公司均开始从另一个角度看待数据湖的价值,即数据湖不仅仅用于存储全保真数据,它还能够帮助用户更深入地了解业务状况,因为数据湖提供了比以往更丰富的上下文,这有助于加速分析实验。

数据湖主要是为处理大量大数据而开发的,公司通常可以将原始数据通过批量传输和/或流式传输的方式移动到数据湖中,而无需对其进行转换。企业主要依靠数据湖实现以下目的:

  • 降低总体拥有成本
  • 简化数据管理
  • 为纳入人工智能和机器学习做好准备
  • 加快分析速度
  • 加强安全和治理

 

数据湖有哪些使用场景?

因为数据湖为分析和人工智能奠定了基础,所以各行各业的企业都在使用数据湖增加收入、节省资金以及降低风险。

媒体和娱乐

提供在线播放音乐、广播和播客的公司可以通过改进其推荐系统来增加收入,这样用户就会更多地消费他们的服务,使公司能够卖出更多的广告。

电信

跨国电信公司可以通过构建流失倾向模型来减少客户流失,从而节省资金。

金融服务

投资公司可以依靠数据湖来推动机器学习,这样他们就可以在获得实时市场数据后尽快管理投资组合的风险。