什么是大数据?

“大数据”是指若使用传统(关系型和/或单体式)数据库系统进行存储、管理和分析,成本通常过于高昂的数据。一般而言,此类系统无法灵活地存储非结构化数据(如图像、文本和视频)、不能适应“高速”(实时)数据或自由扩缩以支持非常庞大(PB 级)的数据量,所以经济效益较低。

鉴于这一原因,过去几年中,人们普遍开始采用新的方法来管理和处理大数据,其中包括 Apache Hadoop 和 NoSQL 数据库系统。但事实证明,这些方案在本地环境中部署、管理和使用起来往往较为复杂。

大数据来自何处?

过去,大多数客户数据都可以归类为规整的结构化事务信息(例如银行事务信息),如今,企业每天都会生成海量的非结构化在线客户交互数据,与仅仅几年前相比,都已是天壤之别。最近,随着“物联网”(指由数十亿个相互关联的设备和传感器组成的全球网络)的兴起,文本、视频、图像乃至音频等形式的数据呈现出了爆炸式增长的趋势。最后需要提及的一点是,如今在一些受监管的行业,出于法规遵从方面的原因,常常需要访问一些本该归档的数据。

大数据为何如此重要?

无论哪个行业、哪种规模的企业,想要在当今的形势下取得成功,都必须能够不断地从数据中挖掘业务价值。对于某些行业(例如零售、广告、金融服务以及不断增加的更多行业),是否具备这一能力甚至关系着企业的生死存亡。

分析的数据越多,数据分析产生的价值越高。因此,众多行业的组织都发现,大数据是可让其发掘深刻商业洞见的丰富宝藏。此外,训练机器学习模型时使用的数据越多,机器模型的效率越高,因此机器学习和大数据密不可分、相得益彰。

如何知道我的数据是否为“大数据”?

尽管很多企业的数据量尚未达到 PB 级规模,但其数据可能具备大数据区别于其他类型数据的两个特征之一。有一点是毫无疑问的,那就是您的数据会随着时间的推移而增长,并有可能呈指数级增长。从这一点讲,所有“大数据”都是从“小数据”累积而成。

为什么云平台是最适合大数据的平台?

与本地部署相比,云计算平台具有更佳的可扩缩性、灵活性、成本效益乃至安全性,可让用户放心地存储、处理和分析数据。当数据量呈指数级增长时,云计算平台的上述特性对客户来说至关重要,客户可以按需使用存储和处理资源,并从相关数据中获取价值。此外,如果企业刚涉足大数据分析和机器学习领域,希望避免本地大数据系统的潜在复杂性,则可以通过云平台以随用随付的方式体验托管式服务(例如 Google BigQuery 和 Google Cloud ML Engine)。

了解详情: