数据湖

大数据厂商提出的概念
数据湖是一个未整合的、非面向主题的数据集合。Gartner Research 在其定义中添加了更多的背景:“原始数据源之外的各种数据资产存储实例的集合。这些资产存储在与源格式几乎完全一样(甚至完全一样)的副本中。”[1]
数据湖的概念是由趋势演变而来的,因为企业迫切需要一种方法来处理传统数据仓库无法处理的日益增长的数据格式以及不断增长的数据规模和速度。数据湖可以存放来源不同的任何类型的数据,这些数据可以是结构化的、非结构化的、半结构化的或二进制的。它是你可以以可伸缩的方式存储和处理所有数据的地方。[2]
在2006年引人Apache Hadoop之后,数据湖成为开源软件工具生态系统的同义词,简称“Hadoop”,其使用计算机网络为分布式存储和大数据处理提供了一个软件框架,来解决涉及大量数据和计算的问题。虽然大多数人会认为Hadoop只不过是一个数据湖,但它确实解决了多样性、速度和规模方面的一些挑战。[3]

价值

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。