数据挖掘

计算机科学术语
数据挖掘(英文:Data mining)又称数据勘测、数据采矿,是指从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含的、事先未知的、但又潜在有用的信息和知识的过程。[1]它利用一种或多种计算机学习技术,能够自动分析数据库中的数据并提取知识。[7]
数据挖掘一词起源于数据库中的知识发现。1989年8月,在美国底特律市召开的第11届国际人工智能联合会议上首次提出了知识发现KDD(Knowledge Discovery in Database)的概念。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据挖掘一词开始流传开来。[8]1997年,亚太地区召开一年一度的数据挖掘会议,标志着数据挖掘进入了发展阶段。1998年成立数据库中的知识发现专业组。[9]
数据挖掘可以针对任何类型的数据库进行,包括传统的关系数据库、文本数据库、Web数据库等,[10]发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。[8]基于以上特点,数据挖掘在商业领域、科学研究以及教育领域等都被广泛应用。[3]

产生背景

全球信息技术的迅速发展和互联网的快速普及造成了数据过量和信息爆炸,仅以数据库系统的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,更缺乏挖掘数据背后隐藏知识的手段。[11]要从海量数据中发现有价值的信息,需要功能强大和通用的工具,把这些数据转换成有组织的知识,数据挖掘正是实现这一功能的有效手段。数据挖掘又译为资料勘测、数据采矿,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的但又潜在有用的信息和知识的过程。[1]