数据清洗

清除错误和不一致数据的过程
数据清洗(Data Cleaning),作为数据处理中的核心环节,旨在通过仔细审查和校正数据,消除不完整、错误或重复等的数据问题。[1]数据清洗在宏观层面提高跨多个领域的数据质量和可靠性,且在微观层面上精确解决如时间不一致性等数据记录的质量问题,从而确保数据的一致性和准确性。[9]
数据清洗这一研究领域自1959年起便在美国开始得到关注,[3]随着技术发展,1999年,邓肯等人首次将规则引擎应用于数据清洗,提高了处理复杂任务的灵活性并降低了维护成本。[10][11]2004年,覃华等人提出利用遗传算法与神经网络创建数据清洗模型,该模型结合了非线性映射能力与全局优化特性,凸显了机器学习在提升数据质量中的作用。[12]随着互联网和电商的发展,数据量激增,给数据清洗带来了巨大挑战。因此,蒂埃莫·迪亚洛(Thiemo Diallo)等人在2012年强调编辑规则在数据清洗中的重要性,为数据修复提供了明确指导。[13]2020年,自动化机器学习成为研究重点,随着DataAssist平台的不断完善,数据清洗逐渐实现自动化与迭代式,数据质量及数据清洗的效率和准确性也逐步提升。[14]
数据清洗依赖于数理统计方法、数据挖掘技术和预定义的清洁规则等多种技术手段,[7]其流程通常包括需求分析、数据预处理、清洗规则设定、执行清洗操作、数据修正以及最终的质量检验等环节。[9]为全面评估数据清洗的成效,需综合考虑数据的可信性、可用性和约束性[15]等关键因素。[1]随着技术的不断进步,硬件和软件系统如Cygwin[16]、TextMate[17]、Kettle[18]等的应用使得数据清洗在医疗[3]、金融[5]电商等多个领域成为现代社会不可或缺的关键技术。[6]

历史沿革

起源