数据清洗

清除错误和不一致数据的过程

条目

历史版本

数据清洗（Data Cleaning），作为数据处理中的核心环节，旨在通过仔细审查和校正数据，消除不完整、错误或重复等的数据问题。^[1]数据清洗在宏观层面提高跨多个领域的数据质量和可靠性，且在微观层面上精确解决如时间不一致性等数据记录的质量问题，从而确保数据的一致性和准确性。^[9]

数据清洗这一研究领域自1959年起便在美国开始得到关注，^[3]随着技术发展，1999年，邓肯等人首次将规则引擎应用于数据清洗，提高了处理复杂任务的灵活性并降低了维护成本。^[10]^[11]2004年，覃华等人提出利用遗传算法与神经网络创建数据清洗模型，该模型结合了非线性映射能力与全局优化特性，凸显了机器学习在提升数据质量中的作用。^[12]随着互联网和电商的发展，数据量激增，给数据清洗带来了巨大挑战。因此，蒂埃莫·迪亚洛（Thiemo Diallo）等人在2012年强调编辑规则在数据清洗中的重要性，为数据修复提供了明确指导。^[13]2020年，自动化机器学习成为研究重点，随着DataAssist平台的不断完善，数据清洗逐渐实现自动化与迭代式，数据质量及数据清洗的效率和准确性也逐步提升。^[14]

数据清洗依赖于数理统计方法、数据挖掘技术和预定义的清洁规则等多种技术手段，^[7]其流程通常包括需求分析、数据预处理、清洗规则设定、执行清洗操作、数据修正以及最终的质量检验等环节。^[9]为全面评估数据清洗的成效，需综合考虑数据的可信性、可用性和约束性^[15]等关键因素。^[1]随着技术的不断进步，硬件和软件系统如Cygwin^[16]、TextMate^[17]、Kettle^[18]等的应用使得数据清洗在医疗^[3]、金融^[5]、电商等多个领域成为现代社会不可或缺的关键技术。^[6]

数据清洗

历史沿革

起源