计算机视觉

人工智能的一个领域
计算机视觉(Computer Vision)是人工智能领域的一个重要分支,它专注于使计算机和系统能够从图像、视频等视觉输入中提取有意义的信息,并据此进行决策或提供建议。[2]它的核心任务是通过理解和处理二维图像来重建三维场景,从而实现对现实世界的深入理解。[4]
计算机视觉从1950年代的基础图像处理技术起步,[5]逐步探索二维到三维信息的提取,[6]并在1960年代开始关注模式识别[7]和三维建模。[8]进入1970年代,该领域被纳入人工智能的范畴,重点在于图像处理技术与AI技术的结合[9],目标是实现对环境的理解和导航。[10]随后的1980年代,研究重点转移到了数学理论和层次模型上,为目标检测和场景理解提供了坚实的理论基础。[11]1990年代以来,随着向实际应用的转向,如对象识别和运动分析等领域取得了显著进展。[12]2000年代初,机器学习例如支持向量机等在图像分类和物体识别中起到了核心作用。而在2010年代,深度学习的兴起极大促进了新技术的发展。[13]到了2020年代,如DALL-E等图像生成和合成技术的发展,使得计算机视觉与人类日常生活进一步紧密结合。[14]
计算机视觉综合了图像处理、机器学习、模式识别和深度学习等多项技术。[4]特别是随着深度学习技术的发展,卷积神经网络等能够自动提炼图像中复杂特征的深度神经网络已成为该领域的核心工具。[3]这些技术的结合不仅让计算机视觉能解释和理解视觉信息,还显著拓展了其性能和应用场景,支持广泛的应用。其中包括执行目标跟踪、人脸识别等特定任务,并在图像搜索、自动驾驶等多个领域发挥关键作用,进一步拓宽了计算机视觉的应用前景。[2]

相关概念

图像、数字图像与像素