潘云鹤：攻克人工智能“视觉知识”五大难题

　　近年来，图像识别水平的快速提升推动人工智能热潮形成，图像识别技术的突破不仅提高了计算机对人脸、文字、指纹及生物特征、医学图片等识别的准确率，而且进一步推动了安全监控、智能交通、无人机、智能制造等广泛领域的发展。但也遇到进一步发展，如可解释、可分析综合、可设计仿真等等挑战。

　　对此，在中国工程院信息与电子工程前沿学术期刊上，中国工程院院士、浙江大学教授潘云鹤提出了“视觉知识”概念，他认为实现视觉知识表达、推理、学习和应用技术将是人工智能 2.0 取得突破的重要关键之处。近日，潘云鹤在接受《中国科学报》专访时，详细阐述了“视觉知识”发展面临的5个基本问题。

　　“认知心理学早已指出，心象是人类知识记忆的重要部分，被用来进行形象思维。视觉知识就是计算机对心象的模拟。因此，基于视觉的人工智能是人工智能发展绕不开的课题，且具有重要意义。”潘云鹤指出。

　　潘云鹤认为，视觉知识表达是第一大问题。与当今人工智能所用的知识表达方式不同，视觉知识概念具有典型与范畴结构、层次结构与动作结构等要素。视觉概念能构成视觉命题，包括场景结构与动态结构;视觉命题能构成视觉叙事，例如无声电影就是视觉叙事的显示形式。

　　视觉知识不同于言语知识的特征是能表达对象的大小、色彩、纹理、空间形状及关系;能表达对象的动作、速度及时间关系;能进行对象的时空变换、操作与推理等。事实上，人类记忆中储存的视觉知识远多于言语知识。

　　视觉识别是第二个问题。

　　“从人工智能早期开始，模式识别便是其中一个最重要的研究领域，其中图象和视频识别是发展最快的方向。”潘云鹤表示，近来，深度学习所提供的方法：用大量标识的图像训练出深度神经网络模型用于图象识别，显著提高了正确率，已获广泛应用。

　　但与深度神经网络模型方法不尽相同，人类在工作记忆中进行视觉识别时，不仅分析视网膜即时感知后传入短期记忆中的数据，而且激活了长期记忆中过去学到的并记住的相关心象，即视觉知识。因此，人类在完成视觉识别任务时往往只需少量数据，而且可解释，也可推理。

　　潘云鹤说，在视觉识别中，不但使用数据，而且协同使用视觉知识，形成数据驱动和视觉知识指导的协同计算范式是视觉识别的重要的研究方向。

　　第三、四个问题分别是视觉形象思维模拟、视觉知识的学习。

　　潘云鹤指出，视觉形象思维模拟在计算机辅助设计和仿真、计算机动画、游戏、儿童教育和数字媒体创意等领域应用十分广泛，计算机图形学已储备很多基础技术，但有待与人工智能打通。一旦实现，有望打开新一代设计、仿真、教育、创意等软件的发展新空间。

　　“视觉知识学习则要将目标从三维形状的重建任务提升到视觉知识概念和命题的重建。”潘云鹤指出，这就需要对现有计算机视觉技术做进一步研究：不仅要重建3D 形状，而且要重构 3D 形状的概念结构与层次结构。在此基础上，有望发展出视觉知识的自动学习手段，“当前的场景图研究是向视觉知识自动学习前进的一个合适的中间方法，当今特别需要人工智能、计算机图形学和计算机视觉3 个领域的研究者们联手研究。”

　　多重知识表达是第五大问题。

　　潘云鹤认为，人脑中的知识往往是通过多重表达来描述. 因此，人工智能2.0的知识应有多种表达方式，包括知识的言语表达、知识的深度神经网络表达、知识的形象表达等，多重知识表达将形成跨媒体智能和大数据智能新的技术理论和模型。

　　“视觉知识和多重知识表达的研究是发展新的视觉智能的关键，也是促进人工智能 2.0取得重要突破的关键理论与技术。”潘云鹤表示，视觉知识的独特优点是具有形象的综合生成能力、时空演化能力和形象显示能力，人工智能与计算机视觉、计算机辅助设计、计算机图形学技术联合，将为人工智能在创造、预测和人机融合等方面的新发展提供重要的新基础新动力。

　　“视觉知识是一块寒湿而肥沃的人工智能的‘北大荒’，也是一块充满希望、值得多学科合作勇探的‘无人区’。”潘云鹤呼吁道。