【分享帖】计算机视觉：让冰冷的机器看懂多彩的世界-RoboMaster 社区

【分享帖】计算机视觉：让冰冷的机器看懂多彩的世界

364

2015-02-12

2010年，来自斯坦福大学、普林斯顿大学及哥伦比亚大学的科学家们启动ImageNet大规模视觉识别挑战赛（ImageNet Large Scale Visual Recognition Challenge，ILSVRC），推动了计算机视觉识别挑战的持续发展。据《纽约时报》称，在2014年计算机识别挑战中，计算机系统对目标识别准确率几乎提升了一倍，图像分类错误率则减少了一半。

在此基础上，由微软亚洲研究院视觉计算组开发的计算机视觉系统，最近又获得了突破性进展。据该团队发表的论文称，在包含约120万张训练图像、5万张验证图像和10万张测试图像，分为1000个不同类别的“ImageNe1000挑战”中，微软研究团队开发的系统成功将辨识错误率降低至4.94%，首次低于人眼约5.1%的辨识错误率。计算机视觉系统因何而起，又将走向何处？微软亚洲研究院的研究员孙剑讲述了计算机视觉的前世今生：

向“塔斯”靠近

一部风靡全球《星际穿越》激起了无数人对探索浩瀚宇宙奥秘的渴望，也让许多人记住了塔斯（Tars）这个聪明可爱、幽默风趣的智能机器人。人工智能主题的好莱坞电影一直广受影迷们的喜爱，人类用无尽的想象力和炫目的特技构筑了一个又一个无比精彩的未来世界，令人如痴如醉。不过，回到现实，计算机科学家们的行动力却看似远远赶不上电影艺术家们的想象力——电影终归是电影，要研发出一个像塔斯一样能看懂周围世界、听懂人类语言、并和人类进行流畅对话的智能机器人，我们要走的路还有很长。

《星际穿越》中能看、能听、能说的智能机器人塔斯受到了广大观众的喜爱。图片来源：《星际穿越》剧照

长时间来，让计算机能看、能听、能说一直是我和计算机界同行们孜孜以求的目标。耕耘在计算机视觉领域十余年，赋予计算机一双慧眼，让它也能看懂这个多彩的世界，一直是激励着我在这条充满挑战的道路上前行的重要力量。虽然计算机暂时还无法像电影中所展现的那般智能，但已经取得了很多令人惊喜的成绩。

世界如何在我们眼中形成

对人类而言，“认人”似乎是与生俱来的本能，刚出生几天的婴儿就能模仿父母的表情；它赋予我们只凭极少细节就分辨彼此的能力，借着暗淡灯光我们仍能认出走廊那端的朋友。然而，这项对人类而言轻而易举的能力，对计算机而言却举步维艰。过去很长一段时间，计算机视觉技术徘徊不前，在进一步探求前，不如先谈谈我们是如何用眼睛观察世界的。

相信大家都在中学的物理课上尝过小孔成像的原理。不过人的眼睛要比小孔成像复杂得多，当我们观察物体时，每秒大约扫视3次，并有1次驻留。当视网膜的感光体感受到蜡烛的轮廓，一个被称为中央凹的区域其实是以扭曲变形的形式记录下蜡烛的形状。

那么问题来了，为何我们看到的世界既未扭曲也没有变形呢？很简单，因为人类拥有大脑皮层这个万能的“转换器”，它将我们的视觉神经捕捉到的信号转换为真实的形象。这个“转换器”可简化理解为四个区域，生物学家将它们分别称为V1、V2、V4和IT区。V1区的神经元，只针对整个视觉区域中很小的一部分做出反应，例如，某些神经元发现一条直线，就变得异常活跃。这条直线可以是任何事物的一部分，也许是桌边，也许是地板，也许是这篇文章某个字符的笔划。眼睛每扫视一次，这部分神经元的活动就可能发生快速变化。

奥秘出现在大脑皮层顶层的IT区，生物学家发现，物体（例如一张脸）在视野的任何地方出现，某些神经元会一直处于固定的活跃状态中。也就是说，人类的视觉辨识是从视网膜到IT区，神经系统从能识别细微特征，到逐渐变为能识别目标。如果计算机视觉也可以拥有一个“转换器”，那么计算机识别的效率将大为提高，人眼视觉神经的运作为计算机视觉技术的突破提供了启迪。

计算机为何总是“雾里看花”

尽管人眼识别的奥秘已经被逐步揭开，但直接应用于计算机上却非易事。我们会发现计算机识别总是在“雾里看花”，一旦光线、角度等发生变化，计算机难以跟上环境的节奏，就会误识。对计算机而言，识别一个在不同环境下的人，还不如识别在同一环境下的两个人来得简单。这是因为最初研究者试图将人脸想象为一个模板，用机器学习的方法掌握模板的规律。然而人脸虽然看起来是固定的，但角度、光线、打扮不同，样子也有差别，都令简单的模板难以匹配所有人脸。

因此，人脸识别的核心问题在于，如何让计算机忽略同一个人的内部差异，又能发现两个人之间的分别，即让同一个人相似，不同的人有别。

计算机的人类识别系统。图片来源：msra.cn

对人工神经网络的引进是计算机视觉超越模板识别的关键。然而人类尚且未完全掌握神经的运作机制时，又该如何引导计算机进步呢？人工神经网络在1960年代就已萌芽，初期理论只固定在简单的模型之上，即生物课上的“输入-隐层-输出”模型。在介绍神经的工作原理时，老师们一般都会简单告知是外界刺激接触到输入神经元，输入神经元再链接其他部分形成“隐层”，最后通过输出神经元表现出来。这些神经元的链接强度并不相同，就像不同乐谱的强弱高低不同，人工神经网络就是依靠这些神经元之间不同的链接强度，学会将输入方式映射到输出上。

不过“乐谱”只是静止不动的，而且只能从“输入走向输出”，不存在反向呈现。也就是说如果人静止不动，计算机也许可以通过这一原理读出，但这在现实生活中不可能实现。1980年代末期，用于人工神经网络的“反向传播算法”发明，它能将输出单元的错误传回输入单元，并记住它。这种方法令人工神经网络能从大量训练样本中学习统计规律，对未知事件做出预测。不过与大脑的复杂及层级结构相比，这种只包含一个隐层的神经网络构造还显得微不足道。

文章标签

历史数据/历史数据

请问这篇文章对你有用吗？

【分享帖】计算机视觉：让冰冷的机器看懂多彩的世界