谷歌: 是鸭是兔？百年老图难倒谷歌AI

2019-03-08 | 来源: 量子位 | 转到微信 | 有1人参与评论 | 字体: 放大缩小 | 收藏 | 打印

　　鸭兔幻觉

　　“鸭兔同图”问题让不少网友犯了难，这是一个比“鸡兔同笼”更玄幻更有意思的问题。还有一大波人类，正常尝试判断AI的心理状态……

　　网友sangnoir认为，纠结图中到底是什么完全没有意义，图像本身中既包含了兔子又包含了鸭子，人类尚且觉得两者都在，何必非得让AI去做“二选一”的定性呢？

　　下面这个数字大家都认识，但是旋转起来，到底是几呢？

　　

　　△ 若旋转起来，图片是“6”还是“9”？

　　谈到旋转，更进一步，之前有个“旋转舞者”的问题更困难，下面这个小人到底是顺时针还是逆时针旋转，人类的看法也兵分两路↓↓↓

　　

　　实际上，当你视线以从左往右的方向扫过这张图时，你看到的是逆时针转圈，反之，当你先看到的是右边时，你眼中的她是顺时针的。在计算机视觉上，还有一个专门的名词解释这个现象，即多稳态/双稳态感知。

　　也有网友表示，这件事恰恰反映了AI识别物体的能力已经高于人类了。

　　他认为，之所以Google Cloud Vision会连续给出不同答案，是因为AI系统每隔一段时间就会基于旋转的图像重新判断并实时更新。

“中国第一贪”、江泽民儿子被Google检索吓到了(图)

Google员工办公室喊口号抗议以色列，全被开除(图)

降价30%？Google下月有大动作(图)

　　而人类的大脑往往就卡在第一印象了，所以才会咬定一个物种不放松。

　　也有人表示，这件事也启发了视觉从业者反思AI识别物体时的方向问题。

　　比如网友Sharlin就认为，人类在判断物体时对于空间的认识具有先验性，用这样的标注数据训练出的模型，在不知不觉中也将空间和方向等因素考虑在内了。

　　但是，现在大多数视觉算法都想努力实现某种程度的旋转不变性，还提出了“尺度不变特征转化（SIFT）”等概念。“不变性”可能也反映了人类的局限性，输入方向也是一个重要考虑因素。

　　胶囊网络或许可行

　　同一张图片，由于位置不同，AI就产生了不同的判断。也有很多人想到了更多。

　　传统的卷积神经网络CNN架构中有个弊端，就是缺乏可用的空间信息。

　　一般来说，CNN提取、学习图像特征来识别物体。拿面部识别任务来说，底层网络学习一般性特征（比如面部轮廓等），随着层数的加深，提取的特征就越复杂，特征也精细到眼睛、鼻子等器官。

　　问题来了，神经网络用它学习到的所有特征作出最后的输出，但唯独没有考虑到可用的空间信息。人类可以识别出下面这张有些错位的人脸，但CNN就不能。