约克大学的一项新研究表明,通过使用配置形状感知,深度卷积神经网络 (DCNN) 无法与人类视觉处理相匹配。根据该研究的合著者詹姆斯·埃尔德教授的说法,这可能对人工智能应用产生严重而危险的现实世界影响。
题为“深度学习模型无法捕捉人类形状感知的配置性质”的新研究发表在细胞出版社杂志iScience 上。
这是由担任约克人类和计算机视觉研究主席以及约克人工智能与社会中心联合主任职位的 Elder 与助理心理学教授和前 VISTA 的 Nicholas Baker 教授的合作研究约克大学博士后。
新颖的视觉刺激“科学怪人”
该团队依靠被称为“弗兰肯斯坦”的新型视觉刺激,帮助他们探索人脑和 DCNN 如何处理整体的、可配置的对象属性。
“科学怪人只是被拆开并以错误方式重新组合在一起的物体,”埃尔德说。“因此,它们具有所有正确的地方特征,但在错误的地方。”
研究发现,DCNN 不会像人类视觉系统那样被科学怪人混淆。这揭示了对配置对象属性的不敏感。
“我们的结果解释了为什么深度 AI 模型在某些条件下会失败,并指出需要考虑物体识别之外的任务,以了解大脑中的视觉处理,”Elder 继续说道。“这些深度模型在解决复杂的识别任务时往往会走‘捷径’。虽然这些捷径可能在许多情况下都有效,但在我们目前与行业和政府合作伙伴合作的一些现实世界人工智能应用程序中,它们可能是危险的。”
图片:约克大学
现实世界的影响
埃尔德说,这些应用之一是交通视频安全系统。
“繁忙的交通场景中的物体——车辆、自行车和行人——相互阻碍,并以杂乱无章的碎片形式到达驾驶员的眼前,”他说。“大脑需要正确地对这些片段进行分组,以识别物体的正确类别和位置。一个只能单独感知碎片的交通安全监控人工智能系统将无法完成这项任务,可能会误解易受伤害的道路使用者的风险。”
研究人员还表示,旨在使网络更像大脑的训练和架构修改并没有实现配置处理。没有一个网络能够准确地预测逐次试验的人类对象判断。
“我们推测,为了匹配人类的配置敏感性,必须训练网络来解决类别识别之外的更广泛的对象任务,”Elder 总结道