来自麻省理工学院、MIT-IBM 沃森人工智能实验室和其他机构的一组研究人员开发了一种新方法,使人工智能 (AI) 代理能够实现远见卓识。换句话说,在考虑他们的行为在完成任务时如何包含其他 AI 代理的行为时,AI 可以考虑到很远的未来。
该研究将在神经信息处理系统会议上发表。
人工智能考虑其他代理人的未来行动
该团队创建的机器学习框架使合作或竞争的 AI 代理能够考虑其他代理将做什么。这不仅仅是在接下来的步骤中,而是随着时间接近无穷大。智能体相应地调整他们的行为以影响其他智能体未来的行为,帮助他们达成最优的长期解决方案。
据该团队称,该框架可用于例如一组自主无人机协同工作以寻找迷路的徒步旅行者。自动驾驶车辆也可以使用它来预测其他车辆的未来动作,以提高乘客安全。
Dong-Ki Kim 是麻省理工学院信息与决策系统实验室 (LIDS) 的研究生,也是该研究论文的主要作者。
“当 AI 代理合作或竞争时,最重要的是它们的行为何时会在未来的某个时刻收敛,”Kim 说。“一路上有很多短暂的行为,从长远来看并不重要。实现这种融合行为是我们真正关心的,我们现在有一种数学方法可以实现这一点。”
研究人员解决的问题称为多代理强化学习,强化学习是机器学习的一种形式,AI 代理通过反复试验进行学习。
每当有多个合作或竞争代理同时学习时,过程就会变得复杂得多。随着代理考虑其他代理的更多未来步骤,以及他们自己的行为及其对他人的影响,这个问题需要太多的计算能力。
人工智能思考无限
“AI 真的很想考虑游戏的结局,但他们不知道游戏何时结束,”Kim 说。“他们需要考虑如何不断调整自己的行为,以便在未来某个遥远的时间获胜。我们的论文实质上提出了一个新目标,使人工智能能够思考无限。”
将无穷大集成到算法中是不可能的,因此该团队设计系统的方式是让代理专注于他们的行为将与其他代理收敛的未来点。这被称为均衡,均衡点决定了代理人的长期表现。
多智能体场景中可能存在多重均衡,当一个有效的智能体主动影响其他智能体未来的行为时,它们可以达到智能体角度的理想均衡。当所有代理人相互影响时,他们会收敛到一个被称为“主动均衡”的一般概念。
进一步的框架
该团队的机器学习框架称为 FURTHER,它使智能体能够学习如何根据与其他智能体的交互来调整自己的行为,以实现主动平衡。
该框架依赖于两个机器学习模块。第一个是推理模块,使代理能够根据先前的操作猜测其他代理的未来行为以及他们使用的学习算法。然后将信息输入强化学习模块,代理依赖该模块调整其行为并影响其他代理。
“挑战在于思考无限。我们必须使用许多不同的数学工具来实现这一点,并做出一些假设才能使其在实践中发挥作用,”Kim 说。
该团队在不同场景中针对其他多智能体强化学习框架测试了他们的方法,其中使用 FURTHER 的 AI 智能体领先。
该方法是分散的,因此代理人学会独立取胜。最重要的是,与需要中央计算机控制代理的其他方法相比,它更适合扩展。
据该团队称,FURTHER 可用于广泛的多代理问题。Kim 对其在经济学中的应用特别有希望,因为它可以应用于在涉及许多行为和利益随时间变化的交互实体的情况下制定合理的政策。