卡内基梅隆大学机器人研究所的研究人员开发了一种名为FRIDA的工具,它是一个附有画笔的机械臂。该工具利用人工智能(AI)与人类合作开展艺术项目。
该团队将于5月在2023年IEEE机器人与自动化国际会议上展示题为“FRIDA:具有可区分的Real2Sim2Real规划环境的协作机器人画家”的研究。
Peter Schaldenbrand是博士。计算机学院机器人研究所学生。他与FRIDA合作,探索人工智能和创造力。
“有一幅青蛙芭蕾舞演员的画,我认为效果非常好,”他说。“这真的很傻也很有趣,我认为FRIDA根据我的输入生成的惊喜真的很有趣。”
FRIDA是Framework and Robotics Initiative for Developing Arts的缩写。它以弗里达·卡罗的名字命名。
该研究由Schalderbrand以及RI教员Jean Oh和Jim McCaam领导,它吸引了来自CMU各地的学生和研究人员。
协作工具不是艺术家
用户可以通过输入文字描述、提交其他艺术作品以激发其风格或上传照片并要求其绘制代表来引导FRIDA。该团队还在测试其他输入,例如音频。
“FRIDA是一个机器人绘画系统,但FRIDA不是艺术家,”Schalderbrand继续说道。“FRIDA并没有产生交流的想法。FRIDA是一个艺术家可以与之合作的系统。艺术家可以为FRIDA指定高级目标,然后FRIDA可以执行它们。”
为了绘制图像,机器人使用的AI模型与支持OpenAI的ChatGPT和DALL-E 2的模型相当,后者会根据提示生成文本或图像。FRIDA模拟了它如何用笔触绘制图像,并利用机器学习来评估其工作进度。
FRIDA的最终产品是异想天开和印象派的。笔触大胆,缺乏机器人工作中经常寻求的精确度。
“FRIDA是一个探索人类和机器人创造力交叉点的项目,”McCann补充道。“Frida正在使用已经开发的AI模型来做诸如标题图像和理解场景内容之类的事情,并将其应用于这个艺术生成问题。”
FRIDA在其艺术创作过程中多次使用人工智能和机器学习。首先,它会花一个小时或更长时间学习如何使用画笔。然后,它采用视觉语言模型,这些模型已经在庞大的数据集上训练,将文本和从互联网上抓取的图像配对,例如OpenAI的对比语言图像预训练(CLIP),以理解输入。
制作物理图像的最重大技术挑战之一是减少模拟与真实的差距,这是FRIDA在模拟中创建的内容与它在画布上绘制的内容之间的差异。FRIDA使用了一种被称为real2sim2real的想法,其中机器人的实际笔触用于训练模拟器以反映和模仿机器人和绘画材料的物理能力。
FRIDA团队现在的目标是通过不断改进他们使用的模型来解决当前大型视觉语言模型中的一些局限性。他们从新闻文章中为模型提供标题,让他们了解世界上正在发生的事情,并进一步训练他们使用更能代表不同文化的图像和文本,以避免美国或西方的偏见。