在本文中,我们主要探讨两个主要问题,即在“小型机器”中实现AI的理由,以及开发AI小型机器将面临哪些挑战?
未来,在AI方面,我们应该有飞行汽车和机器人管家。甚至还可能遇到有感知能力的机器人决定起来反抗我们。虽然我们还没有发展到这种程度,但显然AI技术已经进入了我们的世界。
每次当我们让智能语音助手做一件事是,ML技术就会先搞明白你说了什么,并试图对你想让它做什么做出最好的决定。例如,每次视频网站或电商平台向你推荐“你可能喜欢的电影”或“你可能需要的商品”时,它都是基于复杂的ML算法,尽可能地向你提供具有说服力的建议,这显然比过去的促销活动更有吸引力。
虽然我们可能不是所有人都有无人驾驶汽车,但我们敏锐地意识到这一领域的发展以及自动导航提供的潜力。
AI技术承载着一个伟大的希望——机器可以根据周围的世界做出决定,像人类一样处理信息,甚至以一种优于人类的方式。但如果我们考虑一下上面的例子,就会发现只有“大型机器”才能实现AI的承诺,这些设备往往没有功率、尺寸或成本的限制。或者换句话说,它们会发热,有线路供电,体积很大,而且很昂贵。例如,Alexa和Netflix这些全球领先的IT巨头企业依靠云中的大型耗电服务器(数据中心)来推断用户的意图。
虽然无人驾驶汽车很可能依赖电池,但考虑到这些电池必须转动车轮和转向,它们的能量容量是巨大的。与最昂贵的AI决策相比,它们是巨大的能源支出。
因此,尽管AI前景广阔,但“小机器”却被抛在了后面。由较小电池供电或具有成本和尺寸限制的设备无法参与机器可以看到和听到的想法。今天,这些小机器只能利用简单的AI技术,也许是听一个关键词,或者从心率分析低维信号,如光电体积描记术(PPG)。
如果小机器能看能听会怎样?
但是,小型机器能够看到和听到是否有价值?可能很多人很难想象像门铃摄像头这样利用无人驾驶或自然语言处理等技术的小设备。尽管如此,诸如词汇识别、语音识别和图像分析之类的不太复杂、处理密集程度较低的AI计算仍然存在机会:
门铃摄像头和消费级安全摄像头通常会触发一些无趣的事件,例如风引起的植物运动、云引起的剧烈光线变化,甚至是狗或猫在镜头前面动等事件。这可能导致错误警报触发,导致房主开始忽略掉一些重要事件。因为,房主可能在世界不同的地方旅行,也可能正在睡觉,而他们的安全摄像机却对日出、云和日落引起的照明变化频繁发出警报。而更智能的摄像机则可以更加精准是识别物体变化,如人体的轮廓,进而避免误报干扰。
门锁或其他接入点可以使用面部识别甚至语音识别来验证人员访问权限,在很多情况下无需钥匙或IC卡。
许多摄像头希望在某些事件上触发:例如,跟踪摄像头可能希望在画面中出现某一种动物时触发,安全摄像头可能希望在画面中出现人或开门或脚步声等噪音时触发,并且有些摄像机可能想要通过语音命令触发等等。
大词汇量命令在许多应用中都很有用。虽然有很多类似“Hey Alexa”、“Hey Siri”解决方案,但如果开始考虑20个或更多单词的词汇,则可以在工业设备、家庭自动化、烹饪用具和许多其他设备中找到用于简化人机交互的用途。
这些例子只是表面上的。让小型机器看到、听到和解决以前需要人工干预的问题的想法是一个强大的想法,我们每天都在继续寻找创造性的新用例。
让小型机器能看和听的挑战是什么?
那么,如果AI对小型机器如此有价值,为什么我们还没有广泛应用呢?答案是计算能力。AI推理是神经网络模型计算的结果。把神经网络模型想象成你的大脑如何处理图片或声音的一个粗略的近似,把它分解成非常小的片段,然后当这些小片段组合在一起时识别出模式。
现代视觉问题的主力模型是卷积神经网络(CNN)。这些模型在图像分析方面非常出色,在音频分析中也非常有用。挑战在于此类模型需要数百万或数十亿次数学计算。传统上,这些应用很难选择实施:
使用廉价且低功耗的微控制器解决方案。虽然平均功耗可能很低,但CNN可能需要几秒钟的时间来计算,这意味着AI推理不是实时的,因此会消耗大量电池电量。
购买可以在所需延迟内完成这些数学运算的昂贵且高性能的处理器。这些处理器通常很大,需要大量外部组件,包括散热器或类似的冷却组件。但是,它们执行AI推理的速度非常快。
无法实施。低功耗微控制器解决方案将太慢而无法使用,而高性能处理器方法将打破成本、尺寸和功率预算。
我们需要的是一种嵌入式的AI解决方案,从头开始构建,以最大限度地减少CNN计算的能源消耗。与传统的微控制器或处理器解决方案相比,AI推断需要在一个数量级上执行,并且不需要内存等外部组件的帮助,这些外部组件会消耗能量、体积和成本。
如果AI推理解决方案可以消除机器视觉的能量损失,那么即使是最小的设备也可以看到并识别周围世界发生的事情。
幸运的是,我们正处于这场“小机器”革命的开端。现在的产品几乎可以消除AI推断的能源成本,并实现电池驱动的机器视觉。例如,一个微控制器可用于执行AI推理,同时仅消耗微焦耳的能量。