大模型、小芯片端侧智联梦想如何照进现实?

发表时间: 2024-01-16 23:01:22 来源:新闻中心

  集微网消息,在日前一次媒体专访中,“深度学习之父”杰弗里·辛顿曾畅想了ChatGPT等新一代AI大模型被运用于终端家电中的情景:“因此,我认为会有一个阶段,一旦某个AI系统训练完毕,我们会将其运行在非常低功耗的系统上。所以,如果你想让你的烤面包机能和你对话,你需要一个只花费几美元的芯片,而且它能运行像ChatGPT这样的程序。”

  在刚刚结束的中国家电及消费电子博览会(AWE 2023)上,一家中国芯片企业,已经让这样的梦想照进了现实。

  在以智能科技为主题的新国际博览中心W3馆,北京探境科技有限公司(简称“探境科技”)的展位上人流络绎不绝,集微网还看到不少家电厂商现场自报家门主动寻求合作。现场展出的端侧AI语音识别芯片解决方案,无需繁琐的配网和触控操作,一句指令就能让空调、风扇、灯具“随心而动”,特别是其新一代产品Voitist 811(简称VOI811),基于ChatGPT同源的语义理解技术,无需记忆命令词即可准确识别用户意图,为参观者带来了堪称惊艳的人机交互体验,也令人看到了AI“赋智”端侧应用的全新可能性。

  很长时间以来,这似乎是一个无需被追问的话题,从系统厂商到上游模组、方案商、芯片供应商,都习惯于因循着既有路径埋头奔跑,在WIFI/蓝牙、大屏、APP等软硬件元素上相互“内卷”,实际效果却差强人意。“中看不中用”的产品体验,也大大抑制了相关产业链的发育,成为公众笑料的冰箱大屏广告,恰是智能家居尴尬现状的一个缩影。

  正如埃隆·马斯克所言,我们总是倾向于比较,对别人已经做过或者正在做的事情,我们也都跟风去做。这样发展的结果,只能产生细小的迭代发展,甚至不经意间背离使用者的“初心”。

  假如端侧场景的智能化存在着一个“第一性原理”,那么人机交互的简单、自然、直接,无疑是其本质要求,面对从2.4G信道到云端叠床架屋的多重技术、商业模式挑战,产业界亟待“另辟蹊径”,探境科技在端侧AI语音识别上的实践,初步展现了令人兴奋的前景。

  从动物到人类,声音往往是信息交互的核心载体,智能家居这一场景,显然也很适合以语音进行人机交互与控制,不过传统基于统计学习技术的语音识别模型受算法及端侧芯片功耗、算力的约束,往往只能支持有限的命令词识别,乃至需要联网以云端资源提高性能,回到了配网、下载注册APP的老路,“即插即用”的应用潜力被技术瓶颈所束缚。

  探境科技此次展出的新一代芯片VOI811,则突破性地采用了ChatGPT同源的Transformer模型,支持较语音识别更高级的自然语意处理(NLP)功能,且较NLP领域以往的LSTM等模型相比,Transformer以基于位置的自注意机制取代了对时序信息的依赖,从而大幅改善了模型对算力资源的使用效率,已经在不同任务上展现出一系列强悍能力。基于Transformer模型,搭载VOI811的设备无需用户记忆特定关键词,其自然叙述的控制意图即可被准确理解。

  众所周知,应用Transformer的大型语言模型(LLM,Large Language Model)训练推理,动辄需要上万颗高性能GPU支撑,要在端侧实现同源的算法架构绝非易事,探境科技凭借在AI算法和AI芯片上的软硬件全栈技术能力,最终在业界领先实现了端侧离线部署的“奇迹”。

  探境算法专家透露,算法组的同仁为此进行了经年累月的细致打磨,结合智能家居等目标落地场景特点针对性优化,并结合了知识图谱、知识增强等前沿工程技术,而在硬件方面,VOI811采用了自研的SFA(存储优先,Storage First Architecture)架构NPU,针对AI计算“高差异、高并发、高耦合”特性,以存储驱动计算,打破存储墙,在同等条件下数据访问可降低10-100倍,28nm工艺条件下,系统能效比超过4T OPS/W,计算资源利用率超过80%,DDR带宽占用率降低5倍,支持FFT/MFCC/AEC硬件加速。

  值得一提的是,VOI811还可实现多意图识别,即一句指令可包含双重意图,如空调场景下,“调制冷模式,20度”,就能代替遥控器或APP多个操作动作,交互的灵活性、鲁棒性相较以往语音识别芯片解决方案也堪称颠覆式体验。

  在探境芯片专家看来,公司能够在产品落地上快人一步,主因是算法、算力、数据上三位一体的核心能力,除了上文已经谈到、业界少见的软硬件全栈自研模式,探境科技在场景数据的积累上也有自己的独到”法宝”,从收集采样、清洗分类再到训练,已形成高效运行的闭环机制。

  基于全栈能力的协同设计、协同优化,不仅使探境科学技术产品性能参数能做到更优,也使下游模组、系统厂商少了一分“后顾之忧”,规避了一些案例中软硬件供应商相互“甩锅”的弊病。

  除了产品技术上的诸多独到之处,探境科技对应用场景和客户的真实需求的深刻洞察,也给集微网留下了深刻印象。

  当前流行的智能家居蓝牙/WIFI SoC产品方案,在终端消费者处实际使用情况普遍不尽如人意,绝大部分产品在入户后,所谓智能功能就沦为摆设。原因主要在于用户侧背负了过重的负担,如要启用相关功能往往需要用户主动进行步骤繁琐的配网操作,“七国八制”的定制APP从使用者真实的体验角度而言不啻于噩梦,对隐私稍有敏感性的用户,也很难信任一个个陌生开发者的APP安装到自己手机,突兀出现在冰箱、音箱上的所谓“第三屏”、“第四屏”,所提供的内容对用户来说更是累赘而非收益。

  相比之下,基于语音的家居智能化,或许是更优选的路径,作为人工智能赛道里堪称覆盖面最广的一个领域,语音可以普遍的应用于各种智能化的升级场景下,一定要通过遥控器、APP或者物理按键操作的控制意图,均可适用于声控,探境CEO鲁勇感言:“从务虚的角度来看这个事情,我们正在经历一个人类从操纵物体必须要接触的时代,迈向可以比较远距离操控,整个生活生产方式会发生一个巨大的变化”。

  而在语音交互产品中,传统联网式产品如智能音箱,在消费的人心智中也同样存在隐私安全顾虑,曾经备受公众关注的亚马逊智能音箱Alexa“黑客门”,也佐证了这样的顾虑并非杞人忧天。鲁勇表示:“涉及到语音,这样的一个东西它本身就能听懂你说话。那么大家很自然地会想到,我在屋里面做的所有的事情它都在听,如果这样的一个东西是联网的,我天生就会产生不信任,离线在这里有天然的优势”,而免除了配网操作,从使用者真实的体验上来说,“插上就能用,打开就能有,这种体验就是人工智能真正到人身边了,而且是安全的”。

  基于上述洞察所形成的VOI811等产品差异化特性,也的确得到了下游厂商的热烈反响,笔者在展位现场所见所闻,已然预示了VOI811商业成功的前景。

  据鲁勇介绍,该公司AI语音识别芯片累计出货量目前已达到千万量级,覆盖品类广泛,在灯具等细分市场已建立起优势地位,新一代VOI811芯片送样测试后,下游厂商对这一内部集成了LDO和多种控制通信接口的产品普遍给出了高度评价,其高性能、高灵活性、高集成度的特点,可帮助智能家电、智能车载、智能音箱、人机交互等产品制造商大幅节约产品研究开发周期及研发、物料成本。

  以客户需求为中心,探境科技还依托其软硬件全栈研发能力,配套VOI811打磨了多套Turnkey参考设计模板,使内部技术力量不强的二线乃至白牌厂商,也可以在一定程度上完成新产品快速上市。

  当下的白电、消电产业周期中,探境科技的高速成长显得很可贵,在笔者看来,这样的逆势成长可谓水到渠成。正是因为市场进入存量“内卷”的平台期,使得供应商在同质化价格战中“蒙头狂奔”之外,有更强的紧迫感“抬头看路”,审视现有主流技术方案和形态的弊端,寻找差异化的产品卖点和业务增长点,更积极尝试不同的技术方案,从而为创新打开机遇窗口。

  瞄准未来机遇,探境将从始至终坚持离线语音控制这一端侧设备交互技术路线,加强完善其针对高、中、低不一样的层次市场需求的产品线布局,助力上亿乃至更大出货量级的传统家电产业智能化升级。

  约瑟夫·熊彼特在其“创造性破坏”理论中,曾对经济周期与创新涌现的镜像关系做了深刻的总结。而探境科技对端侧设备语音人机交互的洞察与探索,以及下游消电、家电厂商的热烈反响,恰可作为一个有关产业创新周期的生动注脚。

  随着离线AI语音控制方案能预见的加速普及,智能家居消费者,也将很快感受到梦想照进现实的惊艳。



相关文章