随着端侧 AI 快速发展,开发者越来越希望让大语言模型直接运行在设备端,以实现更好的数据隐私保护、更低云端成本,以及可靠的离线体验。同时,随着安全法规不断推进,低延迟、本地运行正成为边缘 AI 部署的重要方向。
但是,大多数边缘硬件并不是围绕大语言模型的运行特性设计的。大语言模型对动态执行、激活处理,以及内存数据传输都有较高要求,这些往往也是系统性能的主要瓶颈。对拥有数亿参数的Transformer模型来说,直接运行在通用CPU上,效率并不高。当AI工作负载占用主控核心(Arm®/RISC-V/x86),就会占用应用本身需要的计算资源。开发者就不得不在AI推理性能和系统整体功能之间做取舍。因此,将这些模型从主CPU卸载到高效、可扩展的NPU上运行,是必然的选择。
普通的NPU很难处理这些工作负载,主要有以下几个原因:
- Gemma 3 270M这样的Transformer模型本质上是动态的,其序列长度和注意力掩码会在对话过程中不断增长。但大多数普通的边缘NPU仅支持静态运行环境,无法有效处理这种动态的张量维度。
- 大模型需要频繁调用GELU和Softmax等复杂的激活函数。这些函数涉及大量的迭代数学计算,在通用加速器上运行会导致延迟变长、功耗飙升。
- 制约性能的根本不是算力不够,而是数据传输太慢。由于内存带宽有限,在等待庞大的权重矩阵从内存写入时,NPU往往会处于闲置状态。
现代边缘设备需要采用异构边缘AI架构,通过组合不同的子系统,加速推理过程中的各个环节。这种设计将AI推理负载完整交给专用加速引擎处理,把主CPU释放出来,专用于执行常规应用任务。异构架构带来了更灵活的实现方式。开发者可以根据不同的需求组合配置,并在需要时实现平滑切换,不再依赖单一、固定的硬件方案,而是走向更具扩展性、更便于开发的新一代硬件架构。
为突破这些长期存在的硬件和软件限制,Synaptics与Google Research合作,推出了一个可扩展的前沿边缘智能解决方案。这一合作基于新一代边缘AI芯片平台,专门针对现代Transformer模型的运行需求而设计。整个方案主要围绕三项核心优化展开。
Synaptics与谷歌的强强联手
Synaptics的Astra™ SL2610产品线,是业内首个集成Coral NPU的IoT边缘AI处理器系列。其中,Torq NPU体现了异构计算架构的设计理念,将Synaptics自研、支持Transformer的T1核心,与Google开发的标量RISC-V核心(Coral NPU)结合在一起,共同实现高效的设备端多模态AI处理。
Gemma 3的架构与运行需求
Gemma 3 270M是Google的一款紧凑型instruction-tuned大语言模型。它由18层Transformer构成,运行过程中会用到GELU、Softmax,以及大量矩阵计算。这些计算会带来较大的内存和算力压力,所以需要针对性的优化。
得益于紧凑的模型设计和instruction-tuned架构,Gemma 3 270M让Coralboard能够作为高性能设备端对话助手运行。通过将Transformer相关工作负载卸载到Torq NPU处理,系统能够满足先进边缘应用对数据隐私保护和离线可靠性的要求。
本地算力让设备具备了“自然语言调用工具”的能力。模型可以化身为智能交互界面,理解用户意图并直接调用设备上的相应功能。通过平台的实时文本生成功能,设备无需依赖云端API,避免了高昂的云端成本和网络延迟,在离线状态下轻松实现语言翻译、自然语言工具调用、高效信息摘要以及文档处理。
不过,要在资源受限的边缘硬件上高效实现这些能力,仍需突破大语言模型推理中的几个关键瓶颈。针对这些挑战,Torq NPU工具链从三个核心支柱出发,进行了优化:
支柱一:模型静态化转换,实现可预测的稳定运行
与云端复杂的动态运行环境不同,Torq NPU等边缘加速器需要固定张量维度的静态运行环境。为此,我们的编译器工具链将动态计算图转换成了静态计算图,确保系统的稳定性。在转换过程中,工具链用预先分配好的静态张量,取代了原本会不断膨胀的KV缓存,并采用静态的注意力掩码和位置编码。复杂计算图会被简化为标准运算,实现硬件利用率最大化,并让大模型的运行时间更加可控、可预测。
支柱二:硬件加速激活函数计算
在通用硬件上,GELU 和 Softmax 这类激活函数需要大量迭代计算,功耗较高。Torq 通过将输入范围拆分为多个区间,并结合硬件优化的查找表(LUT)和线性插值来近似计算这些复杂激活函数,从而避免重复执行指数、除法等高计算开销操作。
通过这种方式,GELU 的计算速度可提升 10 倍。对于 Softmax,Torq 将运算拆解为指数和倒数查表,实现无需除法的 attention 计算。最新实验结果显示,采用这种 LUT 方法后,Softmax 推理速度提升可达 12.5 倍。
支柱三:混合精度权重量化
在Astra平台上,内存带宽是大模型推理的主要瓶颈。为此,我们采用了“基于敏感度的引导压缩技术”,根据每一层的具体耐受度来进行针对性量化。具体策略是:将84%的网络层压缩至4位精度;将语言模型头(lm_head)等16%的敏感层保留在8位精度,确保模型的准确度。
通过这种方法,我们在几乎不损失模型保真度的情况下,将权重从16位精度平均压缩到了仅4.3位。系统以压缩格式存储这些权重,并在它们流入计算单元时,通过“实时动态反量化”将其恢复到bf16精度,使有效吞吐量提升了2.7倍。此外,我们还通过精简词表和优化运行时DMA效率,进一步提升推理速度。
最终效果:面向真实应用的边缘AI
结合以上三项优化后,Torq NPU将推理速度提升了3.5倍。它还消除了动态分配产生的性能损耗,让激活函数运行速度提升了10倍,并显著改善了内存带宽瓶颈。这充分发挥了边缘设备本地运行的优势:数据更隐私、离线更可靠、延迟极低,大幅降低了云端成本。
开发者可以访问 Torq examples/demos GitHub ,查看具体的实现代码和技术文档。如需进行硬件评估,现可购买Synaptics Astra SL2610(Machina)开发套件。全新Synaptics Coralboard开发板也将正式发布,敬请关注!

Karthikeyan 现任 Synaptics 技术与创新团队 AI 架构总监,负责公司边缘 AI 项目的模型与编译器优化工作。自获得 University of California, Santa Barbara 博士学位并加入 Synaptics 以来,他持续推动机器学习和生物识别技术在多个产品线中的应用与发展,其中包括电容式和光学指纹传感技术。
他的研究涵盖成像、感知系统和边缘 AI,重点聚焦于 AI 模型训练与优化,实现其在资源受限处理器上的高效部署。目前,他在边缘 AI 模型优化、生物识别,以及图像和视频分析领域拥有 20 余项专利申请。Karthikeyan 拥有University of California, Santa Barbara博士和硕士学位,并获得 Indian Institute of Technology Madras 工学学士学位。

Sauryadeep Pal 现任 Synaptics AI 应用工程师,专注于嵌入式与边缘 AI。他拥有计算机工程与人工智能背景,目前主要负责将先进 AI 模型适配部署到嵌入式平台。他的专业方向包括计算图转换、量化,以及面向高效边缘 AI 的推理流程设计。
Sauryadeep 拥有 University of California, Irvine 计算机工程硕士学位,以及 Multimedia University 计算机工程学士学位。