存算一体芯片量产元年-突破冯诺依曼瓶颈

张开发
2026/5/20 21:07:11 15 分钟阅读
存算一体芯片量产元年-突破冯诺依曼瓶颈
存算一体芯片量产元年从学术概念到千万颗出货国产力量如何突破冯·诺依曼瓶颈一个被央视点名的前沿技术2026年全国两会期间华中科技大学副校长冯丹在两会通道上发出呼吁支持湖北打造世界级存算一体产业集群。央视《新闻联播》的镜头罕见地对准了一项半导体底层技术——存算一体Computing-in-Memory, CiM。如果你以为这只是学术界的实验室玩具那下面的数据可能会改变你的看法知存科技的WTM2101芯片已经量产超过1000万颗搭载在华为和小米的可穿戴设备上。从论文到千万颗量产存算一体芯片在2026年正式跨过了产业化门槛。这意味着什么呢我们从头说起。冯·诺依曼架构的七十年瓶颈1945年冯·诺依曼提出了一个影响至今的计算机架构计算单元和存储单元是分开的。CPU负责算内存负责存两者之间通过总线来回搬运数据。这个架构简洁优雅但有一个根本性的问题数据搬运的能耗远大于计算本身。根据业界统计在传统架构中一次8位加法运算的能耗约0.03pJ而从DRAM搬运64位数据到计算单元的能耗高达640pJ——是计算本身的21000倍。在AI推理场景中模型参数从内存加载到计算单元的过程消耗了70%以上的总能耗和95%以上的总时间。存算一体的核心思路极其简单粗暴把计算直接搬到存储阵列里面做省掉数据搬运这一步。三大技术流派从简单到极致存算一体目前有三个主要技术路线从易到难排列近存计算Near-Memory Computing, NMC计算单元和存储器封装在同一芯片或2.5D/3D封装的同一园区内。数据搬运距离从厘米级缩短到微米级门槛最低HBM高带宽内存就是这种思路的代表。存内处理Processing-in-Memory, PIM在存储芯片的外围电路中增加计算功能。比如在DRAM或SRAM的Sense Amplifier旁边加一个乘加器数据从存储单元读出来之后直接做运算不需要先送到CPU。存内计算Computing-in-Memory, CIM最激进也最有前景的路线——直接在存储阵列内部执行矩阵运算。利用存储单元的物理特性如电流叠加、电压累加完成模拟计算一次读操作就能完成一行向量的乘加运算。ISSCC 2026上清华大学、华为与字节跳动联合团队展示了一颗28nm的混合CiM芯片QPS每秒查询数提升66倍QPS/W能效比提升181倍。这个数据不是在实验室理想条件下的而是在真实的推荐系统推理场景中测出来的。国产厂商的量产成绩单存算一体赛道上中国企业的进展比大多数人预期的要快。下面这张表值得收藏企业技术路线产品/进展应用场景知存科技NOR Flash存算一体WTM2101已量产超1000万颗华为/小米可穿戴设备后摩智能SRAM存算一体鸿途H30256TOPS已量产自动驾驶、智能座舱昕原半导体ReRAM阻变存储器28nm ReRAM存储芯片已量产工业控制、物联网炬芯科技SRAM存内计算ATS323X/ATS362X已量产无线麦克风、电竞耳机微纳核芯3D-CIM三维存算一体与手机龙头合作兆易创新入股手机端侧AI推理亿铸科技ReRAM存算一体2023年流片成功2026年推出AI算力卡数据中心推理加速特别值得注意的是昕原半导体——它是国内唯一实现28nm ReRAM量产的企业。ReRAM阻变存储器是一种新型非易失存储介质兼具存储和计算能力理论上能实现断电不丢数据原地计算的理想状态。虽然目前工艺成熟度和良率仍有瓶颈但量产本身就是里程碑。与Chiplet的融合存算一体的进化路径存算一体不会取代GPU/NPU而是通过Chiplet小芯片技术与现有计算架构深度融合。这个演进路径大致分三个阶段近期2026-2027作为专用加速器处理推理、数据预处理等特定任务与GPU集群互补部署。比如在数据中心里用存算一体芯片做Embedding查询和相似度搜索把这部分负载从GPU上卸下来。中期2027-2029通过3D堆叠先进封装如台积电的3.5D封装存算一体单元与GPU/NPU深度融合实现近存存内的协同计算。微纳核芯的3D-CIM架构已经展示了这个方向的可行性——算力密度提升4倍功耗降低10倍。长期2029以后以存算一体芯片为核心构建新型计算集群从根本上颠覆冯·诺依曼架构。当90%的算力需求都迁移到端边场景时存算一体的能效优势将变得不可替代。对嵌入式工程师意味着什么存算一体芯片对嵌入式领域的影响可能比数据中心更快落地。原因很简单嵌入式场景对功耗和成本极其敏感存算一体的能效优势在这里是刚需而不是锦上添花。几个具体的应用方向可穿戴设备知存科技的WTM2101已经证明存算一体芯片可以在毫瓦级功耗下运行轻量级AI模型如心率异常检测、语音唤醒词识别这为Apple Watch、小米手环这类产品提供了低功耗AI的硬件基础。工业传感器在振动检测、声学诊断等场景中传感器端直接完成特征提取和异常分类只把告警信号上传云端。存算一体芯片让在传感器里跑AI变成了现实。智能音箱和TWS耳机炬芯科技的ATS323X已经在无线麦克风和电竞耳机中量产支持本地语音降噪和回声消除。存算一体让这些设备在电池续航不缩水的前提下增加了AI功能。值得关注的原因从学术到产业的跨越。1000万颗量产不是概念验证而是真金白银的商业化。存算一体不再是十年后的技术。国产替代的新赛道。在传统CPU/GPU领域追赶英伟达和Intel的难度巨大但存算一体是全新的技术路线中国企业和高校在学术积累和产业布局上都有先发优势。端侧AI的硬件底座。当AI从云端下沉到端侧功耗和成本成为最硬的约束条件。存算一体是解决这个约束的最优解之一。写在最后存算一体的故事告诉我们半导体创新不只是把晶体管做得更小摩尔定律还可以从根本上改变计算和存储的关系架构创新。在这个意义上存算一体可能是后摩尔时代最重要的技术方向之一。对于普通开发者来说存算一体的普及意味着你的AI模型有一天可以跑在一颗功耗不到1瓦的芯片上不需要连WiFi不需要调API数据完全本地处理。这个未来可能比我们想象的来得更快。

更多文章