2025年12月26日

2025年9月,中国科学院自动化研究所的相关团队在原创内生复杂性理论系列论文成果的基础上,成功研发出类脑脉冲大模型——“瞬悉1.0”(SpikingBrain - 1.0)。这一成果意义重大,它代表着一种不依赖“规模法则”的新型大模型架构正式问世,为大模型突破复杂度瓶颈、提升性能开辟了一条全新的可行之路。
市面上主流的大模型几乎都基于Transformer(一种基于注意力机制的深度学习模型)架构训练。在“规模法则”的推动下,这些模型想要提升智能水平,只能不断增加网络规模、算力资源以及数据量。研究人员指出,这类大模型的基本计算单元是简单的“点神经元模型”,这种实现通用智能的方式可称为“基于外生复杂性”的路径。然而,Transformer架构存在固有缺陷,在训练过程中,其开销会随着序列长度的增加呈平方级增长;在推理时,显存占用也会随序列长度线性增加。这就像一道难以跨越的沟壑,严重限制了模型处理超长序列的能力,成为资源消耗的主要瓶颈。面对这一困境,研究团队另辟蹊径,从大脑神经元的复杂工作机制中汲取灵感,提出了“基于内生复杂性”的大模型架构方式,进而研发出“瞬悉1.0”类脑脉冲大模型。该模型在理论层面实现了重大突破,成功建立起“脉冲神经元内生动力学”与“线性注意力模型”之间的紧密联系,揭示了现有的线性注意力机制实际上是树突计算的一种特殊简化形式。这一发现,为大模型不断提升复杂度和性能指明了全新的方向。
研发团队还开发了适配国产GPU集群的高效训练和推理框架、模型并行策略以及集群通信原语,为模型的落地应用提供了坚实的技术支撑。“瞬悉1.0”在多个核心性能指标上实现了质的飞跃。首先,在训练数据量需求上,它展现出了极高的效率。仅需主流大模型约2%的预训练数据量,就能在多任务语言理解、中文多任务语言理解以及常识推理能力等任务上,达到与众多开源Transformer模型相媲美的性能水平。其次,推理效率实现了数量级的提升。在处理100万Token长度时,生成第一个Token所需时间(TTFT)相较于Transformer架构提升26.5倍;当处理400万Token长度时,加速倍数更是突破100倍。再者,它成功构建了国产自主可控的类脑大模型生态,有力地证明了构建国产自主可控的新型非Transformer大模型架构生态是完全可行的。该模型实现了基于动态阈值脉冲化的多尺度稀疏机制,为低功耗运行类脑大模型提供了可靠的技术保障。