image

编辑人: 独留清风醉

calendar2026-01-14

message0

visits227

DeepSeek开年献技:梁文锋团队提出mHC方案,破解大模型训练稳定性难题

智东西1月1日报道,DeepSeek团队于前一日晚间发布新年重磅成果——新论文《Manifold-Constrained Hyper-Connections》,提出一种名为mHC(流形约束超连接)的残差连接新方案,成功攻克现有大模型连接结构训练不稳定、可扩展性受限的核心痛点。DeepSeek创始人兼CEO梁文锋参与论文合著,延续团队在大模型基础架构领域的硬核创新实力。
论文核心指出,当前Hyper-Connections(HC)等先进连接结构虽能显著提升模型性能,但因结构复杂且缺乏有效约束,普遍存在训练不稳定、信号失真乃至梯度爆炸等问题。例如在27B参数模型中,HC的多层残差映射在反向传播过程中,信号最大放大倍数逼近3000倍,梯度爆炸风险极高。而DeepSeek提出的mHC方案,通过将HC残差映射矩阵投影到双随机矩阵构成的“流形空间”,在保留原有拓扑表达力的基础上,成功恢复了原始残差连接的恒等映射性质,从根源上解决了稳定性难题。
实验数据显示,mHC方案在大规模训练中表现亮眼:仅引入6.7%的额外训练时间开销,就在8个下游任务中全面超越HC与传统基线模型,其中在BBH任务上性能提升2.1%,DROP任务提升达2.3%,展现出兼顾稳定性与性能的核心优势。
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

一、行业痛点:HC结构性能与稳定的“两难困境”

残差连接(Residual Connection)是当前主流大模型的核心架构基础,其“恒等映射”特性能够稳定信号传播,有效避免训练过程中出现的信号衰减或异常放大问题,为模型的深度堆叠提供保障。
为进一步提升模型表达能力,以HC为代表的新一代连接结构应运而生。这类结构通过扩展n倍残差通道宽度,并利用多个可学习映射矩阵重组输入与输出特征,构建更复杂的连接拓扑。但这种“无约束”的设计思路,恰恰打破了残差连接的恒等映射核心约束:不仅导致训练中出现信号爆炸(最高放大至3000倍)、梯度异常等稳定性问题,还大幅增加了GPU内存占用与通信带宽需求,严重限制了其在更大规模模型中的应用效率。
对比数据显示,传统HC结构在训练中损失函数震荡发散,而其残差连接在深层堆叠后,前向信号与反向梯度的指数级放大问题会愈发突出,成为制约大模型向更高参数规模扩展的隐性障碍。

二、核心突破:mHC的“流形约束”重构逻辑

mHC方案的本质,是对HC结构的稳定性重构,其核心创新点在于引入“双随机流形投影”机制。具体而言,方案不再直接使用无约束的残差映射矩阵H_res,而是通过Sinkhorn-Knopp算法将其投影到“Birkhoff多面体”(即双随机矩阵流形)上,使映射矩阵具备三大关键性质:
  1. 行列和均为1,具备严格的能量守恒性,从根源上避免信号过度放大或衰减;
  2. 在矩阵乘法运算下保持闭合性,确保跨层传播过程中稳定性始终可控;
  3. 具备清晰的几何可解释性,本质是所有排列矩阵的凸组合,更利于特征信息的高效融合。
此外,论文还提出对输入/输出映射H_pre、H_post进行正值约束,进一步规避信号抵消现象,全方位强化模型训练的稳定性。数据显示,经过流形投影后的mHC残差映射矩阵数值更集中于1附近,无明显信号爆炸点,而传统HC则存在多个数值异常峰值。
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

三、实测验证:稳定性、性能与效率的三重突破

DeepSeek团队在3B-27B参数规模模型上,对基线模型、HC与mHC进行了全面对比测试,结果验证了mHC方案的综合优势:

1. 训练稳定性大幅提升

在27B模型训练中,HC结构出现明显的损失震荡与梯度爆炸问题,而mHC的损失曲线平稳收敛,梯度范数始终保持稳定。分析表明,HC的复合映射增益高达3000倍,属于严重的信息爆炸;而mHC的映射增益控制在1.6倍左右,接近理想恒等映射状态,信号保真度极高,彻底解决了HC因数值不稳定导致的训练发散缺陷。
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

2. 下游任务性能全面领先

在BBH、DROP、GSM8K、MATH、MMLU等多个主流基准测试中,27B参数的mHC模型均显著优于HC与基线模型。其中BBH任务准确率达51.0%(HC为48.9%),DROP任务准确率达53.9%(HC为51.6%),在复杂推理与语义建模场景中展现出更强的能力。

3. 可扩展性与效率兼顾

可扩展性测试显示,mHC的性能增益随模型规模扩大(3B-27B)保持稳定甚至持续增强,例如在DROP任务上的性能提升幅度从1.5%提升至2.3%,证明其更适配深层大模型的信号保真需求。在1T token的大规模训练中,mHC模型无过拟合现象,泛化能力突出。
效率方面,通过内核融合(带宽提升22%)、重计算(内存占用降低40%)与通信重叠优化,mHC在扩展率n=4时仅引入6.7%的额外训练时间开销,GPU利用率稳定在90%以上,具备极高的工程可行性。
此次mHC方案的发布,不仅为大模型连接结构的优化提供了全新思路,更破解了“高性能”与“高稳定”难以兼顾的行业难题,为未来千亿级、万亿级大模型的高效训练与规模化扩展奠定了重要基础。DeepSeek团队在基础架构领域的持续突破,也进一步凸显了中国本土团队在大模型核心技术创新中的核心竞争力。
创作类型:
原创

本文链接:DeepSeek开年献技:梁文锋团队提出mHC方案,破解大模型训练稳定性难题

版权声明:本站点所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明文章出处。
分享文章
share