
中国AI创业公司DeepSeek在2026年元旦假期发布技术论文,提出名为“流形约束超连接”(mHC)训练框架,解决大型语言模型训练过程不稳定问题。由创始人梁文锋参与撰写的论文迅速引发业界关注,多家国际科技媒体称为“突破性进展”。
mHC技术针对现有超连接(Hyper-Connections, HC)架构缺陷而设计。何恺明于2016年提出残差连接技术奠定深度学习发展基础,2024年业界进一步提出HC超连接概念,惟HC训练过程容易出现不稳定状况。DeepSeek论文以27B参数模型为例,指出HC在约1,200步训练后出现损失激增,放大倍数峰值达3,000倍,导致训练无法持续。
DeepSeek提出的mHC架构将HC残差连接空间映射到特定流形,恢复身份映射特性,同时加入严格基础设施优化以确保效率。技术将放大倍数控制在约1.6倍,相比3,000倍大幅降低,让训练全程保持稳定。
在27B参数模型测试中,mHC训练时间仅增加6.7%,复杂推理任务准确率从43.8%提升至51.0%,阅读理卸任务从47.0%提升至53.9%。DeepSeek论文表示结论已获内部大规模实验进一步证实,暗示公司已完成新一代基座大模型DeepSeek V4训练。
论文发布时机引发外界揣测。DeepSeek以往在R1模型发布前曾公开基础训练研究,分析师认为mHC技术将成为下一代旗舰模型核心架构。根据社交媒体消息,DeepSeek V4预计2026年2月17日农历新年假期间推出,与去年DeepSeek R1发布节奏相符。
至于外界期待DeepSeek R2推理模型,Business Insider报道指原定2025年中发布R2因梁文锋对性能不满而延迟。部分分析师认为可能不会有独立R2版本,因DeepSeek已将早期R1更新集成至V3模型,mHC技术也可能直接应用于V4。不过考虑当前竞争态势,DeepSeek仍可能采取双线策略,让V4专攻通用市场,另推R2针对编程等专业领域与Claude竞争。
根据现有资讯,DeepSeek V4确定支持FP8算子,可在国产AI芯片上训练,预料属多模态模型。2025年DeepSeek V3/R1让开源大模型首次登顶业界榜首,外界期待V4能带来同等影响力创新突破。
来源:DeepSeek











