【DeepSeek发布新论文,提出mHC新架构提升大模型训练稳定性】DeepSeek发布新论文,提出流形约束超连接新架构。该架构能解决超连接网络技术因破坏恒等映射特性,导致的训练不稳定和可扩展性受限问题。mHC架构将HC的残差连接空间映射至特定流形,恢复恒等映射特性,结合基础设施优化确保效率,实现性能改进和可扩展性提升。DeepSeek预计,mHC作为HC灵活实用拓展,将助于理解拓扑架构设计,为基座模型演进指明方向。该论文第一作者为Zhenda Xie、Huanqi Cao,梁文锋也在作者名单中。
本文由 AI 算法生成,仅作参考,不涉投资建议,使用风险自担



发表评论
2026-01-01 21:49:18回复