英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练

英伟达含量为零:华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练


盘古 Ultra 使用的 Sandwich-Norm 层归一化,则是在残差连接前对每个子层的输出做归一化,并根据网络深度对初始化值进行缩放,从而有效消除了训练过程中的 loss 尖峰,使训练过程更加平稳。 为此,盘古 Ultra 在 Sandwich-Norm 的基础上,进一步引入了深度缩放机制,对 Post-Norm 中的放缩参数 γ 进行了深度相关的初始化。 至于整个模型的初始化,传统的初始化通常采用的 Xavier 初始化方法仅考虑模型宽度,而盘古 Ultra 采用的 TinyInit 同时依据模型深度和宽度来缩放初始化权重的标准差。


Published at: 2025-04-15 04:18:14

Still want to read the full version? Full article