构建大模型需要考虑的因素归一化方法、位置编码、激活函数、注意力计算
层数L、注意力头数N、特征维度N
归一化方法
为什么要做归一化?
-
不同特征在空间中的尺度不同,对损失优化的影响不一致
特征尺度差异会导致损失函数各方向的梯度下降速度不同。尺度大的特征梯度更新剧烈,迫使模型花费更多迭代次数调整其他特征权重,降低优化效率。 -
提升训练稳定性,加速模型收敛
归一化使所有特征处于相近的数值范围(如[0,1]或[-1,1])。这使优化路径更平滑,梯度更新方向更稳定,减少震荡风险,从而加快模型收敛速度。