Forward
则有
Note
相当于对输入取指数后计算各项在所有项中的权重。
为保证数值稳定性,实际应用中有时会在计算前减去最大值:
结果数值上完全相等。
Backward
分两种情况讨论:
若 :
若 :
可以合并写作:
其中
最后,对于梯度:
写成矩阵形式,对于
有
则有
Note
相当于对输入取指数后计算各项在所有项中的权重。
为保证数值稳定性,实际应用中有时会在计算前减去最大值:
结果数值上完全相等。
分两种情况讨论:
若 :
若 :
可以合并写作:
其中
最后,对于梯度:
写成矩阵形式,对于
有