Forward

则有

Note

相当于对输入取指数后计算各项在所有项中的权重。

为保证数值稳定性,实际应用中有时会在计算前减去最大值:

结果数值上完全相等。

Backward

分两种情况讨论:

可以合并写作:

其中

最后,对于梯度:

写成矩阵形式,对于