y=f(x)+x 核心优势包括: 解决梯度消失问题:在深层神经网络中,由于链式法则会连乘,梯度在反向传播时会迅速衰减,导致浅层的参数无法更新。 加入残差连接后,∂x∂y=∂x∂f+1,有一个稳定存在的常数 1,这使得即使 f 的梯度很小,也可以将梯度继续稳定地向前传播 解决网络退化的问题:简单地加深神经网络准确率反而会下降 复杂的映射可能很难学习,但加入残差连接后,模型只需要学习输入与输出的区别即可 让损失函数更平滑,有利于优化器更容易找到全局最优解,训练更稳定