核心优势包括:

  • 解决梯度消失问题:在深层神经网络中,由于链式法则会连乘,梯度在反向传播时会迅速衰减,导致浅层的参数无法更新
    • 加入残差连接后,,有一个稳定存在的常数 1,这使得即使 的梯度很小,也可以将梯度继续稳定地向前传播
  • 解决网络退化的问题:简单地加深神经网络准确率反而会下降
    • 复杂的映射可能很难学习,但加入残差连接后,模型只需要学习输入与输出的区别即可
  • 让损失函数更平滑,有利于优化器更容易找到全局最优解,训练更稳定