作用是信息的选择和控制。传统 MLP 中,神经元间一般是加法组合,而门控机制引入了乘法机制

  • Gate 通道:计算出一个 0-1 的权重
  • Value 通道:携带原始信息
  • 两者相乘,允许模型实现“如果特征 A 存在,则增强特征 B”这种复杂逻辑

对于不同的 Token,门控层会激活不同的子网络部分,这使得模型在参数量不变的情况下,能容纳更多样的知识。