注意力机制
注意力机制是深度学习模型中的一种强大工具,可以选择性地关注输入数据的特定特征或部分。注意力机制的引入在各种自然语言处理(NLP)任务中,如机器翻译、文本摘要和语音识别等方面,都取得了显著的改进。
有几种类型的注意力机制。以下是其中一些最流行的类型:
1. 软注意力
软注意力是一种注意力机制,它计算输入特征的加权和,其中权重在训练过程中学习。软注意力通常用于序列到序列模型中,在这种模型中,输出取决于整个输入序列。软注意力已被证明可以显著提高机器翻译模型的性能。
Soft Attention=∑i=1Txαihi\text{Soft Attention} = \sum_{i=1}^{T_x} \alpha_i h_iSoft Attention=∑i=1Txαihi
其中,TxT_xTx是输入序列的长度,hih_ihi是第iii个输入特征向量,αi\alpha_iαi是第iii个特征向量的权重,由以下公式计算:
αi=exp(ei)∑j=1Txexp(ej)\alpha_i = \frac{\exp(e_i)}{\sum_{j=1}^{T_x} \exp(e_ ...
注意力机制最初在 2014年作为 RNN(Recurrent Neural Network)中编码器-解码器框架的一部分来编码长的输入语句,后续被广泛运用在RNN中。
1.单路注意力
SE-NET(Squeeze and Excitation)
HU J,SHEN L,SUN G.Squeeze-and-excitation networks[J].
2018年 ,CVPR(计算机视觉和模式识别)收录的论文中提出了 SE-Net(挤压和励磁网络)是 Momenta 胡杰团队 (WMW)提出的新的网络结构,该团队利用 SE网络获得 了ImageNet 2017年竞赛图像分类任务的冠军,在ImageNet数据集上将 top-5错误降低到 2.251%,对比于以往的最 好成绩 2.991%有了较大的提升。
SE-Net中的关键结构SE-Netblock利用了注意力机制的思想,显式地建模特征图之间的相互依赖关系,并通过学习的方式来自适应地获取到每张特征图的重要性,然后依照这个重要程度去对原数据进行更新。SE-Net通过这种方式提升有用的特征重要程度同时降低无用特征的重要性,并以不同通道的重 ...