Deep Learning
未读CosineSimilarity
DotProductSimilarity
ProjectedDotProductSimilarity
BiLinearSimilarity
TriLinearSimilarity
MultiHeadedSimilarity
1、余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,称为"余弦相似性"
12345import torchimport torch.nn as nnimport mathtorch.cosine_similarity()
123456class CosineSimilarity(nn.Module): def forward(self, tensor_1, tensor_2): normalized_tensor_1 = tensor_1 / tensor_1.norm(dim=-1, keepdim=True) normalized_tensor_2 = tensor_2 / te ...
Deep Learning
未读论文阅读术语
baseline、benchmark、groundtruth
1. benchmark
benchmark是一种评价方式。在计算机领域应用最多的就是针对不同Model的性能测试。
对于benchmark过程,有三个步骤:
设置:这部分我们最常听到的就是数据集,说白了就是输入。
数据又分为结构化数据、半结构化数据和非结构化数据。其中非结构化数据包含各种文档、图片、视频和音频等。典型的应用有视频网站、图片相册、交通视频监控等等。
执行:对于自己提出的模型进行试验。
分析度量指标:
常用的指标:
(1)从架构角度度量:浮点型操作密度、整数型操作密度、指令中断、cache命中率、TLB命中;
(2)从Spark系统执行时间和吞吐的角度度量:Job作业执行时间、Job吞吐量、Stage执行时间、Stage吞吐量、Task执行时间、Task吞吐量;
(3)从Spark系统资源利用率的角度度量:CPU在指定时间段的利用率、内存在指定时间段的利用率、磁盘在指定时间段的利用率、网络带宽在指定时间段的利用率;
(4)从扩展性的角度度量:数据量扩展、集群节点数据扩展(scale out)、 ...
激活函数(Activation Function)
为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括 sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元) 以及这些函数的变体。
Adadelta
Adadelta 是一个基于梯度下降的学习算法,可以随时间调整适应每个参数的学习率。它是作为 Adagrad 的改进版提出的,它比超参数(hyperparameter)更敏感而且可能会太过严重地降低学习率。Adadelta 类似于 rmsprop,而且可被用来替代 vanilla SGD。
论文:Adadelta:一种自适应学习率方法(ADADELTA: An Adaptive Learning Rate Method)
技术博客:斯坦福 CS231n:优化算法(http://cs231n.github.io/neural-networks-3/)
技术博客:梯度下降优化算法概述(http://sebastianruder.com/optimizing-gradient- ...
注意力机制最初在 2014年作为 RNN(Recurrent Neural Network)中编码器-解码器框架的一部分来编码长的输入语句,后续被广泛运用在RNN中。
1.单路注意力
SE-NET(Squeeze and Excitation)
HU J,SHEN L,SUN G.Squeeze-and-excitation networks[J].
2018年 ,CVPR(计算机视觉和模式识别)收录的论文中提出了 SE-Net(挤压和励磁网络)是 Momenta 胡杰团队 (WMW)提出的新的网络结构,该团队利用 SE网络获得 了ImageNet 2017年竞赛图像分类任务的冠军,在ImageNet数据集上将 top-5错误降低到 2.251%,对比于以往的最 好成绩 2.991%有了较大的提升。
SE-Net中的关键结构SE-Netblock利用了注意力机制的思想,显式地建模特征图之间的相互依赖关系,并通过学习的方式来自适应地获取到每张特征图的重要性,然后依照这个重要程度去对原数据进行更新。SE-Net通过这种方式提升有用的特征重要程度同时降低无用特征的重要性,并以不同通道的重 ...