baseline、benchmark、groundtruth

foresta.yang2023-10-102024-04-27

论文阅读术语

baseline、benchmark、groundtruth

1. benchmark

benchmark是一种评价方式。在计算机领域应用最多的就是针对不同Model的性能测试。
对于benchmark过程，有三个步骤：
设置：这部分我们最常听到的就是数据集，说白了就是输入。
数据又分为结构化数据、半结构化数据和非结构化数据。其中非结构化数据包含各种文档、图片、视频和音频等。典型的应用有视频网站、图片相册、交通视频监控等等。
执行：对于自己提出的模型进行试验。
分析度量指标：
常用的指标：
（1）从架构角度度量：浮点型操作密度、整数型操作密度、指令中断、cache命中率、TLB命中；
（2）从Spark系统执行时间和吞吐的角度度量：Job作业执行时间、Job吞吐量、Stage执行时间、Stage吞吐量、Task执行时间、Task吞吐量；
（3）从Spark系统资源利用率的角度度量：CPU在指定时间段的利用率、内存在指定时间段的利用率、磁盘在指定时间段的利用率、网络带宽在指定时间段的利用率；
（4）从扩展性的角度度量：数据量扩展、集群节点数据扩展（scale out）、单机性能扩展（scale up）。

2. baseline

在benchmark的第二步中，我们自己所提出的模型/算法指的就是baseline，这是我们提出的模型的基准。之后所有的改进都需要跟这个基准来比较。

3. groundtruth

groundtruth:真值,针对不同的方向，真值所指代的具体内容是不同的，不过都可以理解为我们人工给定的标签。对于针对人的目标检测而言，真值代表的是数据集给定的人工标定框；而对于行为/视频分类而言，真值代表的是动作或视频的实际对应类别。总之就是实际给定的y值。