Learning Deep Context-aware Features over Body and Latent Parts for Person Re-identification (CVPR17)
提出一个新的网络结构: Multi-Scale Context- Aware Network (MSCAN)
使用深度卷积网络(DCNN)学习IDE特征(ID-discriminative Embedding)[^1]
提出了现有的网络的一些问题:
- 传统的DCNN把single-scale convolution和max polling堆起来组成一个深层网络.但是层数增长会导致很容易忽视一些细节,例如眼镜,鞋子,帽子等,但是这些特征对识别人很有用.
- 姿态变化和行人检测器的不完善,导致图像可能出现错位,或者把某些背景包含进,又或者是缺少某些部分,例如腿的缺失.
本文创新点
- 为了解决第一个问题,提出了将
行人的部分和整体
一起学习.由图可以看出,在MSCAN中不同感受野的多个卷积核获得多个feature map.不同卷积核得到的feature map连接在一起作为当前层的一个输出.为了减少不同卷积核之间的相关性,采用了dilated convolution
[^2].通过这种方法,多层次的信息会在同一层获得,这样局部细节会被增强.逐层加入embedding contextual features, MSCAN可以从输入图片获得更多的context-aware representation.(当然我是认为这里是论文吹的一波.) - 为了解决第二个问题,基于
Spatial Transform Networks(STN)
[^3],加了三个新的约束条件.可以减少背景内容的干扰.
全局的身体和局部的身体部件通常是有互补的信息的,本文为了更好的利用这一关系,将全身和身体的各个部分的特征级联,最后在测试阶段,计算两个L2-Norm 欧式距离
.
细节
Multi-scale Context-Aware Network
使用了三种不同的dilated convolution. 在每个卷积层之后和传统的网络一样,使用BN和ReLU.
改进STN
原始的STN是用来学习图像转换的参数的,比如缩放和旋转.
优点:
- 易扩展;
- 可以学习翻译,缩放,裁剪等一个没有明确给定的区域.
STN包括,学习变换参数的空间定位网络和使用图像插值内核对输入图像采样的生成器.
本文采用双线性插值内核
进行采样.
[^1]: L. Zheng, H. Zhang, S. Sun, M. Chandraker, and Q. Tian. Person re-identification in the wild. arXiv:1604.02531, 2016. (CVPR17)
[^2]: F. Yu and V. Koltun. Multi-scale context aggregation by dilated convolutions. In Proc. ICLR, 2016
[^3]: M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In Proc. NIPS, 2015.