“Towards good practice in large-scale learning for image classification,” F. Perronnin, Z. Akata, Z. X. I. Harchaoui, and C. Schmid, CVPR 2012
這篇算是一篇 engineer 的 paper,因為這篇 paper 比較了目前所有 large-scale image classification 的方法,並提出以他們的 "good practices" 可以在 ImageNet Dataset 上面,做的比當時的 state-of-the-art 更好(16.7% -> 19.1%)
以下這是他們所提出的 "good practices"
他們藉由實驗,還提出許多有趣的結果,比如說
state-of-the-art 用的 high dimensional image descriptors with linear classifiers 的效果其實跟 low dimensional bag-of-visual-words (BOV) with non-linear classifiers 是一樣的。
在 high dimensional 的 image descriptors 裡面,Fisher vector 的效果最好。
independent one-vs-rest binary classifier for each class 在 training 的速度上有相當大的優勢,因為是 independent 所以可以很簡單的 parallel。
以下這張是他們在 ImageNet Dataset 比較好跟比較差的結果