Efficient visual search of videos cast as text retrieval (Josef Sivic and Andrew Zisserman)
這是一篇寫的很詳細的 journal paper,主要是簡介在 video 上的 visual search (沒用到 audio feature) 的方法,作者將 text search 的概念套用到 image retrieval (visual words and inverted index),然後再加入 image local feature 特有的 spatial consistency,和 video 前後的 region 應該要一致的特性,有效的過濾掉 false positive,提昇準確度。
而整個系統的流程架構如下:
Off-line Pre-processing:
1. 找出 keyframe 中 affine covariant regions,用 SIFT descriptor代表他們
2. 掃過整個 video,移除其中不穩定的 regions
3. 從 video 的 subset 中 train 出 visual vocabulary,把每個 region descriptor 分配到最近的 visual word
4. 把一些常常出現的 noise feature (stop-listed visual words) 拿掉
5. 算出 tf-idf weighted document frequency vectors
6. 事先建好 inverted index structure,可以提昇之後 run-time retrieval 的速度
Run-time:
1. 找出 query region descriptors,並算出它的 visual words
2. 用 visual word frequencies 搜尋出對應的 top 500 keyframes
3. 再用 spatial consistency re-rank top 500 keyframes 得到最後的結果
最大的貢獻應該是,這篇 paper 將 text retrieval 的 domain knowledge 應用到 image retrieval 上,而且詳細的描述他們整個系統的實作方法、流程、與參數,理論上可以一步一步按照他們的 paper 將整個系統實作出來。