P Q network for fast image retrieval
作者是新加坡南洋理工大學的Tan yu。
DQN作者曹越是清華大學軟體學院的博士生,導師最後有軟體學院院長的名字。在圖像檢索領域發表了很多文章,今年發表了一篇跨模態哈希的文章,寫的很長還沒來得及沒看。
SUBIC作者是Himalaya Jain。
1。講pq
2。講一元組,二元組,三元組。
3。dpq等三個。
本文的想法並不新穎,而是將傳統的PQ嵌入到卷積層中,實現更好的效果,另一個貢獻就是提出來與其他文章不同的非對稱三元loss,其實就是融合到sigmoid函數里的loss。(想法1,我們可以將傳統方法與cnn融合獲得更好的效果)
1.在圖像檢索中,精度和效率是兩個關鍵點。
精度方向是向設計更有效的圖像表示方法努力:
傳統的圖像檢索方法都是向提出更好的圖像表示方法努力,提出更有效的聚合方法更重要,比如SIFT運算元等手工特徵。
現在CNN的興起,CNN可以提供富含高級語義信息的特徵,能夠提高精度。
效率方向是向壓縮編碼(緊湊的圖像表示)努力:
通常有兩種方法,哈希和量化。
哈希就是將真實向量轉化為二進位碼,這樣速度和內存都得到了滿足,當然哈希方法最經典的是LSH,後來又提出來一系列深度哈希。
由於哈希方法的二進位碼,雖然0101比較快速,也能用漢明距離表示圖像,但是也正是因為0101限制了圖像點距離的能力。與哈希方法並行的還有乘積量化,乘積就是笛卡爾積,指把原來的向量空間分解為若干個低維向量空間的笛卡爾積,並對分解得到的低維向量空間分別做量化quantization,這一步分解直接就是簡單的維度劃分,然後每個子空間聚類,計算距離是用adc,原始查詢與聚類中心點的原始碼計算歐氏距離,然後在根據聚類的編號查詢。
這樣每個向量就能由多個低維空間的量化code組合表示。笛卡爾積又稱直積表示為X×Y,第一個對象是X的成員而第二個對象是Y的所有可能有序對的其中一個成員。假設集合A={a, b},集合B={0, 1, 2},則兩個集合的笛卡爾積為{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}
通過非對稱距離的計算方法可以比哈希距離計算的更加精確。
乘積量化編碼!!!
本文的數據集也不新穎,大多數圖像檢索論文都是採用cifar-10與nuswide數據集進行對比。
推薦閱讀:
※「我喜歡周杰倫」「我喜歡你」
※我喜歡的古詩詞第203首
※表達心情的經典句子,我喜歡在傷心的時候聽傷心的歌
TAG:我喜歡 |