如何看待商湯科技把人臉識別技術關鍵點從106提高到240?

人臉識別又有新突破,商湯剛剛把關鍵點從106提高到240 -百家號


在人臉校準(face alignment)這個領域,目前的方法大概有三類,一類是傳統的計算機視覺方法,比如基於cascade regression tree或者essemble svm一類。一類是基於深度學習的視覺演算法,裡面還有基於parts,基於heatmap的或者基於structure的等等的細分類。當然,還有基於兩者的混合型演算法,比如pdm+ccnf。你發一個paper,240點和106個點,就是訓練數據的區別,或者幾個參數的調整。但是如果做一個工業化的產品,這裡面牽扯到的細節問題就非常多,也有很多工程方面的挑戰。

第一個就是需求問題,多點的需求是不是偽需求?目前看來不是,因為在美妝的場景下,對面部小細節的需求越來越多。具體可以看小米最近發布的美妝應用場景。裡面很多的功能在傳統的68點模型下很難做到。

第二個就是細節準確度的問題,因為傳統模型定義都是整體定義偏離loss和約束constraint,這樣的話在小細節方面的變化,比如說單眼眨眼,對模型整體loss影響不大,結果就是小細節動作無法體現在校準結果上。很影響用戶體驗。這一塊需要更改模型設計,還是很有技術含量的。

第三個就是延遲問題,如果要保證30幀,那麼處理一幀就是33毫秒以內,如果要預留給圖像預處理和後面的渲染一些時間,視覺計算時間不易超過20ms。而視覺計算還分很多步驟,校準之前還有人臉的檢測和標準化,所以留給FA的時間最多也就是10ms~15ms。而一般來說點越多,計算時間越長,這一點在傳統方式上更為明顯。這樣就存在更多工程性挑戰。

其他的小問題,比如模型大小,內存佔用,穩定性,抖動等問題都是會隨著點數增加而更難解決。

所以說做一個多點的人臉校準產品並不容易。

客觀評價,商湯在對視頻流人臉校準方面,準確度和延遲都很好。在單張圖片方面比視頻略差,因為視頻方面用到了時域信息優化。在大角度人臉校準方面還有所欠缺。新版本希望在這些方面都會有進步。


其實人臉關鍵點來說,國內目前測試比較好的,商湯絕對算一個,但是價格不親民。曠世也是30W+,奈何公司錢少,國內找了不少家,而且還有很多公司打折買關鍵點的旗號,其實就是買的商湯的,(我們公司的程序員還是很NB的,看一下工程文件就是商湯的,我想說這些公司罔顧消費者利益,拿著別人的東西賣,不要B臉,還說是自己的。公司就不說了)我們公司要的就是人臉關鍵點是106個,找了很多家,聽說廣州顏鑒有,一去他們公司幾個小夥子,看著就想起來當初創業的時候,很有感覺,看了他們的技術,和商湯的效果不相上下,很平順,不抖,價格很親民,不錯,其實掌握關鍵技術都是少數幾位,支持創業者。又需要的可以聯繫一下,真的很不錯的


這個不存在吹牛逼,但懂技術的都明白,點多有個卵用。240個點,106個點,5個點,3個點本質上沒任何區別,人臉識別不是靠關鍵點多就能識別準的。關鍵點准,穩定,才是王道。無非就是根據核心關鍵點生成點點點點點點點點點點點點點點點點點點點點點點點點點。也就是忽悠下懂一點點點點點點點技術的媒體和不懂技術的老百姓了。


推薦閱讀:

請各位前輩解讀一下SenseTime最新文章PSPNet?
做為一位想發論文的機器視覺本科生,格靈深瞳,Face++,sensetime,哪個更適合去實習?
如何評價商湯科技宣布獲得獲1.2億美元融資,鼎暉、萬達投資人工智慧?
商湯科技(SenseTime) 這家公司怎樣?

TAG:人工智慧 | 人臉識別 | SenseTime |