你所在研究領域(MLCVNLP等AI子領域)在解決什麼問題,最新進展是什麼,有哪些重要文章?

現在關於AI的研究已經分化出許多高度發展的子領域,比如machine learning,natural
language processing, robotics, affective computing, computational creativity, neural network等等,想要了解另一個領域的進展不太容易。因此如果你能介紹下你研究領域的最新進展(相關文獻),便可以幫他人節省很多時間,同時也有助於你對其他領域的了解。

你可以就所在研究領域談以下幾點:

  • Goal:在試圖解決什麼問題(basic question)?

  • Motivation:Why valuable, or relevant?

  • Background:現在進展如何?有哪些挑戰?有哪些問題是難以解決的?大家在嘗試用什麼方法解決問題?

請盡量簡略

請附上相關文獻

ps:

  • 我個人認為這是一種良好良性的分享,除了有益於他人外,整理自己讀過的文獻也能加深自己的對不同概念的理解認識。引用一段大神的話,@andrew shen在僅通過分享專業知識(如理工類)的普通用戶,從零到成為大V的可能性大嗎? - 知乎用戶的回答中說

當然, 我分享這些回答, 一方面可以讓更多同專業的人看到, 讓他們指出我回答中的問題, 在討論中提高我自己; 另一方面, 也確實可以對對這些問題感興趣或是有疑問的人起到幫助. 看起來有百利而無一害, 那麼何樂而不為呢? 我想分享的目的不在於成為大 V, 這才是分享的樂趣.

  • 與知乎類似的Quora對於此類問題,均有非常良性的回答,例如:

What are the must read papers on data mining and machine learning?

https://www.quora.com/What-are-the-must-read-papers-on-data-mining-and-machine-learning

How do I learn machine learning?

https://www.quora.com/How-do-I-learn-machine-learning-1


大家都不願意回答,我借地拋個磚。

下面這是一個能保證至少發一篇 IEEE Trans (SCI)「代表作」(引用數很容易迅速攀升)以及三到五篇其它 A 或者 B 類 (三區以上) SCI 或相應 CV/ML 頂會論文的研究計劃。

13 年的一個項目計劃,當時僅做了一個前期 demo 就被導師調整到別的方向。據我自己觀察,到現在為止還湊活算是前沿。有感興趣的,可以一起做啊?

Door Handle, a highly customized continuous biometrics

目標:開發一個新的針對特定應用的生物特徵識別。(習慣了,日常工作就是做輪子

動機:現有手上生物特徵識別都要求標準姿態,對於非標姿態研究還比較少。至少高準確率(EER &< 1%?)的非標姿態生物特徵識別還比較少。而持續的生物特徵識別在應用中還是比較有需求的。A 刷了指紋之後,B 進去幹活瞎搗鼓這種事還是時有發生的。現有科技總也是解決不了,或者說至少是解決不好。從根上解決問題,總是更容易(更好發文章?)。莫不如做一個新的生物特徵識別。

背景:已經做了個 demo。有合作意向可以試試一起做?如果能做的話,預期還需要六個月改進完成設備。主要是該系統涉及到聯繫工廠定製模組(微量電子產品定製有多難可以參照鎚子手機的生產再乘以一千倍)、機械設計(聯繫相熟的工廠手工打造)、FPGA 電路板設計製作(包括布線制板焊接調試,是的,我可以自己焊接 BGA)、固件編程(FPGA、USB、電機驅動 DSP)、設備集成調試,雖然我都能做,但加上試錯迭代,怎麼也得迭代兩到三個周期。整體的硬體製作大約需要 10 萬資金。然後採集樣本。新生物特徵識別要做一些夠水準的研究差不多要 300 以上的志願者。估計要完成整個研究周期差不多是一年的活。產出成果的話,至少一篇系統和幾篇演算法的迭代。然後儘早開放資料庫下載……

原理圖

原型系統

PS:發出來其實也是有代價的。專利沒辦法了,網上公開過了,算是一點小損失。但怎麼說也是當年投入過心血的系統,還是希望盡量能完成。但話說回來,這個系統也確實比較有難度,不知道有多少實驗室有能力完成這個系統。其實這也算是另外一個答案的實例,既然絕大多數科研人員都可以查閱頂級期刊,為什麼不同學校之間的科研實力依然差距巨大? - 科學。這個計劃如果能完成話,應該可以有許多產出的吧。


把深度學習和檢索編碼索引結合。

我導師的說法,深度學習和識別分類結合已經爛大街了。檢索至今沒看到有特別好的,大多都是直接抽取cnn的特徵套傳統方法,這幾年無非也就是triplet loss,contrastive loss之類的distance learning特別火,但是對於數據的處理方面太耗時間,效果也不見的很好。深度特徵自身的問題,也導致了索引結構很不好做,更常見的是深度哈希用於加速。需要往深度索引結構裡面好好挖一下特徵的本質


三維重建方向。

1.在之前的Kinect fusion中,攝像頭環繞人體一圈,就能夠重建起人的三維模型。那麼如果重建小動物呢?小動物不是靜態的,在掃描過程中會動。在2015CVPR 的best paper中是一個dynamic fusion。提供了一個解決這個問題的途徑。

2. 光是重建物體的三維模型還不夠,最好還能獲得物體的表面紋理,Acquiring reflectance and shape from Continuous spherical harmonic illumination,利用物體在球偕光照射下產生的漫反射和鏡面反射來獲得物體的表面紋理和三維形狀。


作為NLP磚工,簡單寫一寫,如有不正確還請同行前輩指正。

-----------正文開始前面的分割線----------------

從最近NLP領域的發展來看,無疑用神經網路進行自然語言處理是大勢所趨。NLP最初考慮的一些問題,比如機器翻譯,藉助新的神經網路模型有巨大的突破,例如Bengio組的GRU模型的機器翻譯http://arxiv.org/abs/1406.1078

在通用工具上,做word embedding是從word2vec工具開發以來大家的主要研究方向,如何做出更好的embedding,更通用的embedding、多義的embedding,都是最近正在研究的問題。GloVe(http://www-nlp.stanford.edu/projects/glove/glove.pdf)是最近比較有影響力的一個成果,新的成果我還不是特別熟悉。中文這塊做的目前進展一般。

某學姐給我推薦過會議International Conference on Learning Representations,雖然似乎沒有進CCF的推薦列表,但是還是有很多乾貨。不過好東西發到NIPS、AAAI的也不少。

中文上傳統的分詞、Part-of-speech Tagging這些經驗主義關注的問題的CRF方法基本可以達到96%的正確率,神經網路做到95%以上也不是夢,接下來應該也會走入和英文一樣做embedding的階段。

但不管怎樣,語言的馬爾科夫鏈性質一直是NLP的基礎,從C. D. Manning的FSNLP(Foundations of Statistical Natural Language Processing)一書總結的20世紀NLP成果,到今天的CRF方法、神經網路方法,都逃不出統計方法的一些基本假設。我的導師讓我讀的第一本書就是這本,雖然很老但是基本的想法還是那些,只是工具升級了。

至於價值=。=我們正在一步步接近計算機能夠理解人類語言,雖然差距還很遠,但中間很多成果也已經投入實用了。

稍微離NLP有點距離的還有數據挖掘、知識庫等問題,我了解太少也不好說什麼。接下來想到什麼再補充。

-----------------------對問題的評論----------------------

其實我還是很希望能夠看到這種問題的,前幾天和做CV的組的人閑聊,感覺還是有很多東西能夠互相借鑒,尤其是現在神經網路大熱,而神經網路源於CV,所以對於做NLP的人,有機會簡單快速地了解CV以及其他一些領域的進展可能都有助於自己的研究。


半入門的來試答一下.

想像一個遊戲裝置:

比如在一個屋子裡,你有一把槍(攝像機)和一個顯示裝置.它可以實時或者非常低延遲地定位攝像機的位置和攝像機姿態.

同時還能構建稠密地圖信息.也就是系統能知道那裡有一塊牆,知道牆的位置.

然後把攝像機畫面和遊戲動畫實時渲染到顯示裝置.那麼現在你就能和小夥伴一起像真人CS那樣玩槍戰了.與真人CS不同,由於槍和子彈是渲染出來的.畫面可以更酷炫,更震撼,還能換槍換裝備等輔以更多虛擬信息.

我想這就是CV的一個領域--SLAM的終極目標了.也就是像hololens的宣傳片那樣.

快速實時的精確計算位置和姿態.

我只了解PTAM,PTAM用基於稀疏點的視覺跟蹤和姿態估計,一幀能在20ms內計算完一個新姿態和位置.但是還需要後續更多幀優化姿態才能穩定準確.精度不夠,而且還只能小範圍跟蹤.

不過貌似hololens已經做到了.應該是在姿態估計的時候加入了紅外的景深信息.

實時的稠密地圖重建

當一個玩家突然出現在畫面內,我們需要馬上重建出來,感知他的位置,大小.這就幾乎不可能了.

PTAM的地圖重建是稀疏點的.但就是這樣也不能實時,得延遲3 4 秒這樣才能把新關鍵幀出現的點重建出來.

不知hololens以後要怎麼弄.我所知道去年出現了些像Dense Planar SLAM這樣的辦法.只重建一些簡單的幾何平面.當然個人YY一下,要實現以上遊戲效果還有更多折衷辦法,比如弄個雲端.把玩家們的位置信息都上傳上去,這樣好歹有位置信息可以用了.

至於slam的發展不說了..知乎搜一下也看得到 就是ptam dtam visualslam orbslam 等等.


我就想問問有沒有端到端版面分析的方法,或者是流程圖識別方法


推薦閱讀:

語音識別中如何提高同音異形字的識別準確率?
深度神經網路為什麼能大幅度提高語音識別的準確率?
python中文預處理?
手機智能語言助手開發難度如何?
基於中文文本的情感分析發展到了什麼水平(研究,商業應用,領先公司等角度)?

TAG:機器人 | 人工智慧 | 機器學習 | 自然語言處理 | 計算機視覺 |