怎樣評價「微軟亞洲研究院4人團隊完成視覺識別里程碑式突破」?

新聞鏈接:微軟亞洲研究院4人團隊完成視覺識別里程碑式突破
希望能介紹和評價一下他們的工作

好像又有新進展了。


跟邀我的同仁道個歉,我不怎麼在知乎答題。。。老是潛水 :(

其實大家不用太著眼於一些顯然是公關的句子 - 比如說「嘿嘿,我們刷新了記錄」,「看看,我們幹掉了人類」,「來來,我們幹了這一杯」這樣的。寫文章多少都要給自己的工作找一個抓住眼球的東西,相比較於36kr上的文章,學術文章已經很穩重了。

我個人感覺,這篇文章以及Google最近的Batch Normalization,當然不至於像Krizhevsky的NIPS2012 AlexNet那麼劃時代,但是也沒有一些評論里提到的那麼無聊。它們都著眼於一個非常實際的情況:怎麼解決CNN難訓練的問題?一個是參數初始化比較困難,一個是中間訓練的時候容易發散。兩篇文章都提出了很好的解決思路,雖然沒有完全解決CNN的問題,但是至少效果還是不錯的 - 以前調參一個星期,訓練一個星期,現在一兩天就解決了,至少我能省點電費... 自己家燒GPU很貴的。

There is no silver bullet, but at least there are some good bullets :)


我覺得我還是比較有資格回答這個問題的。恰巧馬毅老師在微博上也提出來相同的質疑。以下是我個人的一些想法歡迎討論。手機碼字,長話短說了。

1. 任何benchmark在最開始出現的時候對於這個領域都是有推動作用,在隨著越來越多人做這個benchmark,以至於overfit這個benchmark之後,對整個領域就是阻礙作用。

2. 如何定義overfit?我個人的想法是要看這個paper提出的方法是否可以推廣到別的dataset上。

3. 為什麼我們要關心imagenet classification的結果?毫不誇張說,因為這個task在high level vision task中是核心中的核心。自從ross證明通過finetune和transfer一個在cls task上pretrain的cnn可以大幅度提高detection的結果以後,基本上所有high level task都有了本質的性能提高。基本上cls的結果提升,直接可以轉換為其他所有task的性能提高。(自己廣告一下,其實我的nips應該是比ross更早提出這個思想的,不過當時太年輕做的並不完善,而且是在tracking這個相對冷門的task上)

4. 至於什麼超過人類的水平,看看就好,都是大公司pr需要。沒必要較真這個,多看看paper有什麼東西可以留下來的。

綜上,我首先不覺得我們overfit了imagenet。其次,這對於整個vision community是有意義的一件事情。至於我們什麼時候會overfit,我也不知道,可能會快,也可能永遠不會。

利益相關,我是kaiming腦殘粉,哈哈


一直在知乎潛水給各位知友點贊。今天實在有點看不下去了,特此深夜出來回帖。在我看來大多數負面評論者很可能沒有仔細看完論文或者沒有完全明白其中的價值。

首先,有沒有乾貨?有!

以下內容都來自於我對於原論文的理解。
1. 提出一種新的非線性單元, 也就是參數化的LeakRelu。這種非線性單元一定程度上提升了模型的擬合能力以及收斂速度,而且不會帶來額外的成本。免費的午餐你喜歡嗎?說一個背景大家可能更容易理解這個這個工作的意義。神經網路已經出現幾十年了,大家都默認使用Sigmoid/Tanh函數作為非線性單元,直到近幾年大家才意識到Relu更好(更適合優化,精度也更好)。看似很小的變動卻花了幾十年的時間。參數化LeakRelu將人們對神經網路非線性單元的理解又向前推進了一步。個人覺得這個工作以及maxout, inception都是在非線性單元的研究上非常有價值的工作。

2. 更好的初始化方法。很多人玩神經網路遇到的第一個棘手問題可能就是如何初始化。我被神經網路不收斂折騰的發神經過:) 經常一個網路調半天(literally)才能收斂。當網路變深時這個問題就更加嚴重。這是因為多層之間的乘積關係,初始化不好會造成反向傳播的導數指數放大或者衰減,導致不收斂。這個工作很好的解決了初始化的問題,即使二三十層的網路也能正常收斂。我剛知道這個方法的時候感覺自己像飛了起來,瞬間脫離了苦海。如果你曾今也遇到過神經網路不收斂的問題相信你也會有相同的感受。

當然除了這兩個主要的貢獻之外還有很多值得思考,玩味的地方,比如說神經網路的結構等等。在此我不多說了,相信對深度學習研究的越深入的人對於這篇論文的細節也會有自己更深入的體會吧。

其次, 我想回應一下關於黑色魔法(Black Magic)的評論
-- 「no one knows why, no one can explain, no exact strategy, it just works.」

學者經常會畫一個漂亮的理論之圓將自己關在裡面。在這個圓內,理論是完備的,一切都是可解釋的。經濟學更喜歡理性人,優化更喜歡凸問題,微分方程更喜歡線性。喜歡理論之圓的學者經常會排斥甚至貶低圓外的世界。傳統的機器學習方法像是一個漂亮的理論之圓,現在深度學習就像圓外的世界。雖然現在對於圓外的世界只有一些零星孤立的觀察和理解, 但是隨著觀察的積累,理解總會慢慢加深,總會有一天上帝說要有光,我們對於深度學習的理解也會像傳統的機器學習一樣深入。

我非常贊同gao yuan的回答。歷史上,生物物理化學都是通過實驗科學逐漸形成深刻的理論的。因為沒有理論或者不可解釋而批評一個新的探索性工作,就有點像古希臘的一個故事,畢達哥拉斯因為拒絕承認無理數的存在,殺死了他的學生(x**2=2的解?)


再次,我想反駁一下高票匿名網友的回答。


如果沒猜錯的話應該是少卿的女朋友吧。少卿好福氣,妹子萌萌噠。既然是少卿的女朋友的答案,那我就簡單介紹一下少卿。用一個字形容少卿,那就是,強!少卿的第一篇論文就是CVPR Oral (CVPR是計算機視覺領域的頂級會議, 發表論文的難度很高, 能夠獲得Oral的論文更是鳳毛麟角)。一個強人說自己工作沒什麼,就像學霸說自己期末考試要掛了,不要隨便信。 少卿之所以這樣說,我覺得一方面是態度謙虛。深度學習高手如林,不知道的知識永遠比知道的多,自己貢獻的那一小部分,十分微不足道。另外一方面,新知識一旦融入到自己的思維體系中之後就不覺的那麼牛逼閃閃了。並不是新知識沒有價值, 而是自己可以發乎自然的用它思考了,所以並不覺得多麼令人新奇。

另外Google的確很強。我個人覺得主要原因是Google的計算資源更豐富,有更好的並行計算系統。現在深度學習的研究還處於實驗報告為主的階段,實驗的周期很大程度上決定著研究的進展。實驗周期越短,在給定時間內就能更多的試錯,得到更多的反饋經驗,就能走的更遠。這也是為什麼百度最近ImageNet上的成果不是圖像組做出來的,而是系統組做出來的(主要原因之一吧)。

為什麼連微軟的計算資源都還不足?不要問我, 我想吐槽,我很煩!!!!

最後,還有兩個問題一併回應吧。


1. 一些知友對於深度學習的實際應用持悲觀態度
a. 我開始機器視覺的研究是2011年,那時候我根本想不到,計算機視覺會發展到現在的水平。科技是加速發展的,人的思維卻喜歡線性插值。
b. 現在深度學習的投資那麼火,投資人不是傻子,不能實際應用創造價值,沒有人願意拿自己的錢打水漂。敬請期待深度學習的百億獨角獸們瘋狂奔跑吧。

2. 是不是里程碑?
這是一個主觀評價,見仁見智。你說深藍戰勝象棋冠軍算不算里程碑?假設你的工作在某一領域超過人類,你猜媒體會怎麼報道?我覺得也還是會用類似的字眼吧。

利益相關。我是MSRA副研究員一枚。雖然沒有參與這項工作,但是對他們的工作還是比較了解, 也非常欽佩。

為什麼有種寫rebuttal的感覺??? 也是醉了。


沒有怎麼里程碑式,不過最近兩篇文章都各自有不錯的insights。

看了評論聯想到最近review 某CV*R的一些paper,很多reviewer都是自己沒真正做過這類東西,然後憑著自己豐富的想像力下結論。


又一篇靠CNN刷ImageNet效果的工作。

不知道如何評價,對我來說這類工作都是"black magic": no one knows why, no one can explain, no exact strategy, it just works. 隨便一個工作就是幾百個node,每個node的setting還都不一樣,再用一堆trick來train,誰知道為啥這樣效果會好...反正就是效果很好就是了...
我也不知道很多工作里是如何得出來那麼fancy的CNN結構的,難不成真是靠枚舉?

另外,文中所說的「超越了人類進行對象識別分類的能力「現在不算數的。他提到的那個5.1%的人肉錯誤率是斯坦福的Andrej Karpathy做出來的。他最近在G+上公布了他新的人肉效果:3%。
所以堆CNN的同志們還有空間:)

原文link:https://plus.google.com/+AndrejKarpathy/posts/dwDNcBuWTWf (需要翻牆)
為了方便不能翻牆的同質,原文粘貼如下:

There are several new ImageNet results floating around that beat my 5.1% error rate on ImageNet. Most recently an interesting paper from Google that uses "batch normalization". I wanted to make a few comments regarding "surpassing human-level accuracy". The most critical one is this:

Human accuracy is not a point. It lives on tradeoff curve.

Estimating the lower bound error
5.1% is an approximate upper bound on human error, achieved by a relatively dedicated labeler who trained on 500 images and then evaluated on 1500. It is interesting to go further and estimate the lower bound on human error. We can do this approximately since I have broken down my errors based on categories, some of which I feel are fixable (by more training, or more expert knowledge of dogs, etc.), and some which I believe to be relatively insurmountable (e.g. multiple correct answers per image, or incorrect ground truth label).

In detail, the my human error types were:
1. Multiple correct objects in the image (12 mistakes)
2. Clearly incorrect label ground truth (5 mistakes)
3. Fine-grained recognition error (28 mistakes)
4. Class unawareness error (18 mistakes)
5. Insufficient training data (4 mistakes)
6. Unsorted/misc category (9 mistakes)

For a total of 76 mistakes, giving 76/1500 ~= 0.051 error. From these, I would argue that 1. and 2. are near insurmountable, while the rest could be further reduced by fine-grained experts (3.) and longer training period (4., 5.). For an optimistic lower bound, we could drop these errors down to 76 - 28 - 18 - 4 = 26, giving 26/1500 ~= 1.7% error, or even 1.1% if we drop all of (6.).

In conclusion
When you read the "surpassing-human" headlines, we should all keep in mind that human accuracy is not a point - it"s a tradeoff curve. We trade off human effort and expertise with the error rate: I am one point on that curve with 5.1%. My labmates with almost no training are another point, with even up to 15% error. And based on the above hypothetical calculations, it"s not unreasonable to suggest that a group of very dedicated humans might push this down to 2% or so.

That being said, I"m very impressed with how quickly multiple groups have improved from 6.6% down to ~5% and now also below! I did not expect to see such rapid progress. It seems that we"re now surpassing a dedicated human labeler. And imo, when we are down to 3%, we"d matching the performance of ahypothetical super-dedicated fine-grained expert human ensemble of labelers.

不知道我的觀點哪裡酸了。Deep Learning一直以來就是以結果優秀,理論解釋木有,以及效果和調參能力的高度關聯性,備受關注和爭議。

有的人覺得DL是以後大趨勢,是和無理數一樣偉大的進步,從此不再需要其他的machine learning,理論解釋必然會出現,參數多可tune空間大都是更強的擬合能力的體現。

有的人覺得太多東西對最後結果有決定性影響,如何設置沒有general strategy來指導,調參是art,不可言傳只可意會;模型沒有理論解釋,很多工作的實驗結果沒有在看不到的測試集上有足夠的證據支持;很多實際中好用的trick又實在是太驚訝;所以在有理論解釋之前對此持懷疑態度。

我是統計機器學習的愛好者,看到一個新的模型希望能夠有數學上的解釋,Deep Learning目前沒有,所以我是後一類人,在這個問題上是保守派。前一類人既然認可Deep Learning,覺得它是機器學習以後發展大趨勢,那我個人希望能有更多的精力放在如何從理論角度解釋Deep Learning的效果,如何總結出每個科研人員都可以遵循的調參方法,而不是談「只喜歡漂亮理論」(沒有理論解釋之前,實驗都只是有限數據上的採樣),「你行你上」(我確實調不好CNN參數),「沒有思考背後的idea」(我確實花了很多時間思考文本數據上Deep Learning的idea,但是我想的越多,對一些工作就越困惑)。

如果這個問題下的各位做Deep Learning的同仁能夠花少些時間在一個已經證明Deep Learning Work的數據集上進行增量優化,而多一些時間來尋求理論理解,和設計好重現不需要太高級的調參手法,相信學界對於CNN的看法也不會如此兩面化。現在CVPR ICCV估計也不會收太多ImageNet+CNN的論文了吧?但是相信哪怕在理論解釋上能有一點點進步的工作,也會非常有影響力吧。

最後檢討一下:新聞的PR手法讓我看起來覺得不太合適,所以才寫了偏懷疑的答案,僅是從論文來看,是很有意思的CNN的工作的。


是CNN發展的一個階段,但是不能成為里程碑.我覺得Black Magic是很好的東西,如果沒有它們的話,我們怎麼知道我們做的不夠好,數學的發展還不夠? 實驗性的結果有助於增加理解.法拉第研究電的時候本來也是對著試驗去的.SVM數學上那麼好,圖像分類上也不是沒比過CNN.CNN的進步本來就是觀察到局部的理論,然後優化的. Goolge最近的Paper http://arxiv.org/pdf/1502.03167v2.pdf 準確率到達了4.8%. 這個也是Bench Mark,但是裡面提出的Barch Normalization是觀察到 Internal Covariate Shift 之後產生的思想,我覺得這些細節的理論更應該引起關注.同樣Kaiming He的文章中應該關注的是Leaky Relu為什麼能得到這樣好的結果,他的證明在什麼情況下說明問題,說不定能給以後的理論分析帶來一線曙光. 很多覺得DNN理論不足的人可能沒有注意到科學發展的規律.如果往之前物理學中看,難道任何一門學科不是這樣嗎? 人們不懂得時候先做大量實驗,然後在在事實之上,建立理論.然後再預測.而且神經網路的理論也不是沒有,比如之前的Topological Transferm (http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/), David J. Schwab 的 重整化群理論,An exact mapping between the Variational Renormalization Group and Deep Learning(http://arxiv.org/abs/1410.3831),雖然我不做CNN,但是大家要看到做NN人的努力.如果CNN以後有理論,我覺得會有到很多高級的數學工具,可能也需要數學在複雜性理論上有更多發展.


大大方方評論,不匿!這個話題和自己的研究還是很相關的,也想說兩句。
首先要肯定是他們的工作確實是不錯。不管如何,人家是正大光明地刷新了記錄。就像是體育競技一樣,人家的成績是應該被認可的。至於這個成績本身的意義,夠不夠里程碑的意義,那是另外一回事。個人也覺得這是MSA宣傳有點過了,作者本意並沒有如此,至少從文章里來看,還是學者應有的謙遜。接下來說說自己的感受。
==========================分割線==================================
他們的文章一post到arxiv上,就看到了。看完之後,感慨頗多。為什麼呢?因為他們文章里起關鍵作用的一個點,增加非線性函數ReLU的訓練/可調可以帶來效果上的提升,我們也想到了,只是沒有及時付諸行動,淚奔。
當然,有這個想法的,他們不是唯一的,他們的引文
[1] Learning activation functions to improve deep neural networks.
就明確說明增加對非線性響應函數的訓練可以提升神經網路的性能。當然,這是同時期的工作,很難講清楚先後的問題。
我們在2014年7月份的時候也想到上面一樣的idea。就是說,我們不再用固定的sigmoid function或者ReLU,網路中的非線性響應函數也可以被優化。應該說,我們當時的工作走得比他們還遠,不過是在比較偏冷門的lower-level computer vision問題進行的。上面提到的兩篇文章,在參數化非線性激勵函數時,可調的參數只有一個或者兩個。而我們的工作是將非線性函數完全free掉,用63個徑向基函數進行擬合,也就是說可調的參數有63個。我們的工作在一些經典的圖像復原問題上都取得了非常好的效果,例如圖像降噪,JPEG deblocking,超分辨等等。
這個工作也投稿到CVPR2015了,有幸被選為oral presentation, http://arxiv.org/abs/1503.05768(求關注!!
當時做完lower-level computer vision問題之後,我們也想過在imageNET這個問題上進行測試,我們有預感,額外的增加非線性響應函數的優化,應該可以帶來蠻大的提升。我們也一直認為,對於深度網路,非線性響應函數的重要性應該比filters來得更為重要。
可惜的是,局限於研究所有限的計算資源,當時的想法沒有付諸實際行動。直到看到他們的文章發布的時候,深深地嘆了一口氣。做研究,光想沒有用,還是要及時行動才行,否則很容易被人搶了先機。
為了證明上面說的不是瞎扯,附上讀完文章後,給導師和同事發的郵件截圖,郵件日期是2月9號。他們文章是2月6號在線的。


文章主要是兩個trick,
1)把Relu的斜率變成一個可訓練得到的參數。
2)在initialization的時候用高斯分布來初始化參數。

個人的幾點看法
1)說 里程碑式突破應該是mr公關想出來的詞,人家文章作者可能也不會這麼覺得。個人覺得,CNN算一個里程碑,這文章的貢獻比較而言沒有dropout大。

2)自己也train過cnn,非常痛苦。。倒是很感興趣他們這些trick是怎麼想出來的。。而且調參訓練真的是體力活,我是不會。很希望能有人發些tutorial交流一下。知乎上的大神歡迎指導賜教。

3)個人感覺,這篇文章間接說明,CNN上還是有很多潛力可以挖的,遠遠沒到極限。個人覺得仍然沒有overfit,classification應該還算是vision裡面比較不那麼複雜的問題,新的trick能把這個結果刷多高仍未可知。無論人眼記錄是3%還是5%,僅僅在classification上超過應該只是時間問題。


樓上某cmu phd酸的太厲害了。雖然surpassing這種詞確實是大公司搞出來的公關手段但是我覺得kaiming能做到這個程度還是挺強的。至於不做CNN的人看到CNN的人一次又一次刷新記錄就覺得是在灌水我想說兩點點:1. 意義何在?耐鹽已經解釋了意義了,feature transfer到其他task上對其他task有本質幫助;2. black magic,這個我其實一直想說一句很不負責任的話「你有本事你調一個我看看」但是還是算了不符合知乎價值觀。。能刷新紀錄的每篇imagnet paper幾乎都提供了或多或少的insight,這些insight對應到Vision task上其實是有很多intuition,建議感興趣的同學多讀讀paper感受下調CNN的art,會調和不會調真的差很遠。

總而言之恭喜kaiming團隊。。。

利益相關我也是前vc intern那group裡面3個人我都認識。。另外我也是kaiming吹誰叫人家是高考狀元呢!!

樓上幾個高票我都認識還是匿了。。


過年在家不方便看paper,掃了一眼abstract和媒體的報道。主要的trick前面的同學們也說過了,主要是可調斜率的relu和initialization。
初始化的方法一直是熱點,遠有Hinton,近有Ganguli(參見今年NIPS上的talk),凡是有效的方法都是重要的結果。具體這篇文章如何沒看過文章不好評論。
可調參數的relu我自己試過,並不好train,後來也就沒搞下去。對neuron本身作手腳也是個比較常見的方法了(比如maxout),但真在imagenet上用的不多,如果真的work也算意義不小。
總的來看應該意義還是很大的,但還是要看看文章才好說。關於overfit的問題,我認為肯定有,多嚴重要看bad case了,但應該不至於特別差,不至於像有些數據集那種簡直是cheat的overfit。沒有水分的話稱作一個小里程碑是沒問題。
話說回來,視覺問題這麼複雜,就算真的不overfit完全解決了識別問題,離替代人眼還是有距離的,而imagenet以現在的視角看已經變的有點太小和太不真實了。不知道過幾年還會不會辦這個比賽?
關於black magic的問題,我從不覺得這裡面有任何black magic。學CS出身的同學們可能很難理解幾十年來neuroscience在這個問題上付出過的努力,研究的深度和廣度,只看到了一個簡單的model和一堆trick。但實際上,deep learning的成功,只不過是冰山在水面上的部分而已,水面下的,是無數死掉的實驗動物,成百上千個fancy但不work的model,一遍遍徒勞的理論化的嘗試,和很多人被嘲笑卻一直堅持幾十年的執著。
==============
發現滿篇都是「也許」「應該」,太不嚴謹了求摺疊


http://arxiv.org/pdf/1502.03167v1.pdf google家的paper也出來了4.82% ,演算法級別的提升。又看了一下,貌似V2版改了,reaching 4.9% top-5
validation error (and 4.8% test error)


史上最失敗的匿名…我想靜靜…



總體來說:有突破,但不是里程碑式的。

這兩年隨著CNN的廣泛普及,大家都在普遍刷新各種識別任務的評價性能。所以微軟的工作屬於將CNN這種方法進行了改進,並非提出新的問題或者是解決問題的框架。因此不能叫里程碑式的突破。這更多是微軟的宣傳而已。

順便感慨一下,感覺微軟亞研所的大牛們數學都是極好的,視野寬闊,特別善於集成創新。微軟的論文里經常是集合了最為流行的工具來解決舊問題。但是,他們論文中的參數講的不太精確,對我這種學渣來說,很難編程實現。經常是: 這演算法牛逼啊,可實現不了,細節不明啊,算了,還是放到introduction里引用下,就不對比了。


方法不是憑空拍大腿拍出來的,總是有些直覺上的東西指導才能想出來。現在可能有些東西是實驗得出、還不知道是為什麼,但這並不妨礙大家從中吸取經驗。最後真正work的東西可能就是從很多不知道怎麼work的工作裡面提煉總結出來的。
那麼多人覺得CNN只是硬調出的,而不去思考背後的idea,那和無腦黑有什麼區別?


我很想看到輪子哥的回復~!當年他可是說Andrew NG的研究不入流的。

輪子哥典型的「除了ms都是bullshit」的回答問題思路,讓人很贊。

在一篇文章里,他把wp沒有旗艦機的問題歸到Nokia身上,我反駁他nokia的硬體和設計能力不是你ms能比的,wp今天的窘境,完全是ms自己的原因——太裝逼!然後第二天他就拉黑了我。

這TMD氣度,真讓人欽佩。


無非是一些公關文字刺了些人眼。論文很有乾貨的。

PReLU和初始化W的方法都有很強的motivation。黃勛同學的迴文還提到了PReLU的相關文章」Object recognition with hierarchical discriminant saliency networks"。 而ReLU有sparsity的作用,但在運算能力允許,弱化sparsity的regularization能力,以獲得性能更好的模型,很合理啊。 用variance作為依據初始化W的方法,能減輕參數初始化工作的複雜度,很有價值的。而且原文寫得很謙遜,包括初始化W那段,作者甚至說明了它並不是提升性能的關鍵,vgg的方法也是可行的。

原論文用「surpassing「也無可厚非啊,Andrej搞了個5.1%的」an approximate upper bound on human error「不就是讓人去競爭的嗎, 打敗了他定的線還不讓人用個"surpassing"啊? 又沒說打敗了這條線就是打敗了全人類。現在Andrey有個了個3%和1.1%,大家繼續提升就是了,今年競賽應該會有更亮眼的結果出來。而且現在的4.94%和google的4.8%都是top5的錯誤率,單模型的top-1錯誤率大約是~20%, 目測還有不少提升空間,這個數據集還不至於已經到了overfit的程度。

至於新聞稿愛用個裡程碑什麼的吸引眼球,大家無視就好了。

有些人迴文用了「bullshit"這種字眼才真讓人看不下去啊。人臉識別和語音識別不都是這麼一步步走過的,現在不都走進了工業環境了。


學習了!


個人認為,圖像識別,語音識別,翻譯等很多ai問題面臨的困難都是同一個,如果某個方面號稱解決了,其他方面很快就能跟進解決,然後機器人立刻就可以降生。所以只要看看微軟能不能在其他方面跟進就知道這篇東西是不是僅僅是篇paper了。


大致看了一下,果然符合我一直一來的觀點,靠演算法也就只能達到95%左右,關鍵是,到了這一步,你以為只差一點就圓滿,其實按這個思路是沒辦法再突破的,把它的識別成功率與人類比較也沒有意義,因為兩者有本質的不同,比如,看著一個羊披上了狼皮,人依然可以知道它是一頭羊,但按CNN這種處理方式,做到吐血也沒有辦法,而這才是皇冠上的明珠。

類似例子太多了,比如中文分詞,比如OCR,我把這稱為傳統人工智慧理論的陷阱,多少人一批批的陷進去,然後在95%的線上歡呼,最後又黯然的離開,怎麼都不長點記性呢


推薦閱讀:

做底層 AI 框架和做上層 AI 應用,哪個對自己的學術水平(或綜合能力)促進更大?
OPTA 發布的球員在每場比賽中的熱點圖和傳球線路是怎樣製作出來的?
CV/ML頂級會議上的灌水文都有哪些特徵?如何快速判斷頂會論文是在灌水?
如何評價 Kaiming He 最新的 Mask R-CNN?
怎麼及時掌握/把握深度學習的發展動向和狀態?

TAG:計算機視覺 | 微軟亞洲研究院 |