大牛Bengio 團隊最新的研究和我自己之前的研究成果重複了，應該怎麼辦？

01-01

發現大家有所誤解，所以補充兩點∶
1. 我的專利和論文投稿在先，就算按投稿時間算，也比Bengio早半年。
2. 並不是一個簡單的idea重複，而是研究「成品」的重複，整個網路的設計以及訓練的實現方法都高度相似。可以這麼說，拋開實驗部分，他們和我的論文的整個理論和方法介紹都非常相似。
以下是原問題描述：
===========

2014年初，我在公司開始進行二值化深度神經網路的研究。2014年11月，在申請了專利（公司規定投論文之前必須申請專利）之後，我又寫了論文投到CVPR
2015。當時雖然網路性能比較差，但我認為我的主要目的是提出二值網路並且實現它。由於二值網路可以兼容大部分普通網路的訓練tricks，所以性能提升並不是問題。簡單來說，我主要解決了「有沒有」的問題，至於「好不好」的問題，我覺得後續如果有其他研究者跟進，是很好搞定的。
不過很遺憾，文章被拒稿了。於是這個項目就放下了。直到2015年底，Bengio（深度學習四大天王之一）團隊連發兩篇關於二值網路的文章[1][2]，我在2016年2月份看到後，發現他們提出的網路跟我之前的非常相似。具體相似的技術點如下：
1.
所有權重以及神經元的值均為二值的，所有的運算也是位操作（同或，異或等）。
2.
訓練過程中（後向傳播）使用實數，這是為了積累微小梯度變化。訓練結束後，所有實數只取相應符號生成二值網路。
3.
在求導時使用了近似。都是採用將階躍信號近似為直線。
2016年年初，Bengio團隊的這兩篇文章還引起了不小的關注。發現這一情況後，我趕緊把之前被拒稿的文章改了下發在了arXiv上[3]。
綜上，我的訴求很簡單，就是希望能讓大家知道我在這件事情上所做的貢獻。我不想讓我的貢獻就此埋沒。我的想法是Bengio團隊或者後邊其他人發的相關論文能否引用我的那篇arXiv文章或者專利？並且承認我是二值網路的第一個提出者？但是人家畢竟是大牛，可能都不會鳥我。我也沒碰到過這種情況。真的，打死我也想不到真的有人能跟我想到一塊去！
Bengio團隊文章：
[1] https://papers.nips.cc/paper/5647-binaryconnect-training-deep-neural-networks-with-binary-weights-during-propagations

[2] http://arxiv.org/abs/1602.02830
我的CVPR2015投稿：
http://arxiv.org/abs/1602.07373

Hi 題主,

首先血與淚的教訓就是，現在搞 DL 研究，一定要及時放上 ArXiv！當然是要有理論有結果分析的那種，僅僅有個 idea 就掛上網的行為我不太贊成。

看了很多答案讓題主不要過於在意，我覺得從心態調整上這是很正確的。但是這可能還不僅僅是心態調整問題，這還涉及到研究部門的效益/評價等。可能題主有上面領導的壓力要求宣傳自己的工作吧。

我舉幾個最近的 DL 研究「撞車「例子供題主參考。

1. Variational auto encoder

VAE 這個 idea 現在已經成了 DL 的一個重要熱點話題。最早提出這個 idea 的是 Kingma Welling (2013) [1]。但是就在一個月後 deepmind 也上傳了一篇論文，幾乎相同的 idea [2]，而且就晚了一個月。當然之後雙方進行了溝通，最後的結果是，在正式會議出版上他們互相引用，並且提倡後來的 following paper 都引用雙方的文章。

總結：這算是一個比較好的結局。當然最後 Kingma Welling 的貢獻被讚譽的更多，因為人家是第一個公開的（注意：他們不一定開始的比 deepmind 早）。而且之後他們也保持的很好的合作關係，Kingma 還去實習了一趟，不過最後他選擇了 OpenAI。

2. Adversarial training for Transfer learning

從14年開始 adversarial learning 也成為了熱點話題。在15年ICML 投稿中 [3] 和 [4] 用了類似的方法把 adversarial training 應用在 transfer learning 上。結果 ICML 大會 [3] 投中了而 [4] 被拒了。[4] 的作者之一 Hugo Larochelle （Bengio 的學生）說，他們趕緊聯繫了 [3] 的作者，經過溝通 [3] 的作者最終同意一起合著一篇 journal，即將出版在 JMLR [5]。

總結：這也算是比較好的結局。我感覺現在 DL 研究競爭非常激烈，同時想到同樣的 idea 確實是有可能的。但是這次雙方還是表現了一個開放的合作態度，合作了一片期刊論文。在 ML 學界我們普遍認為期刊論文相比會議論文更加完善，所以在雙方有共同的 idea 的情況下，合作發表能讓這個 idea 有更多角度的驗證。當然我們還是要給第一出版者 credit, 而且最後 [3] 的作者們也排在 [5] 的作者列表前列。

3. Generative moment matching network (GMMN)

還是之前的 adversarial training 相關工作。14年 Bengio 組提出的 generative adversarial network [6] 的訓練被認為是比較困難的。於是在 15年 ICML 上 Toronto 的 Yujia Li 等人提出了 GMMN [7], 使用 maximum mean discrepancy (MMD) 來訓練。然後晚些時候我們組的現在正在 visit Toronto 的博士生 Karolina 以第一作者掛網了同樣的 idea [8]，並且引用了 [7] 註明是 independent work。

總結：我感覺在16年同時/相繼發表類似 idea 的事情也會有不少，但是這不能否定發表時間稍晚/作者稍微不那麼大牛的文章的價值。畢竟 idea 相同，分析的角度相同的情況更罕見。而更常見的情況是最後表述的模型類似，但是出發點不同/測試場景不同。[8] 的貢獻在於他們從統計學角度分析了 MMD 應用在 adversarial training 的效果，而 [7] 是從改進 GAN 訓練的角度入手。從影響來看，可能近期 DL 領域的 following work 會傾向引用（甚至只引用）[7]，但是長遠來看 [8] 最終也會得到應有的評價。

References (as first appeared online)

[1] Kingma D P, Welling M. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.

[2] Rezende D J, Mohamed S,
Wierstra D. Stochastic backpropagation and approximate inference in deep
generative models. arXiv preprint arXiv:1401.4082, 2014.

[3] Ganin Y, Lempitsky V. Unsupervised domain adaptation by backpropagation. arXiv preprint arXiv:1409.7495, 2014.

[4] Ajakan H, Germain P, Larochelle H, et al. Domain-adversarial neural networks. arXiv preprint arXiv:1412.4446, 2014.

[5] Gani Y, Ustinova E, Ajakan H, et al. Domain-Adversarial Training of Neural Networks. arXiv preprint arXiv:1505.07818, 2015.

[6] Goodfellow I,
Pouget-Abadie J, Mirza M, et al. Generative adversarial
nets. Advances in Neural Information Processing Systems. 2014:
2672-2680.

[7] Li Y, Swersky K, Zemel R. Generative moment matching networks. arXiv preprint arXiv:1502.02761, 2015.

[8] Dziugaite G K, Roy D M,
Ghahramani Z. Training generative neural networks via maximum mean
discrepancy optimization. arXiv preprint arXiv:1505.03906, 2015.

謝謝邀請。首先patpat題主。關於被「複製」的問題沒有什麼特別好的辦法。唯一能做到的就是儘早放arxiv，把投稿質量提高一些爭取一次就中，中了以後多給talk宣傳自己的工作。關於寫信請求引用，如果有合適的證據證明你的工作發的比他們早並且你們的工作確實非常相關，寫信請求引用是可以的。但是寫信請注意禮貌，更不要先入為主地認為他們可能有參考而故意不引用的嫌疑。

在這個paper多如牛毛的時代，其實即使放了arxiv大牛也未必會注意到你的工作。同一個工作被發表了兩次，後一篇文章卻產生了比前一篇高得多影響力的情況也比比皆是。例如k-means這個名字是由James MacQueen在1967年第一次提出，並且後續工作產生了非常高的影響力。而實際上同一個演算法Stuart Lloyd在1957年就提出了，側重點卻是coding和adaptive vector quantization。由於計算機科學的興起，如今k-means作為一個經典的CS聚類演算法而被廣為人知，而它在coding和information theory方面的開創性貢獻可能知道的人相對少很多。再舉一個例子，我CMU導師的同門師弟其實在eigenface之前就提出過非常類似的idea，上次他訪問CMU時跟我聊天提起了這事，當時聽完非常感慨。他的工作更側重於軍事目標識別，paper發的地方也是早期傳統信號圖像處理的人喜歡發的SPIE一類地方。最後這個工作基本不為人所知，而後來發在CVPR上的eigenface卻成為了那個時代的經典之作。

另外單就這件事而言，希望樓主能想開一點。說實話，二值網路這個idea很多人在樓主之前就想到過，至少14年底我老婆的CMU PhD導師Bhiksha Raj就很明確提過。當時他開了11785 Deep Learning這門課(http://deeplearning.cs.cmu.edu/)。我和我老婆在他辦公室聽到他和上課的學生討論用這個idea做course project，並且希望他們過後寫paper去投ICLR（可惜最後deadline太近時間不夠，學生們也多虎頭蛇尾）。如今做DL的組和人增長速度遠比原創性idea的增長速度快，獨立想到同一個idea的概率變得非常高。還有一個例子是去年暑假我審到過某大組投到T-MM的文章，文章提及他們與Berkeley (CVPR 15 Best Paper Honorable Mention) 幾乎同時獨立地提出了FCN。我去arxiv圍觀了兩個工作的時間，確實是差不多的，前後相差不過3天，而T-MM那篇看arxiv的格式似乎也投了CVPR，但很不幸卻被拒了。我個人認為文章提到的獨立提出的觀點是可以接受的，還特意在comment中提到了這個觀點，給了一個major和一些修改建議。但很不幸另外兩位審稿人又給了rej，於是這篇文章再次被T-MM拒了。。。

題主大可不必擔心，其實通過二值化來加速神經網路的想法古已有之，從90年代至今有好多好多這方面的工作和嘗試，Bengio組的工作只是提供了一種解決方案，並不代表那是唯一的方案。我大概看了下你的方法，還是跟Bengio組的不太一樣的。

作為科研狗經常會遇到這種情況：好多同行的想法跟自己的工作幾乎一樣。好在最後落實到實現上，又變得各有特色。比如，［1］［2］這兩篇（1993年！！）通過量化權值來加速網路，只是效果貌似降的比較多。［3］使用了完全二值化的網路，在訓練時還需要一個使用實數的階段（個人覺得這個跟題主的更像）。［4］把所有的浮點乘換成了移位運算，效果貌似還不錯。。。其餘還有很多很多。所以並不是說有相同的想法就一定是衝突了的，不同的人做同一件事情最後都會變得各有各自的特色。從解決問題本身的角度來看，有很多同行在做同樣一件事情反而是好事，因為這些工作歸總到一起，能夠給自己提供不同角度的信息，避免自己摸索時一些錯誤的嘗試。

所以題主大可以繼續完善文章跟實驗，再找別的地方投嘛。

提到跟沒提到的文獻：

［1］Kwan, Hon Keung and Tang, CZ. Multiplierless multilayer feedforward neural network design suitable for continuous input-output mapping. Electronics Letters, 29(14):1259–1260, 1993.

［2］Marchesi, Michele, Orlandi, Gianni, Piazza, Francesco, and Uncini, Aurelio. Fast neural networks without multipliers. Neural Networks, IEEE Transactions on, 4(1):53–62, 1993.

［3］Kim, Minje and Paris, Smaragdis. Bitwise neural networks. In Proceedings of The 31st International Conference on Machine Learning, pp. 0–0, 2015.

［4］Machado, Emerson Lopes, Miosso, Cristiano Jacques, von Borries, Ricardo, Coutinho, Murilo, Berger, Pedro de Azevedo, Marques, Thiago, and Jacobi, Ricardo Pezzuol. Computational cost reduction in learned transform classifications. arXiv preprint arXiv:1504.06779, 2015.

［5］Burge, Peter S., van Daalen, Max R., Rising, Barry J. P., and Shawe-Taylor, John S. Stochastic bitstream neural networks. In Maass, Wolfgang and Bishop, Christopher M. (eds.), Pulsed Neural Networks, pp. 337–352. MIT Press, Cambridge, MA, USA, 1999. ISBN 0-626-13350-4. URL Stochastic bit-stream neural networks.

［6］Cheng, Zhiyong, Soudry, Daniel, Mao, Zexi, and Lan, Zhenzhong. Training binary multilayer neural networks for image classification using expectation backpropagation. arXiv preprint arXiv:1503.03562, 2015.

［7］Simard, Patrice Y and Graf, Hans Peter. Backpropagation without multiplication. In Advances in Neural Information Processing Systems, pp. 232–239, 1994.

It happens all the time, and it is almost part of DL research: 我們從去年年底到現在就有三篇跟人撞車。碰到這種事情也要分情況討論，如果作者你看的上，比如我們和Google Brain 的Neural Programmer 撞車的那篇，就感慨下「英雄所見略同哈哈哈」；如果作者你看不上，比如其他兩篇，就抽自己一個嘴巴自問「居然tm跟傻x想到一塊兒去了」。In either case, put it on arXiv and move on。這也是我對我的實習生和同事說過不止一次的話

非常理解題主現在的感受，因為曾經有一段時間我也有過。

我所從事的研究是計算機視覺中比較熱門的領域。去年我基本上花了將近10個月的時間在做一個新的idea，準備投CV的頂會。但是在我們的稿件提交過了半個月左右在arxiv出現了類似的想法，而且作者相當有背景，做出來的結果也類似。

當時的第一反應是：藥丸

我仔細研讀了別人的做法，發現在一些細節和問題上跟自己還是不一樣的，但是這並不能打消自己的擔心，因為如果文章悲劇的話在外人看來這個idea就不是自己提出來的，而且只能選擇低一檔或者不投。

跟老闆討論過這個問題，boss表示，至少說明這種做法是work的，先不要考慮這個問題，專心做事情吧。最後決定聽天由命了。

慶幸的是，文章中了，當然對方也中了。現在在做一個更challenge的內容。

在CS，僅僅有一個樸素的idea是不夠的，重要的是要讓它work起來。

在熱門領域這種「同時發明」的現象太常見了。歷史上多得是萊布尼茨和牛頓、達爾文和華萊士這樣著名的公案，更何況現在DL是顯學，那麼多人在盯著。

可以換個角度看，至少說明你現在考慮問題的層次已經和Bengio團隊相當了，這是對自己能力的認可。建議你認真閱讀Bengio的工作，了解差距所在，重在提高自己。

沒辦法，吃一塹長一智，下次寫完paper趕緊放arxiv。而且說實話，尤其是這種並不是特別難想到的idea。

補充一下，專利如果成功申請下來的話如果以後有人商用應該還是你這個東西優先。然而學術圈並不這麼玩。。。

不請自來。

其實我和題主有很類似的經歷。Bengio發表difference target propagation前幾個月的時候，我也做了非常類似的工作，實驗效果也差不多。後來發現，人家大牛做得的確深入得多，加上這個idea也並不是什麼新東西，索性我連arxiv都沒放。現在paper吃灰快兩年，憋出了更好的後續改進，才準備繼續發表。

說回題主的問題。我覺得做研究，在糾結idea是誰提出前，真的需要看到和大牛的差距：一樣的idea，為什麼別人的論文就被接收，你的就被拒了。既然題主認為方法是高度類似的，為什麼最後的結果差別這麼大？恕我直言，二值NN的出發點就是在犧牲一定效果的前提下，換來效率的大幅提升。樓主論文的效果，恐怕線性模型就能達到吧？雖然我也反對唯結果論，但建議還是好好思考究竟是哪裡出的問題。

題主至少是先申請了專利，後來又補發了Arix，有東西可以證明自己「首先」提出了這個idea。

但是對於學術而言，idea和paper之間有一個巨大的鴻溝。學術不只是提出idea，更重要的是對idea價值和內涵的論證，是一套完整的方法體系。僅僅是「提出」模型並且「實現」，這樣叫技術博客而不是paper。相似的模型，Bengio的論文中了而你的沒有中，就說明他們具有更完整的學術價值，所以也稱不上「複製」。

如果對自身實力足夠自信，不需要為一個idea的歸屬過分糾結。

Hinton提出了深度神經網路，DeepMind用之實現了AlphaGo。大家都有光明的前途。

圖片截自題主的論文。雖然現在我已經不關心MNIST的state of the art是多少了，不過題主這個表格更像是在說，這個方法基本不靠譜。

在ICML 2015 就看到篇二值化神經網路的paper: Bitwise Neural Networks http://paris.cs.illinois.edu/pubs/minje-icmlw2015.pdf。

我覺得很大概率是類似的idea他們也想到了，然後獨立做了出來。畢竟deep learning的不少工作都是搶在一個時間段發出來，這時候誰的工作更solid、結果更好誰就拿走了credit。題主應該慶幸先申請了patent，而不是說他們「複製」了你的工作。

你說的這幾點在hopfield時代就有了，用純位運算訓練也不是一兩年的事情了，又不是21世紀才發明的；對方的重點是訓練方法，不是二值神經網路；除非你的訓練方法和對方一樣，效率和對方達到同一數量級（我看了你的文章，好像並沒有），否則沒有意義。重複一遍：對方的論文重點分別在於訓練的效率、BinaryConnect，不在於二值神經網路。這個「創意」真的很久之前就有了，只是一直沒有進入實用。希望你先讀讀對方的論文和這個領域的很久以前的通信和論文再評判。

所以，你的論文被拒很正常，因為「有沒有」的問題很久以前就已經被解決了，不需要你來重複。你這是屬於挖墳，科研中一摸一樣的挖墳還不做引用可是會被認為是抄襲的，即使你自稱是重新發明，認識不足也不能開脫。

就像造汽車，你造出了一個三個輪子非人力驅動的車，因為人力三輪車到處都是沒獲得關注；某人造出了一個三輪的噴氣加速賽車超了吉尼斯世界紀錄得到了關注，你希望那個人能提出你在非人力三輪車上的卓越貢獻，因為你也花力氣造過非人力的三輪車，然而非人力三輪車又並不是你發明的，只是你沒見過自以為是發明而已。憑什麼對方要引用你而不是最先發明非人力三輪車的人？

當然，農村發明家是社會讚賞的。但科研的話，最基礎的是對前人結果的認識，而不是對已被人提出過的，有趣想法的堅持。

謝邀。抱歉看到的晚了。我覺得基本上大家的答案加起來已經很完整了。

現在的情況是題主排錯了隊，意識到的時候想要回來排在前面，這個本身確實基本不太可能。

我對題主的心情能夠表示理解，但我也同時建議題主從以下幾個角度考慮一下，或許情感上好接受一點（基本大家也都提到了）：

1. 這種情況即使對於一些我們耳熟能詳的概念也屢見不鮮。這一點 @禹之鼎已經做了詳細闡述。

2. Idea相撞的情況太普遍了，但是僅有idea完全不夠，通常需要有經過同行評審的完整的解決方案才會被認可。這一點 @Droking 和 @孔巴巴已經指出。

3. 實際上天天都有新的idea產生，有新的文章發表，而就單從我們自身的角度來看，大部分時候我們都不會去記得究竟是誰第一個提出的，因為畢竟真正有價值的idea還是太少。換句話說，如果題主真的認為這個想法具有劃時代的開創性意義，不如先通過一系列的後續研究證明這一點，讓更多的人了解接受並認可之後再來糾結這個問題不遲。

4. 如同 @劉知遠所說，這一定程度上可以理解為你的想法已經處在和大牛一個level了，本身應該是件值得欣喜的事情。如果一時心理稍覺可惜可以理解，但最好不要過分糾結於這個事情本身。假如已經具有這樣的水平根本就不用擔心將來搞不出更好的東西來。

只能說題主不孤獨啊, 可以看一下 google+ Deep Learning 大家對 Bengio 這篇論文的反應

https://plus.google.com/107526432214664176663/posts/RFXoAcvT97w

看到標題我就震驚了

我沒讀題主的論文，但是二值化神經網路本身是神經網路的始祖吧……就是多層感知機……然後題主提到了位運算，目測是個有創新性的idea

然而深度學習的結構變化太多，沒效果的trick都很容易被拒……

另外Bengio研究深度學習那麼多年（哪怕沉寂的那麼多年），相信不至於受到題主文章啟發卻最終沒有引用，所以只能說你時運不濟吧……

正常，去年我發的一篇論文，一審被拒，因為比較做的不夠。挑了reviewer提供的一篇論文做比較，把他們beat掉了，事後仔細閱讀他們文章，發現和我們的方法其實很相似，但是優化做的不夠好。。

讀博的一個收穫就是，無論多偏的方向多有創新性的idea，這個世界上都會有n個人同時在做，比拼的更多的是誰手更快、誰工作做得更solid、以及誰之前積攢的credit更多了

額，我也有時候，看書自己先想到了一個問題，翻過一頁發現它已經印刷好了，還和我想的一樣。有一次翻頁之前還臭美考我同桌。回頭同桌說我預習得好，我說嘿嘿厲害吧

我用Python想實現對符號函數求導，但是得到的梯度都是0，請問怎麼做到近似求導才能得到實數啊？知道的朋友請給一個示例，萬分感謝。

我只針對「打死我也想不到真的有人能跟我想到一塊去」這句話。

我現在大四。二值化神經網路我大二就想到了。

能和大牛想到同樣的東西，難道不是很值得自豪的事情嗎？既然有這樣的眼光，就更應該有自信能在以後的科研之路上不斷提出原創性的工作。

與題主共勉。

Come on, using binary weights is nothing new!

If your system really works, why should you let other people know your secret?

We can always publish heaps of junks that only work in the paper, not in the real world.