如何看待北大博士實名舉報黃亮教授在ACL上抄襲論文?

北大博士生主頁(http://sei.pku.edu.cn/~moull12/)聲明:Two of my papers are deliberately plagiarized in an ACL short paper, "Tree-based convolution for sentence modeling," by Mingbo Ma, Liang Huang, Bing Xiang, and Bowen Zhou, from CUNY and IBM.

Announcement on the CUNY and IBM"s Plagiarism in an ACL
paper, 「Tree-based Convolution for Sentence Modeling」

http://sei.pku.edu.cn/~moull12/resource/plagiarism.pdf
Comments on Mingbo Ma and Liang Huang"s Reply
http://sei.pku.edu.cn/~moull12/resource/plagiarism_comments.pdf

黃亮教授主頁:
Liang Huang"s CUNY Homepage


我的一切出發點都是我讀完這兩篇paper之後,將這一事件定義成一種idea的撞車,而且是從兩個不同起點沿著兩個幾乎正交的方向殊途同歸的撞車(我個人認為對於學術界來說,比起近年來一大批和Socher RNN撞車的工作,這是一件好事)。在這樣的前提下,我認為當事人Mou選擇了抹黑黃亮組這一對其個人和組織最不智的解決方式,也是會對學術圈產生惡劣影響的解決方式。

(我十分肯定這兩篇paper屬於撞車行為,兩個model哪一個都不能說通過加一些trivial的限制來包含另一方。Mou本人在上面的回復並未明確提到model上的抄襲嫌疑,而是更多地表達出因為概念上的相似以及contribution的over claim的憤慨,在一定程度上幫助我確認了我對事件的理解。然而這一點上我不能代表其他人,因為不同的人對於model的理解角度可能也會不同,我歡迎所有其他人跟我對關於這兩篇paper理解進行討論,同時我更希望看到的是Ma和Mou能夠官方對質把model的異同講清楚。)

====================================================
為什麼我堅持反對Mou的抹黑行為?先講個發生在我自己身上的故事:

有一年去nips開會,我做了一篇paper,搶了那個方向上某位大牛的坑(我甚至連幾個引理都重造了輪子)。然後poster session那位大牛就站在我的poster前面讓我present,我當時嚇得恨不得尿遁。。。然而後面的結局峰迴路轉,這位大牛沒有「用四支槍指著我們的頭讓我們喝尿」:第二天中午,他和他的co-author一起跟我和我的co-author吃了飯,席間作為前輩他們先小表揚了一下我們出手快,然後指出了這個bound接下來如何才能有質的改進,說如果我們要是有興趣可以去做
多年之後再回想起來,我覺得那個工作trivial至極。甚至用本次事件中當事人Mou的說法,我們在引用了大牛那篇arxiv文獻時「over claim」說他們的定理是我們的特例。如果讓本次事件當事人黃亮來評價,我猜他會說這是一個bad taste的工作。

那麼,也許你要問我為什麼你要在這裡去支持有可能批評你研究品位差的黃亮,卻不去支持一個和你一樣的junior researcher呢?道理很簡單:「我不相信黃亮所號稱的『人的taste壞掉了就再也沒希望了』,但是我堅信無端的污衊剽竊會毀掉我的學術生涯」。回想起來,如果我那一年nips之前知道了還存在著被人抹黑抄襲這種可能的結局,我甚至不會有勇氣把我的paper投出去,那樣也不會有我的今天。

我覺得一個普通的博士新生難免會以trivial的工作開始自己的學術生涯,所以跟別人撞車也難以避免。然而在我的經歷中,無論是我自己還是我的同學與其他人發生撞車,其最終結局無非是大家在conference上惺惺相惜相見恨晚,甚至還有就此建立合作關係以後一起發表工作的美談。這讓我一度覺得我所在的學術圈是一個溫情脈脈的,大家互相欣賞互相扶持的society。但是這次事件Mou的處理方式讓我意識到了學術上的撞車事件其實還存在著另一種可能的結局:那就是大家互相誹謗剽竊。如果這件事情開創了一種風氣,我不知道會對整個圈子造成怎樣的影響。套用一句話來說,今天Mou沖著黃亮來,我沒有替他說話,等下次有人沖我來,就沒有人替我說話了。黃亮怎麼說在NLP領域還算名人,這次輿論上還是有人支持他,但是我只是一個普通人,我被抹黑搶走了工作,對於這裡的大部分人來說,他們根本不會聽說這件事。更不會有這種知乎問題提出來能讓人們自由地討論來澄清事實。

我不是北大的學生,不過就在前幾天我一個曾經在北大語言所的同學跟我說,他覺得黃亮這次凶多吉少了,因為他們惹上了北大最能欺負人,名聲最不好的一群faculty。我看了一下Mou的導師們貌似是遊走在幾個不同領域的,所以事情鬧多大給圈子帶來多不利的影響,他們可能真的無所謂。但是我相信Mou同學既然有這樣的執著,說明他希望自己未來能在NLP領域佔有一席之地,也會在乎自己在NLP圈子的名聲。但是鬧到現在,我猜測Mou同學可能也是身不由己了,這說明我發這篇回復可能完全無力改變任何狀況,因為有背後的人逼著,Mou也許甚至連道歉都沒法做,然後(最壞地情況下)這種壞風氣就可以(至少在國內)繼續傳開。在這種情況下既然我無力改變什麼,我唯一能做的就是保護好我自己:我發誓以後一定要做fundamental的工作,不再讓對idea撞車的擔憂和對credit的爭奪佔據我寶貴的做研究時間,「我發誓,再也不會讓人拿槍指著我的頭

p.s. 我不知道在這個問題下討論的人有多少人讀過這兩篇paper,總之這個事件最讓我最驚訝的不是「黃亮也開始搞deep learning了」,而是根本沒有人去討論兩個model的具體關聯,學術撕逼的氣氛全無。。。
=========================================================
另外,上面說arxiv重要性的人,有沒有就事論事考慮NLP的情況,ACL圈子conference已經很密集了,而且ACL圈子還有個每月都能投的TACL。會議論文(以及其下的大量workshop)已經良莠不齊了,再用arxiv亂占坑只能更加添亂。個人承認arxiv的諸多好處,但是對這種亂占坑的濫用深惡痛絕
=========================================================
這兩篇paper我都讀過,我覺得這倆工作差別很大,不能說抄襲。黃亮組的唯一問題在於他們不應該刪掉引用,以他的身份,從提攜後輩的角度來看,也應該去引用Mou幫助Mou進行一些宣傳。
另一方面,我覺得這個Mou Lili應該被懲戒,否則此惡例一開,以後是個人做了點兒工作就可以去騷擾其他同一方向的研究人員。
另外關於有人黑黃亮說「如果這個arXiv是Bengio的,黃亮敢這樣做?」。作為一個有幸與Bengio教授交流過並得到過提點的學生,我可以負責任地說如果這個arXiv是Bengio的,黃亮不引Bengio人家Bengio根本不會搭理你。我曾經被Bengio指責說你不能管Recursive NN叫RNN,但是你看見Bengio去Stanford鬧了嗎?


謝絕轉載或分享。

一方面,在投稿時引用,最終版隱去這個引用,關鍵是這個雞賊的行為還被抓到了,對當事人聲譽損害極大。

另一方面,學界多個團隊同時發明或發現同樣的新事物、新方法,是很經常出現的事情,何況還是在深度學習這樣非常熱門的領域。我自己研究過程中就碰到過幾次,有一次成功發表,另一次就只能作為技術報告放出來。我覺得,只要各方介紹各自獨立的觀點,互相探討,說不定還能傳為一段佳話。發表論文最本原目的是增進交流,獲得credit只是副產品。

綜上,不能因為是首發(而且還是arXiv這樣的灰色地帶)就直接簡單粗暴地判定後來者是剽竊。同時,後來者在確知對方工作的情況下,應給予引用和論述,而非刻意忽略。


我的觀點是 這是一個明顯的學術不端事件,但是算不上抄襲
無責任推測下,事情的真相應該是這樣的:確實這應該是兩個同時期獨立的工作,Mou在ACL deadline前一周把一個還不是特別完善的版本放到了arxiv上。其實做research前沿的人應該都會很經常地去刷arxiv,黃亮的這個學生應該是aware這個工作的。繼續無責任推測下這個學生的心理變化:
」卧槽,老子辛辛苦苦做了半年的東西,馬上要deadline,你丫放了個arxiv占坑。那我的paper也要繼續投啊。「
於是怎麼辦呢,我個人也遇到過這樣的事情。我一直偏好的做法是,與其故意不引用,被reviewer指出,不如大大方方在paper里cite,然後加一個discussion,講清楚聯繫和區別。要首先自黑到位,不給reviewer黑和誤解的機會= =
從後來的回信中來,黃亮這個學生應該確實也是採取了這樣的辦法。效果自然也不錯,ACL中了。下面要準備final version了,這個時候,大家中過paper的都知道,如果對自己的paper比較負責,那麼會在final version的時候按照reviewer的一些反饋做出修改甚至補充實驗,但是往往頁數限制,不得不刪掉原本submission中的一些內容。恰恰在這裡這個學生刪掉了這個很關鍵很相關的reference。當然這裡的動機,不便隨意推測,我相信不會是個巧合。故意去掉一篇也許是最相關工作的reference,而且更改paper title到一個更general的term,個人覺得明顯是有故意偷取credit的嫌疑。黃亮後來在信中的解釋其實非常蒼白無力,什麼不會cite一個不穩定版本的paper,這是非常扯淡的理由。做vision的都知道,RCNN這個paper在中cvpr之前在arxiv上更改過多少個版本,根據讀者的反饋,作者做出相應的更改這也是一個好事情。
綜上所述,總結下:
1. Mou這面還是占理的,不過過於著急把一個不完善的版本放到arxiv上這其實不是太好。我曾經講過某個中國人在arxiv上放了一個兩頁紙的paper,還在title下面加個footnote說"This is used to declare I am the owner of this idea." 我真是從沒見過如此厚顏無恥之人。。。如果這個風氣擴散開來,是非常有違arxiv初衷的。
2. 黃亮組這面,前面分析的很清楚了,說毫無惡意,反正我是不信的。

PS1: 這個事情很有意思,如果雙方的身份反過來一下,或者比如Lecun放了一個paper在arxiv上,然後一個無名小卒投了一個cvpr中了,這件事情的輿情會不會反轉呢?
PS2: 黃亮這個人從微博上一貫的作風和處理這個危機的態度上來說,真是智商有餘,情商不足。
PS3: 兩年前黃亮信誓旦旦地說deep learning是bad taste。結果兩年後發了一篇deep paper。後來還有人解釋說其實是學生搞得,黃亮沒參與太多。結果人家自己在郵件里說這個idea,人家討論了快半年。這個臉啪啪啪啊。

以上。


作為NLP圈子內的非大牛一枚,我談談我的觀點。我覺得首先一點,不算是抄襲或者剽竊。首先是這個想法很容易想到,我記得去年講完http://nal.co的CNN論文就想到了這個idea,只是由於忙其他的工作就沒做,這點Liang Huang的解釋是可以接受的;然後就是沒必要,為了這樣一個工作抄襲而毀了學術生涯是不可理喻的。我認為他們就是差不多的時間想到了相同的想法,然後去網上搜了一下沒人做,就開做。然後做完準備投的時候發現有相似的工作出來了。
爭論的焦點在arxiv發表。我覺得發表論文,不管是peer review的還是arxiv這樣的,都是為了占坑。告訴別人,我做了,你們就不要做了。但是arxiv不同在於,隨意什麼文章都可以發表,質量沒有保障。當然,我認為Mou lili的文章是有一定的水平的。對於NLP領域來說,arxiv上的文章最終還是要投到正式的期刊或者會議的,這樣才能夠得到廣泛的承認,也是對自己工作的保護。換句話說,在沒有足夠的把握的情況下把工作發表在arxiv上或者把idea告訴別人是有風險的(這個在NLP領域近年有發生)。一般來說,只有自己的工作已經在審的時候把論文發表在arxiv上才比較安全。或者自己認為自己的工作足夠NB,不用擔心別人的競爭,只放arxiv也可以,例如Mikolov的word2vec,論文沒有在正式的期刊或者會議發表,但是不影響其地位。回到Mou的問題,他自己的工作本身idea比較簡單,而他的做法沒有足夠的cover所有的情況,然後沒有正式或者投稿發表就放到arxiv上。這個時候別人也獨立的做了相同或者類似的工作,當然有理由去投稿。最重要的是,liang huang的文章中了之後,Mou lili的工作不可能再在ACL之類的頂級會議上發表了。我是不能理解為什麼他不把自己的工作投到ACL之類的會議上。我覺得這是一個公平而殘酷的compete,也是遊戲規則許可的。

最後舉一些自己遇到的情況,去年自己做了一個工作,也是屬於那種比較簡單的想法,然後投了COLING。結果審稿的時候有一篇相似的工作在ACL發了出來,當時還沒有正式出錄取結果,是作者自己在google plus上貼的。後來COLING被拒了,但是對比了兩者的工作,發現還是蠻多不同的,最後就投了一個很普通peer review的會議。當然,我們後來仔細對比了我們的ACL工作的差別,最後reviewer也認同了。本來以為就是灌水了,最近發現還是被一些相關ACL論文引用。然後當時還在做的另外一個工作,做了兩個月發現arxiv上類似的工作出來了,是CMU做的。後來就放棄了,他們後來發了一篇ACL+一篇ICML。

總而言之,如果Mou有足夠的證據證明liang huang是抄襲,那沒有問題。如果僅僅是獨立的工作,最後即便不引用,也無可厚非,每個人都在試圖在合理的範疇內最大化自己的利益。要怪就怪自己沒有投稿,也沒辦法堵死別人的路。還有,Mou同學在pdf文件中從頭到尾都是職責別人是抄襲,總覺得戾氣太重。

PS:我算是認識黃亮,聊過幾次,但是沒有合作關係。


為什麼有些人不去看文章overlap的程度而總說什麼抄arxiv不算抄,這什麼邏輯?

Paxos當年還是掛在個人主頁好幾年了,那你咋不去抄了拿圖靈獎呢。


首先 利益無關 我不是當事人 甚至不是ACL圈子裡的人

我認為這件事不至於被標上「抄襲」的學術界頭等罪名,但我完全支持Lili Mou的做法。我不知道Arxiv在NLP是不是還需要時間來得到承認,但是在CV領域,Arxiv的timestamp等效於正式publication了。現在ML界,尤其是deep learning領域,技術更迭速度太快,大家都知道idea is cheap,幾個組在做同樣的topic是正常的事情。但是第一個想到,並且以一定質量完成的人應該得到足夠credit。
請注意 是以一定質量完成,而Mou的文章完全達到了這樣的標準。

這件事對於黃亮組的致命傷在於,submit paper的時候cite,在camera ready的時候抹去,並且把題目改為更general的tree based convolution來claim credit。

作者提供的借口是arxiv的版本質量不高,並且還在不斷更新,cite之後會影響自己論文的質量。我認為這是非常非常勉強的借口。
誠然搞學術不應該以最壞的惡意揣測每一個人,但是站在我的角度,我認為黃亮組這樣做的目的無非有兩個:
1. 與Lili Mou的文章撇開關係,防止文章發表後因為相似性遭到質疑
2. Claim一個新的概念,試圖獲得更大影響

換一個角度來講,Lili Mou的偏執在國內學術界是罕見的。如果黃亮和Lili的位置顛倒過來,在國內對待知識產權漫不經心,學術不端事件層出不窮的大環境下,恐怕這並不會掀起太大波瀾。所以,相對於黃亮仔回信中說Lili Mou是不懂事的「junior researcher」。我認為Lili恰恰非常成熟,把這樣的事情擺上檯面嚴肅對待,是一個成熟的researcher對待自己和別人的工作的態度,並且這樣做確實需要極大的勇氣。相反,黃亮組這篇文章的做法,即使談不上「不道德」,也是極「不專業」的。

我想一個透明公開的學術環境是最能推動學術進步的,而保持謙虛的態度,給相關的工作credit,是建立這樣環境的基石。


首先我覺得這不是抄襲,因為黃亮組的工作提交的時間和lili mou初稿只差20多天,又有較大差異,剽竊是來不及的,何況黃亮對paper寫作出了名的嚴格,據他說組裡每篇paper都要改幾十遍,被接收之後到camera ready也可能改十幾遍。抄襲並達到滿意的寫作水平(寫作上比lili mou要清晰多了)肯定是來不及的。

另外,黃亮組的paper我覺得是應該引用lili mou的,畢竟在claim originality的時候,arxiv上這篇是繞不過去的。雖然arxiv還屬於灰色地帶,但畢竟是某種意義的出版,在稿件質量不是太低的情況下(初步看lili mou的論文我覺得質量還可以,只是寫作有點混亂),應該承認其存在。

還有從lili mou披露的黃亮組的郵件回復來看,我覺得語氣不是太好,這種事情即使自己不心虛,也應該及時認識到有不妥,及時道歉,而不是condescending的說,我覺得我們沒錯,但(為了照顧您的心情)我們還是把稿子改了改。如果及時道歉並提供當時和別人討論的證據(不是只是說一句我們和誰討論過),我想也不會鬧的這麼不愉快。


不一定到「抄襲」的程度,但是有違最嚴格的學術道德標準毋庸置疑的。
尤其是在Camera Ready的時候刪除明顯相關的引用,這是非常有利己傾向的可疑行為。我覺得當事人還是道歉比較好。


北大軟體所的學生都太厲害了… Mou的主頁上已經把那些材料刪掉了,我也仔細看過那些材料,感覺有些不饒人了。camera ready版本里刪參考文獻太常見了,有可能還是reviewer要求的。


  1. Mou的心情可以理解,但應該給出更詳細的證據,而不是意氣用事、誇大其詞
  2. Ma和Huang的回信太過強硬,畢竟camera-ready刪重要citation也不對
  3. Huang的水平大家是有目共睹的,不至於為了一個acl short抄襲,再說也不是抄襲了什麼了不得的idea
  4. Huang也可以給出事實性證據,證明自己確實是很早之前獨立做出了這個idea
  5. Mou這樣無端攻擊他人其實是不好的,建議擺出更多事實證據
  6. Ma的回信裡面有基本技術上的錯誤(而Ma說是Mou錯了,其實是他自己沒搞懂),確實給人很業餘的感覺
  7. arxiv上的不少手稿確實是為了占坑,但不表示水平就一定低,合理利用arxiv是有很多好處的
  8. 引用arxiv是可以註明引用是第幾個version,不存在「怕手稿變了」這一說
  9. 很多時候idea是cheap的,同樣的想法同時期很多人都有,就看誰先做出來、做得更好

圈子太小,太多認識人,所以匿了


利益無關,我要給一個不太相同的回答:

竟然沒有人去批判Mou同學有故意誹謗,主觀上故意誇大當事人過錯的嫌疑?做學術之人最為愛惜自己的羽毛,被人誹謗抄襲猶如吃shi,沒有摔桌子還好聲好氣的回復溝通已經算很不錯了。做學術之人都知道學術信譽是一輩子的事情,Nature文章撤搞,當事人導師自殺的事情你們可曾還記得?隨便拿一個業內科研工作者的學術聲譽來要挾他為自己的利益服務,是最卑劣的小人行為。

雖然我情感上能理解Mou同學為什麼這麼生氣,但Criticize一篇工作沒有cite該cite的文章本來是學術範圍內需要討論的事情。打個比方最近Science上Deep Learning的文章也被JS猛批,但似乎沒看到人說這篇文章應該被撤稿。Science的文章可遠比ACL short影響力大多了。

我個人是非常反感拿arXiv占坑的,arXiv是一個非常好的平台,但是不能這麼被用壞了。arXiv上的文章沒有peer review是什麼意思?不是說arXiv的文章沒有質量,而是沒有質量認證。再新鮮的雞蛋不去過質量檢查就送到市場上賣,看到別人也在賣雞蛋,質量可能還不如自己的雞蛋就妄圖給別人抹黑,這樣的行為你們有什麼好鼓勵的?

至於黃亮組在審稿過程中對文章做了修改,這本來就是規則內允許的事情,你們通過一些細節事情揣測其存在學術不端意圖,本身並不能讓他們受到制裁。這件事情至多會對Mou同學的學術利益產生影響,但是Mou同學的行為不但嚴重破壞學術秩序,而且還助紂為虐給那些arXiv占坑帝樹立了「榜樣」,竟然也會受人同情,這讓鄙人無法接受。

至於回答中其他一些對黃亮其個人的評價(而不就事論事)就更加惡意滿滿,我就不點名了。


感覺指導老師要把當事人牽回家的感覺。

個人不是特別喜歡arxiv. arxiv更適合物理等專業用,而不適合計算機領域。

計算機的審稿周期其實並不長,也就幾個月。花一年時間做的項目,如果不是馬上要找工作或者申博士,有什麼必要要把還沒經過peer review的文章發出來?如果不是成名已久的大牛,真的有把握自己寫的東西和經過peer review的論文是一個水平的么?頂級會議的圈子就那麼大,有興趣看論文或者能看懂論文細節的人也不超過兩隻手。如果需要反饋意見,不如把論文放在dropbox上,手動發鏈接給這些人。

說到底主要目的就是占坑,可以排除同一時間工作在同一個問題上的同行,claim自己的credit。但是占著坑不拉屎,或者拉不出屎,這坑就永遠被占著了么?最後arxiv是為了promote related research in the community ,不是為了阻礙同行工作

科研裡面占坑這件事由來以久,系統做得出來就叫system,做不出來就叫on the feasibility, 實在不行,也要在future work把idea的路堵死,總之每個人都想把自家的坑挖大。但是要是前人如果發了一篇feasibility,即便後面真有人辛苦做出系統了,也會被認為這個contribution是incremental的。

==============
最後關於移去引用的問題,我覺得其實是一件比較常見的事情。
自己這幾天剛好也在準備camera ready version,在經過review以後,得到了大量的意見,但是要在本身長度不變的情況下,將各個審稿人的評論集成進論文並不是一件容易的事情,而最容易下手的就是citation部分。

==========
一直覺得未來計算機的論文就該是一個git repo,
每個人可以fork,star,pull a request,
涉及硬體的話,就要配上3d列印模型或者reproduce steps。

這樣雖然會降低整個領域的產量,但是整體上應該是促進領域發展的,避免部分大牛占著坑,霸著之前工作的門檻,不讓後來人進入。

最後用citation來衡量論文的質量真的是夠沒意義的,被cite多只能表示這篇論文所處在的領域是一個熱門領域。90%的citation都出現在related work,都只是綜述性。真正說明一個research 水平的應該是fork,star 數量,這說明多少人真正對這個研究感興趣。


作為當事人之一,我發表以下觀點,供大家參考、歡迎大家指正:

1. (希望原提問者以及各位答主刪除討論)黃亮小組的論文已經修改了題目避免文字重複,也在論文中重新引用了相關論文。我根據各方要求也刪除了所有發布的聲明——我個人對這樣的結果顯然並不十分滿意,但為了維護各方(包括我在內)的最後體面,這是一個權宜做法。

黃亮進一步寫郵件要求我刪除知乎和微博的討論,但對此我無能為力。我謹代表黃亮老師懇請各位好心網友按自願原則刪除本討論及微博討論——如果不刪,我個人沒有任何意見。

2. (關於「學術不端」)雖然這是我第一次就這個問題在社交網路上發表觀點,但我之前看了大家的各方觀點。最讓我困惑的是,有些老師、研究員能說出「學術不端而已」這樣的話。我知道學術界未必每個人都很有操守,但拿到面上來把「學術不端」說得如此輕描淡寫的我還是第一次見。就我個人的語感而言,學術不端是對一個學者學術信譽的最差評價和全盤否定。這比學問做得淺、做得不嚴謹要糟糕無數倍。不知道公開在網上發表諸如「學術不端也沒有什麼大不了」之類言論的老師、研究員,是否自己已經對學術不端習以為常了呢?

3. (關於是否抄襲或剽竊)首先,我認為黃亮組的這篇論文說不上抄襲,抄襲至少需要有點文字是一樣的。雖然黃亮組的標題幾乎一樣、個別句子十分眼熟外,倒也沒有什麼整句文字一樣的,所以抄襲我覺得不是。那麼是不是剽竊(plagiarism)呢?根據紐約城市大學的學術誠信準則,"Plagiarism is the act of presenting another person』s ideas, research or writings as your own
Copying another person』s actual words or images without the use of quotation marks and footnotes attributing the words to their source.
? Presenting another person』s ideas or theories in your own words without acknowledging the source.
? Failing to acknowledge collaborators on homework and laboratory assignments.
? Internet plagiarism, including submitting downloaded term papers or parts of term
papers, paraphrasing or copying information from the internet without citing the source,
or 「cutting pasting」 from various sources without proper attribution."

由此可以看出,剽竊和抄襲是不一樣的。剽竊有大有小、有多有少,內容豐富、種類繁多。有的剽竊很好舉證(比如直接抄襲),有的剽竊十分嚴重(比如剽竊演算法、模型等)但很難舉證。那麼黃亮組的論文有沒有剽竊呢?我們可以通過時間是否有證據表明知道來分析。
a) 「Tree-based convolution」已經出來一年多了,也在AAAI workshop上做過presentation(雖然我的論文檔次比較low,沒有中正會)。根據Mingbo Ma郵件的說辭,他們提出tree-based convolution是2015年3月4日,這比"Tree-based convolution"的提出、實現、以及workshop展示晚太多。但凡在Google或者Google scholar搜索一下自己提出的概念,就能發現這玩意兒有人已經提過了,唯一一個就是我的論文。畢竟我們很難說現在的某個工作和一年前的工作是並行的
b) 黃亮組的論文在審稿時引用了相關論文並且說明了不同,在發表時刪除引用,也刪去了不同點,並且在知道之前論文的前提下,還把題目改得和之前的論文題目幾乎一樣,顯然是有意使用之前論文的想法、文字、研究作為自己的工作發表,是典型的剽竊。
c) 再抓一個小剽竊。在黃亮論文arXiv第一版中,討論了constituency tree-based convolution、但沒有實現、也沒有數據。黃亮組顯然知道我的論文(因為在審稿時引用了),並且我的論文是實現了constituency tree-based convolution的;但黃亮組論文的討論中,並沒有引用我的論文。首先,如同部份網友所說,這種做法正是想通過討論,把idea堵死,再做constituency tree-based convolution無非是這篇文章的一個擴充而已;其次,這種做法也是典型的剽竊,因為我已經做了,他們沒做,他們把人家的idea拿來作為自己的idea宣布一下還不引用之前的論文。你總不能說一個你自己沒有做的工作,和人家已經做了的工作是並行的

4. (關於arXiv)我個人之前是每天讀arXiv相關文章的,arXiv上論文良莠不齊,但是一篇論文大概什麼水平,自己看了一般就知道了。我也反對提交一兩頁紙,說「我是這個idea的所有者」這樣的文章。arXiv自己對論文的要求是「referable,也就是可被人引用、參考的。那麼我的論文有么有達到這樣的要求呢?

我的論文好像比黃亮組的論文頁數長、模型多、效果好。那篇"learning to execute"的文章都敢引,黃亮的工作好像也未必能比他們高到哪裡去吧?

至於說我論文硬傷太多的網友,值得注意這樣一個事實:黃亮組是多麼希望找到我的硬傷,最終也才找出來一個,還是他們自己錯了——要麼就是他們睜著眼睛說瞎話,要麼就是他們對背景認知太少。我的文章就算寫作差點,好像也沒有到那麼糟糕的地步吧?

另外,我第一版和第二版唯一一個區別是有個數據寫錯了,c-TBCNN/d-TBCNN的準確率寫反了。經一個同學告訴我後,我立即更新了版本。雖然初稿的數據到最後都被超過了,但因為涉及到數據的正確性,不能開任何玩笑,這就是我對待arXiv的態度。

即使退一萬步說,就算是博客、一般網頁的東西,也不能直接拿來就用,只做個腳註是可以的。如果是我的話,我可能會在腳註里這麼寫:
"Tree-based convolution was proposed in arXiv:xxxxxx. After we have finished our dependency tree-based convolution, we find our work has been done in arXiv:xxxxxx." 這樣倒是有點embarrassing,或許可以加一句「But their papers are of low quality, and we do not offer citations.」

小結:大家可以保留自己的自由裁定權,但最好把想法保留在心底即可。根據黃亮老師的建議,我再次懇請大家儘可能地刪除本帖、本討論、微博討論。我代黃亮老師感謝大家。

======================
UPDATE: 補充回復對我「自我剽竊」的指責。以下相關文字最早發佈於評論中,有部份修改。

有多人說,Mingbo Ma等人居然說我自我剽竊增加novelty。我實在沒有見過這麼不要臉的說法。我的文章還沒有發表,怎麼自我剽竊?況且我在投稿時,額外信息中註明了:本文技術來源於我的另一篇未發表的文章,這叫增加novelty?

大概那些心理齷齪的人是無法想像有誠實的人存在。


arVix我只引導師的 別人的我咋知道對錯!


這要是真承認了剽竊,那huang和他的這幾個學生沒法在學術圈混了啊。所以,只有盡量說不是剽竊了


在camera ready刪引用確實是耍小聰明搞學術不端。不過Mou在聲明裡面寫的很多東西也太主觀,無法令人完全信服。

這個方向搞東西太簡單了,不是什麼突出性的貢獻,一般你能想到的別人也能想到,而且很快就能做出來,也不能因為比別人早放在arXiv幾天就斷定別人是抄襲。

不要太當真,你無法左右別人做什麼事情。只有當你持續得做出高質量的工作,才會得到別人認可。學術圈黑暗的事情多的是,還有人專門靠審文章找idea。如果有選擇,不要混學術圈,做點更有意義的事情。


利益無關,只說三點:
(1)在我們CV圈,如果發論文而不引用arXiv,那簡直是不能直視的,而且今年CVPR會議已經投票表決通過,以後可以接收arXiv論文;
(2)在最初的版本引用,而在最後版本刪除最相關引用,改更general的題目,顯然學術不端,惡意獲取credit;
(3)Mou的論文還說的過去,對於同樣的idea,作為大牛指責別人論文低端、low逼格,顯然有失身份,就好比說,同樣一個果樹下的果子,人家銷售技巧不好,只賣5塊錢一斤,你有身份,非常會sell,可以賣100塊錢一斤,但是都是同樣的果子,大家都是出來賣的,這樣做真的好嗎?


你問我資不資瓷學生抄襲,當然資瓷啊,抄完能發acl我能不資瓷么?但是抄襲也要按基本法來,不能抄完引用原作投稿,錄音後刪引用。當然,老闆的決定權也是很重要的,畢竟學生是黃亮的手下。

---------------------------------------------------------------------

看到上面還有給黃亮洗地的,真是感到噁心和不安。是否剽竊暫時不好定論,但學術不端是坐實的。如果黃亮這種行為沒有得到應有的懲罰,此惡例一開,各位看官如何保證沒有人欺負到你頭上?你們掛在arXiv上的工作被人「借鑒」過去,你們作何感想?

你們看看黃亮的回復,說你們文章水平低,我們就把引用刪了。簡直是赤裸裸的欺負人。為什麼黃亮敢明目張胆欺負Mou Lili?因為Mou的學術地位比他低。如果這個arXiv是Bengio的,黃亮敢這樣做?如果大家不替Mou Lili說句公道話,以後萬一有比你學術地位高的人欺負你呢?

Mou Lili已經提供了很多證據證明抄襲,黃亮如果清白,就應該把他和學生之間所有相關的郵件截圖公布,屆時一看便知是獨立工作還是「借鑒」的工作。

非常支持Mou Lili同學的維權行為。如果是我,我還會向黃亮所在學校、院系投訴,向ACM投訴,要求黃亮證明自己沒有剽竊。把事鬧大得罪黃亮沒有關係,以後投稿只要把他所在機構標為conflict即可。


除了題目有overlap和citation被刪掉這兩點,請問在核心技術有什麼抄襲的呢?我看了兩篇Paper,至少我沒發現在核心技術上有多少overlap的東西,題主在標題中直接上「抄襲」是不是太過了?


你們啊,taste怎麼都這麼低呀,有本事寫個slides總結下啊


推薦閱讀:

你給哪些牛人發過郵件?有哪些結果?
怎麼看互聯網學術?
如何總結和整理學術文獻?
博士生畢業時要寫的「畢業論文」和之前發表在期刊上的「學術論文」定位有什麼不同?

TAG:學術 | 自然語言處理 | 論文 | 自然語言 | 實名舉報 |