寫了一篇識別文本情感的論文,用樸素貝葉斯方法;期刊回復沒有創新,拒錄。求建議?

寫了一篇識別文本情感的論文,用樸素貝葉斯方法;

期刊回復沒有創新,拒錄。

應該用什麼方法實現,能夠得到期刊的認可?核心或EI

求指教,謝謝!

求推薦相關書籍 資料等?


paper能錄用,需要有創新才行。一般是下面3個中的一個。

1. 老問題,新方法。你得和現有方法對比,證明你的方法至少在某些方面比其他方法好。

2. 新問題,老方法。你自己發現一個新的應用,新的領域,然後用老方法,解決了這個問題。

3. 新問題,新方法。這個是最牛逼的。自己發現了一個新領域,自己提出了一個前無古人的新方法,這種一般都是大牛級別了。

識別文本情感,這個是老問題,樸素貝葉斯也是很早以前的老方法,題主覺得期刊有什麼理由錄用你的論文呢?

建議題主好好調研一下這幾年情感分析的論文,比較歸納一下他們所用的方法和應用的問題。然後再想想,自己可以在他們的基礎上,做什麼改進。


you probably want to read recent papers on sentiment analysis, if the reviewers think your novelty is so low that worth a direct rejection, maybe you should compare your paper with existing ones carefully.

Some suggestions, you can look at works from Richard Socher (Recursive NN), Google/FB (word embedding), those guys work on popular things, and popular means higher possibility to get accepted.


謝邀。

看了已有的答案,我來說一點其他的。

已有答案裡面說的基本都是對的,比如應該多看看最新的論文,比如Socher Richard的RNN方法之類的。這些都沒錯,這也是正確的科研方法。如果題主希望做真的創新,請按照其他答案裡面的方式去做,不用向下看了,下面的答案只是用來完成論文指標的。

我要說的其他的,僅針對題主所說「核心或EI」這個具體的要求。個人見解,「核心」和「真正的創新」是有一定差距的,「核心」更多的作用,是為了某些功能性的用途,比如畢業指標。那麼,完成這一指標,其實並不一定需要做到最前沿的創新。

我舉個例子,你上百度學術,搜一下「文本分類」,你可以仔細看看第一頁裡面論文所在的期刊,以及文章的摘要。你會發現其實也有近幾年論文用樸素貝葉斯的。那麼,你就會明白,你需要的其實是兩點:

(1)找到一個合適的期刊。

(2)合理包裝自己的論文。

首先說期刊,國內的計算機相關期刊,基本上都不是SCI檢索,於是水平較高的也就是EI檢索,因此核心/EI檢索期刊裡面強弱差異比較明顯。題主你可以先全面了解一下哪些期刊比較好,比如計算機學報、軟體學報、計算機研究與發展、電子學報、自動化學報、電子與信息學報或者一流大學學報這種,你這個樸素貝葉斯做情感分類,必然是不可能被錄用的。所以你要找的,是一個核心期刊,同時水平較低,這樣既可以滿足你的需求,又可以盡量降低你的實際工作量要求。觀察期刊水平,只需要看看近幾年上面發表的論文就行了。當然,你需要注意規避一種風險,即水平過低可能會被踢出核心/EI範圍的。

然後說包裝,我這裡首先說明,我反對任何形式的抄襲和捏造,請題主注意,走到了抄襲和捏造,就是學術不端,超出了本答案的範圍。所謂包裝,就是把一個創新性較弱的內容,包裝成為有一定創新性可以被錄用的文章。這個過程需要你稍微看一看你的目標期刊上的其他文章,仔細看看你應該會發現不少「題目和摘要說的好像挺厲害的其實裡面也不過就是個簡單方法而已」的文章。而你可以和這些文章學習一下,看看如何「包裝」。

最後,其實成功率較高的方法是加一點「小小的創新」,這種創新是小的,然而確實和已有的不一樣。就你做的這個情感分類,你可以考慮:

- 情感分類中的不平衡或者代價敏感問題

- 選擇性集成學習解決情感分類問題

- 情感分類問題中的雜訊識別和預處理

其實本質上還都是簡單的方法,把幾種簡單的方法,做一些組合,只要確保別人沒有做過一樣的東西,實驗效果還不錯(起碼比樸素貝葉斯要好吧,要不然你拿什麼做對比實驗),就可以有效提高你的論文被錄用的概率。另外,盡量別用那些一眼看上去就很簡單的方法(比如樸素貝葉斯),你用個什麼Adaboost之類的都能稍微好一點。

最後的最後:

論文是做出來的,不是寫出來的,做出有用的東西,論文只是水到渠成而已。總是盯著指標去完成任務,並不利於自己能力的提升。


NB確實沒啥新意。被拒是自然的。

不過NB有些固有缺陷,比如沒考慮feature的相關性。但這個不是很好做,畢竟這麼老的問題了。

你可以結合別的演算法,比如先用word embedding,然後把embedding vectors作為feature,用logistic regression分類。看起來有新意一些。


謝邀。

關於Sentiment Analysis, @徐然、@蕭瑟、@居里猴弟 三位前輩已經說的非常好了:這本身是個非常經典、也比較難的任務,學界也對這個任務提出了很多漂亮的方法,相比較而言,樸素貝葉斯沒什麼新意,而且我相信NB的結果也不會太強。

恰好自己目前也在做類似的工作,給幾篇論文供題主參考吧:

Richard Socher, A. Perelygin, J. Wu, J. Chuang, C. Manning, A. Ng, and C. Potts. Recursive deep models for semantic compositionality over a sentiment treebank. EMNLP 2013

Kai Sheng Tai, R. Socher, and D. Manning. 2015. Im- proved semantic representations from tree-structured long short-term memory networks. arXiv preprint arXiv:1503.00075. (ACL 2015)

Xiaodan Zhu, P. Sobhani, and Y. Guo. Long short-term memory over tree structures. arXiv preprint arXiv:1503.04881. (ICML 2015)

Ozan Irsoy and C. Cardie. Deep recursive neural networks for compositionality in language. NIPS 2014

Phil Blunsom, E. Grefenstette, and N. Kalchbrenner. A convolutional neural network for modelling sentences. ACL 2014

Yoon Kim. Convolutional neural net- works for sentence classification. arXiv preprint arXiv:1408.5882. (EMNLP 2014)

Lili Mou*, Hao Peng*, Ge Li, Yan Xu, Lu Zhang, and Zhi Jin. Tree-based convolution: A new neural architecture for sentence modeling. arXiv preprint arXiv:1504.01106.

最後一篇是我們的工作,還沒投,求建議:http://arxiv.org/abs/1504.01106

可以看出來,大家基本都在用神經網路來做。而樸素貝葉斯就顯得有點古董了:即使在本科生的NLP/Machine Learning 概論課程中,用樸素貝葉斯來完成大作業都絕對算不上出彩。

關於建議,我個人認為題主可以考慮找一個比較新的問題來做。如果要堅持做情感分析的話,建議多看論文,調研一下學界在這個問題上的趨勢。有了一定的基礎後,再提出一個很新的模型、做出很強的結果,就更容易得到認可了。


我默默答點修改論文添加創新之外的其他東西吧。估計有點跑題。

novelty這事可能無論你怎麼改怎麼做都會被question的。如果你的要求只是EI、核心什麼的話,降級投個別的稍微差點的期刊吧。

什麼方法什麼細節什麼改進這個撇開不談。limited novelty,我個人覺得是個很萬能的拒稿辦法啊。除了頂級會議雜誌上頂級的那一小撮,大部分文章用這個詞形容都沒錯。因為novelty這東西不好評價(於是有人寫論文單列一段contribution)。新問題新方法當然算novelty,改個什麼東西的公式也算,大框架不變改個優化演算法有時候也算,真不好說。

有些時候,方法本身是各種地方拼拼湊湊,問題很古老方法很古老,拼湊形式也很古老,但是方法描述,實現細節,實驗,參考文獻啥的都挑不出大毛病。文章整體給人感覺就是弱爆了,讓人感覺看的是十年前的論文,這種時候,也就是寫個limited novelty(一般給點參考文獻說明為啥沒創新)然後挑點小錯拒掉了吧。

別的人不知道。對我來說,limited novelty對我來說最常用的場合叫做:覺得這個論文和期刊本身水平不相配。。。同樣的novelty程度投頂級悲劇的,降級投不那麼好的雜誌,可能就收了。腦子正常的reviewer都不會用同一套審稿標準對付不同級別的雜誌。(最早我統一用頂級標準審稿被導師批死了-_-)


N年前Stanford的Manning就已經對比了用NB和SVM的方法,而且改進了使用ngram Bow和NB-SVM。現在據說準確率最高的是用Doc2Vec做的,Github上也有源碼了。


謝邀!

雖然目前我還沒真正發一篇自己的論文,但是近幾年的耳聞目染,對此也有些心得。

稍微好點、言之有物的論文都要有【亮點】。大約是編輯所說的【創新】。

從你的問題中,我找不到任何與亮點有關的內容——樸素貝葉斯方法識別文本情感。文本情感分析這一個NLP任務我只是聽說,但是我猜在lz之前的人肯定已經有用貝葉斯方法做過了,貝葉斯是一個經典方法,早應該有人試過。

《樸素貝葉斯方法識別文本情感》這樣的題目更像是一個technical report,而不是一個research paper。

所以說你的亮點在哪裡?是情感特徵的選取很有效?還是啥?

與情感分析Task的state of the art的對比如何?這些都是需要考慮的。


非專業人士路過吐個槽……這個是我們系入門水平machine learning課程的第一次作業,可見這題目真的是被研究得差不多了,題主不如多去看看最新的paper找找靈感

……我機械工程專業的


謝邀。

NB確實是很basic的入門方法。而且你要描述的問題也不是新問題,是個相對比較繁榮的領域的老問題了。只用NB確實缺乏新意。你需要看看,你這個方法和其他人已經用過的方法有什麼不同?如果沒有不同,被拒很正常。

同意:

1. 老問題,新方法。你得和現有方法對比,證明你的方法至少在某些方面比其他方法好。

2. 新問題,老方法。你自己發現一個新的應用,新的領域,然後用老方法,解決了這個問題。

3. 新問題,新方法。

的描述,在繼續準備論文過程中,對照這個相信可以取得更好的效果。


文本情感分析用樸素貝葉斯確實沒創新


你就不能把貝葉斯稍微改點東西嗎,事實上現在一般的期刊,老方法加一點點改進,跑個好點的結果,就能錄。


好吧,我亂說兩句。

1、對於情感識別,你讀過多少其它的論文, ACM 最近5年的論文都讀了么?

2、如果採用 樸素貝葉斯,那麼你的演算法中有什麼東西是你自己提出的,你的之所以採用這種方法比 HMM EM 神經網路 相比,好在哪裡。

我以前讀過一篇MIT的一個女博士發表在ACM上的論文,講了半天就是說FIFO在處理伺服器流量上面表現最好,然後做了很多比較,其實也沒有什麼創新。


NB不是主流演算法么?你可以提出他的缺點,改進一下


推薦閱讀:

有沒有好的中文髒話識別的解決方案?
小猿搜題用到了哪些牛逼技術?
廣告ctr預估有什麼值得推薦的論文?
北京大學機器學習有哪些不錯的博士生導師?
IBM Watson 的獲勝意味著什麼?

TAG:機器學習 | 自然語言處理 |