論文查重用了什麼演算法?


不管論文還是什麼別的文章,相似度計算通常有三種方法

1.詞包,可以擴展成n-gram,就是提取文章中所有連續的n個詞構成的n-gram作為這個文章的n-gram向量,然後用向量餘弦或者集合的Jacqard係數計算兩篇文章的相似度,n=1的時候就是詞包,這種方法實現最簡單,準確率也過得去

2.SimHash,通常用於爬蟲的相似網頁判斷,應該很少用於文章相似度計算

3.機器學習正在研究中的Word embedding,功能強大,但是需要訓練

從大多數關於論文查重的描述,感覺應該是基於n-gram方法,可能加了一些改良,估計n不會超過3,但是你要是想找這個方法里的漏洞的話…坦白說憑個人的能力去找漏洞花的時間花在論文上早就寫出一篇好論文了,真讓你找出點成果,你找漏洞的過程本身就可以寫一篇論文了


感覺像文本分類裡面的相似度分析,去掉平時用的把,被常用詞,根據論文題目確定範圍,利用訓練過的文本集里的文本特徵進行距離計算,也就是向量之間的距離計算,當低於某個閥值的時候就被認為是相似。所以知網查重改語序,把字句換被字句是木有用的,同義詞替換可以大幅度降低重複度。推薦去看看機器學習裡面的文本分類,說的就是這個


作為一個查重費用花了幾百大洋的人,來回答一下。

有可能是將文字分小段,放到資料庫中匹配。如果一句話和另一句話中,出現的相同的小段文字超過一定比例,就會標紅或者橙。

看起來簡單,但是得益於巨大的資料庫以及計算集群,被標紅和標橙的也確實能看出雷同。不過計較演算法還不如去好好改文章。

目前我用過的查重,最強的是paperpass,萬方其次,知網最低。


我只是在想那些(特指計算機方向)基本上把一些國外論文簡單翻譯,或者把譬如Hadoop、Spark之類的官方文檔翻譯過來就佔了一大半篇幅的論文是怎麼查重的,難道讓機器自己去翻譯然後再比對?我是不是說漏了什麼 ...


學校買了知網查重,我的論文有兩個章節和兩篇論文的複製比有40%,RLGL,百度谷歌都找不到這兩篇論文,我也壓根就沒抄過。


學生物信息的都知道

傳說中的

BLAST演算法!!


推薦閱讀:

怎樣理解「我們沒有更好的演算法,我們只是有更多的數據」 ?
A*演算法 A*是念「A 星」還是"A star"?
怎樣才能贏得這個2048遊戲?有沒有必勝的策略?有沒有可能同時製造出兩個2048來?
關於01背包問題九講的優化?
如何評價ZJOI2017 Day1?

TAG:演算法 | 編程 | 論文 | 演算法與數據結構 | 論文查重 |