標籤:

論文查重的原理是怎樣的?

揭秘:知網論文查重的規則及檢測原理

這個好像有介紹,先看看


幾年前寫過一篇博客,介紹CrossCheck的基本原理

CrossCheck是由CrossRef推出的一項服務,用於幫助檢測論文是否存在剽竊行為。它的軟體技術來自於iParadigms公司的iThenticate。CrossCheck的工作原理其實很簡單,用戶通過客戶端將可疑論文上傳,然後系統將該論文與CrossCheck資料庫中的已發表文獻進行比較,最後報告給用戶可疑論文與資料庫中已發表文獻的相似度,以百分比表示,並將相似的文本標示出來。例如可疑論文與已發表文獻A文有70%的相似度,與B文有20%的相似度等。但CrossCheck的報告結果畢竟只是經過執行一系列查詢與比較演算法後的生成的數字和提示而已,至於可疑論文是否真的是剽竊而來,一定需要由相關研究領域的專家(期刊主編、編委或審稿人等)對相似論文進行仔細比較,才能作出比較客觀的結論。

Wiley目前正將CrossCheck免費提供給旗下期刊使用,雖並不要求必須使用,但許多期刊的主編還是十分感興趣,紛紛要求馬上開通。這也從一個側面反映出期刊界對剽竊問題的重視程度。

在對論文的文字部分進行比較方面,CrossCheck確實比較好用,能夠幫助期刊發現一些問題。比如,中國等非英語國家的一些作者可能會有意無意地直接套用其他論文的的Introduction或Method中的部分甚至幾乎全部的文字,但實驗數據、討論等部分完全是原創性的。這種作法實際上是不妥當的,使用CrossCheck很容易檢測出來。但如果期刊直接定性為剽竊並拒稿(Reject),似乎也有點太武斷與"冷酷"了,因此有些期刊會將稿件退回(unsubmit),並委婉地請作者對可疑之處進行修改後再重新投稿。

我所管理的一本期刊還遇到過一種情況,某篇稿件的Introduction和Method與另外幾篇已發表的論文幾乎完全一樣,連作者也是一樣的。CrossCheck檢測的結果自然是相似度很高,但經過期刊主編審查並與作者溝通之後,發現這位作者在相同的目標和背景下,採用相同的方法對不同的實驗對象進行了一系列的研究,並且所採用的方法是原創的方法。因此主編在請作者添加了相應的說明和參考文獻後,同意將稿件送審。

從另一方面說,在經過CrossCheck檢測後,即使相似度為0,也並不能就此認為可疑論文一定就可以排除嫌疑了。因為CrossCheck資料庫中的已發表論文只佔全世界所有科技文獻的一小部分,並且目前CrossCheck還只是最擅長比較英文論文,對其他語種似乎並不太支持。同樣,一些手法比較「高級」的剽竊,也是很容易成為漏網之魚的。

總之,CrossCheck只是一種輔助性的檢測手段,只有配合以期刊主編、編輯、審稿人的專業判斷能力,才能合理地發揮它的作用。

原文見

科學網—反剽竊軟體CrossCheck工作原理簡介


查重的原理不清楚,

但是這個題目勾起了大叔當年為了過查重連夜修改論文的悲催生活。

一個晚上的時間,

要改5萬字的論文,

忘了說了:大叔的論文,「引用」度是非常高的。

來說說大叔當年是如何過查重的,特別是針對那些臨陣磨槍的同學有用。

首先聲明:本故事絕對屬實,但是如果你模仿然後被抓了就不要來找大叔了。

大叔是典型的不學無術的人,

但是大叔文筆還不錯,

於是家師有了恩諭:

小X啊,看你文筆不錯,邏輯清楚,這樣吧,我需要編一本會計方面的基礎教材,用來評職稱的,不需要深度,給你半年時間,你幫我搞定吧。

什麼?

我一個巨型文豪,就用來編一本基礎會計教材?

於是乎在讀研的後面一年半,

大叔乾脆來了個人間蒸發,

跑到外面上班去了:全職上班哦。

老師來電話了怎麼辦?

置之不理!

哇啊哈哈哈哈

恩師都以為我出意外了!

想想也是個奇葩。

言歸正傳,

說說怎麼應付查重:只是自己的經歷,也已經是許多年前了請同學們不要參考。

當然最主要的辦法,還是修改原文的字句:把被動改為主動,把句子前後倒一倒,多改幾個形容詞,能修飾的地方自己修飾一下。

這是基礎!

但是大叔當年查重的時候發現一個漏洞:

提交上去的東西,內容是沒有人看的。

查重的那個人是學院的一個輔導員,他只負責把盤插進去,然後查重,內容他是不看的。

這就奇葩了!

也就是說:即便我拿本三國演義的WORD文檔給他,他也不知道。

於是乎我就放心了!

回去之後大刀闊斧的整改自己的論文:

句子的順序直接顛倒,

句子直接拆開,

段落整體加工,

做到後面,又發現了一個更偉大的神器:CTRL+F,全部替換,

把所有「的」字,都換成XX人他二大爺的名字,這樣就絕對不重複了!

現在想想也是醉了!

太囂張了有沒有?

說下結果:

大叔的論文被斃了,

後來緩期畢業,


1 研究背景

抄襲現象之所以存在有著多層面的原因,首先,各種利益的驅動或者自身能力的限制使得抄襲者產生了主觀的故意;毫無疑問,互聯網的廣泛普及,搜索引擎的強大功能都為抄襲等行為提供了便利;網路及各種全文資料庫收藏的海量文獻為抄襲者提供了原材料;抄襲檢測工具應用不夠普及、功能有待提高使得抄襲者心存僥倖;對抄襲行為可能引起的法律問題嚴重的認知不足等等。抄襲應用的領域可能是一篇學術論文、一篇博客、一段程序代碼等等,本文關注的是中文學術論文的抄襲。從技術層面上來說,杜絕抄襲可以從兩個方面入手:一是在寫作過程中阻止;二是在發表過程中檢測。「檢測」方法的設計思路是這樣的:不關心文章以何種方式完成,只是在定稿的文檔中進行檢測,確定其中是否含有抄襲的內容即可。顯然使用檢測的方法來判別可操作性更強。

2 抄襲檢測技術概述

對於自然語言的抄襲檢測技術的核心就是文檔複製檢測技術。文檔複製檢測有兩類基本的檢測方法:一類是基於字元串比較的方法;另一類是基於詞頻統計的方法。基於字元串比較的方法也稱為數字指紋法,這類方法通過某種選取策略在文檔中取一些字元串作為「指紋」,把指紋映射到Hash 表中,最後統計Hash 表中相同的指紋數目或者比率,作為文本相似度依據。基於詞頻統計的方法也稱為基於語義的方法。詞頻統計法源於信息檢索技術中的向量空間模型,該類方法首先都要統計每篇文檔中各個單詞的出現次數,然後根據單詞頻度構成文檔特徵向量,最後採用點積、餘弦或者類似方式度量兩篇文檔的特徵向量,以此作為文檔相似度的依據。

3 抄襲檢測技術的發展

使用計算機開展抄襲識別的研究首先要對數字文檔進行分析處理,而數字文檔又可分為兩種類別,即:自然語言文本和形式語言文本。形式語言文本比較典型的是計算機程序源代碼,雖然抄襲的案例較多,但因其具有規範的語法和語句結構特點,相對比較容易分析處理,針對此類抄襲識別的研究也較早。而自然語言文本(如:論文等)複製檢測技術的出現比程序複製檢測晚了20 年。②1993 年,美國亞利桑那大學的Manber提出了「近似指紋」概念,基於此提出了sif 工具,用基於字元串匹配的方法來度量文件之間的相似性。美國斯坦福大學的Brin 等人首次提出了COPS 系統與相應演算法,其後提出的SCAM 原型對此進行了改進了。SCAM 借鑒了信息檢索技術

中的向量空間模型,使用基於詞頻統計的方法來度量文本相似性。香港理工大學的Si 和Leong 等人採用統計關鍵詞的方法來度量文本相似性,建立了CHECK 原型,並首次在相似性度量中引入文檔的結構信息。到了2000 年,Monostori 等人用後綴樹來搜尋字元串之間的最大子串,建立了MDR 原型。在此之前,全美國的教育工作者們現已懂得綜合運用課堂書寫段落樣本、互聯網搜索工具和反剽竊技術三結合手段遏制欺騙的源頭對於中文論文的抄襲識別,存在更大的困難。漢語與英文不同,它以字為基本的書寫單位,詞與詞之間沒有明顯的區分標記,因此,中文分詞是漢語文檔處理的基礎。漢語文本抄襲識別系統首先需要分詞作為其最基本的模塊,因此,中文文

本自動分詞的好壞在一定程度上影響抄襲識別的準確性。同時計算機在自然語言理解方面有欠缺,而抄襲又不僅僅局限於照抄照搬式的,很難達到準確的抄襲識別。所以解決中文論文抄襲識別問題還不能全盤照搬國外技術。北京郵電大學張煥炯等用編碼理論中漢明距離的計算公式計算文本相似度。中科院計算所以屬性論為理論依據,計算向量之間的匹配距離,從而得到文本相似度。程玉柱等以漢字數學表達式理論為基礎,將文本相似度計算轉換為空間坐標系中向量夾角餘弦的計算問題。西安交通大學的宋擒豹等人開發了CDSDG系統,採用基於詞頻統計的重疊度度量演算法在不同粒度計算總體語義重疊度和結構重疊度。此演算法不但能檢測數字正文整體非法複製行為,而且還能檢測諸如子集複製和移位局部複製等部分非法複製行為。晉耀紅基於語境框架的相似度計算演算法,考慮了對象之間的語義關係,從語義的角度給出文本之間的相似關係。大連理工大學的金博、史彥軍、滕弘飛針對學術論文的特有結構,對學術論文進行篇章結構分析,再通過數字指紋和詞頻統計等方法計算出學術論文之間的相似度。張明輝針對重複網頁問題提出了基於段落的分段簽名近似鏡像新演算法。鮑軍鵬等基於網格的文本複製檢測系統提出了語義序列核方法的複製檢測技術。金博、史彥軍、滕弘飛少給出了一個基於語義理解的複製檢測系統架構,其核心是以知網詞語相似度計算為基礎,並將應用範圍擴大到段落。聶規劃等基於本體的論文複製檢測系統利用語義網本體技術構建論文本體和計算論文相似度。

4 抄襲檢測系統的應用

運用信息技術反剽竊是國內規範學術行為的有效措施之一。④國外從20 世紀70 年代初,就開始有研究防止程序抄襲的軟體,但直至1991 年第一個自然語言文本抄襲識別軟體WordCheck 才誕生,目前廣泛應用並具有代表性的軟體有很多。如論文作業抄襲檢查平台TurnItIn,由iParadigms 開發,系統採用基於數字指紋的抄襲檢測方法,檢測資源包括網路資源ProQuest 論文庫、論文作業庫等。提供的英文反剽竊服務目前已經服務於包括美國加州大學伯克利分校、杜克大學、德國漢堡大學等在內的2500 多所高校和科研機構,遍及九十多個國家,檢索網頁數量超66 億,用戶達650 萬。據稱,該網站目前已阻止了世界範圍內將近600 萬的學生和教育者的剽竊行為,在使用的高峰期,每天可以收到2 萬篇論文。由Cross-Ref 與iParadigms 共同開發的抄襲檢測平台CrossCheck,於2008 年6 月19 日正式啟動。CrossCheck 的功能由兩部分組成:一個基於全球學術出版物所組成的龐大資料庫和一個基於網頁的檢驗工具。這個基於網頁的工具可用於編輯過程中去鑒別相似文檔,生成對比報告,並通過分析去判斷是否存有學術剽竊行為。截止2010 年3 月,正式會員包括Elsevier,Springer,牛津出版社,美國科學進步協會(AAAS),美國物理學會(APS),植物生物學會、《浙江大學學報》(英文版)等75 家單位。

國內已研發出兩款較成熟的專門軟體,且兩款軟體的核心都是基於數字指紋的抄襲檢測方法進行文檔相似性檢測。一款是武漢大學瀋陽副教授研製的「ROST反剽竊系統」軟體,目前已在全國20 多所高校院系推廣和100 多家期刊社使用。另一款是中國學術期刊電子雜誌社與中國知網共同研製的「學術不端文獻檢測系統」,目前全國已有3000 多家期刊和360 所高校的研究生院免費使用這個軟體。ROST 系統和CNKI 系統當前的一個主要差異在於其使用的參照文檔資料庫不同。「ROST 反剽竊系統」軟體通過將切割文檔後混合引擎將其與188 億個網頁和490 萬篇文獻進行模糊匹配,標示出每個文本塊與文獻庫中的某些文獻的最大相似度。中國知網從2006 年開始立項研發基於全文的「學術不端文獻檢測系統」,以《中國學術文獻網路出版總庫》為全文比對資料庫,採用基於數字指紋的多階快速檢測方法,支持從詞到句子、篇章級別的數字指紋,可對圖、表等特殊檢測對象進行基於標題、上下文、圖表內容結合的相似性檢測處理,還可根據特定的概念、觀點、結論等內容進行智能信息分類處理,實現語義級別內容的檢測。中國知網擁有文獻量居國際國內同類產品之首,這為其進行檢測提供了豐富的對比文獻資源。科技期刊檢測系統已經檢測的10 多萬篇科技文獻中,文字複製

比超過30%的超過1 萬篇;學位論文檢測系統檢測5000 篇學位論文,重合字數超過1 萬篇的論文約1000 篇。目前Internet 上還有一些提供文本抄襲檢測服務的網站和工具。例如,Plagiarism、mydropbox、WordCheck 等。針對中文的paperpass 提供法學論文和教育社科類論文的免費檢測服務;中國搜網站的文章照妖鏡工具基於谷歌和百度提供免費的檢測服務;拷克提供針對網頁內容抄襲的免費檢測服務。

5 抄襲檢測技術存在的問題

到目前為止,抄襲檢測技術主要集中在文檔複製檢測上,針對圖像、音頻、視頻的抄襲檢測還有賴於基於內容的檢索技術更進一步的發展。各系統集中解決在同一語種範圍內的抄襲檢測問題,對於中、外文間經過翻譯後進行的抄襲行為還沒有很好的檢測解決方案。針對文檔的抄襲研究已經取得了很多成果,但是針對論點(或創意)進行的抄襲一般難以直接斷定出來,還需要進一步進行人工判定。另外,對已經明確在參考文獻中列出的部分,有的檢測系統在判定抄襲的時候並未進行特別處理。

早檢測論文檢測平台

http://www.zaojiance.com

文章來源:http://www.zaojiance.com/news/news-detail-2014-04-23-16-22-05.html


測報告解讀

1、首先看-xx% 的截圖文件,學位論文檢測系統是整篇上傳,如果沒有這個文件肯定不是學位論文檢測系統檢測的。

(1)截圖上面有5.0(或TMLC2)的標誌,說明是用VIP5.0版本檢測的。

(2)上部左側有文章及作者信息,還有總文字複製比和總重合字數。大部分學校基本只看總文字複製比這個指標,具體要求各個學校不同,一般5%-20%。

(3)上部中間偏右是參考文獻字數,系統會自動識別文章末尾的參考文獻,如能識別就會單獨放在這裡,不參與檢測。

(4)截圖下部是各段落的抄襲比例,系統會識別文章的大綱目錄,如果能被正確識別就會按照章節進行分段,否則會自動按照一萬字元數左右分段的。

(5)總文字複製比由檢測出來的紅字(抄襲的部分)和黃字(引用的部分)總和除以論文總字元數得來。

2、然後看文本複製檢測報告,這個是系統自動導出的檢測報告,並非手工拼湊。

(1)最上部是文章及作者信息,總複製比以及比對庫範圍等內容。

(2)然後是文章及段落抄襲率概要,此部分對應總截圖文件。

(3)接著就是各段落的詳細檢測報告,包括被抄襲文獻的信息,並且系統識別出來的抄襲的文字會被標紅或者標黃處理,您只要修改紅字和黃字就可以了。

三修改建議

1、知網學位論文檢測為整篇上傳,格式對檢測結果可能會造成影響,需要將最終交稿格式提交檢測,將影響降到最小,此影響為幾十字的小段可能檢測不出。對於3萬字元以上文字較多的論文是可以忽略的。

2、上傳論文後,系統會自動檢測該論文的章節信息,如果有自動生成的目錄信息,那麼系統會將論文按章節分段檢測,否則會自動按照一萬多字元數一部分來檢測。

四修改辦法

知網檢測由於是採用模糊演算法,如果整體結構和大綱被打亂,可能引起同一段落的文章檢測第一次和第二次標紅不一致,這是正常的,所以請親們在修改標紅的時候盡量變換句式,不要打亂論文原來的整體大綱和結構。

檢測系統沒想像中可怕,檢測比對的是相同欄位,而不是相同意思,所以只要大家換一種表達方式,意思是一樣的,也查不出來,還有改詞、換句、加自己的話,改變描述方式(變原句為倒裝句、被動句、主動句等)、打亂段落順序、刪除可有可無的關鍵辭彙、關鍵句等。經過實踐證明,使用以上方法結合,可有效降低複製比,保證順利通過。

例如下句:

過熱故障中的過熱與變壓器正常運行下的發熱是有區別的,正常運行時的其發熱源來自於繞組和鐵芯,即銅損和鐵損,而變壓器過熱故障是由於受到有效熱應力而造成的絕緣加速劣化,它具有中等水平的能量密度。

幾乎被標紅,說明與相似文獻存在重合和高度相似,經過以上方式結合,本句可改為:

過熱故障中出現的過熱容易與變壓器正常運行下的發熱相混淆,後者是因為其繞組和鐵芯會出現銅損和鐵損的現象,這是正常運行過程中的發熱,而變壓器過熱故障是受到有效熱應力造成的絕緣加速劣化,具有中等水平的能力密度。

這樣修改幾乎可以降低抄襲率一半。

再舉一例:

標紅抄襲段落:

上世紀九十年代以來,在生產力提高、科技進步、跨國公司活躍等因素的共同驅動下,經濟全球化席捲全球,世界經濟越來越成為一 個整體,跨國公司根據其戰略部署在世界範圍內對生產要素和資源進行優化配置和重新整合,這導致國際貿易和分工的方式悄然發生 了變化,由傳統的產業間分工模式逐步演化為同一產品不同工序和區段上的分工體系,即產品內分工。

論文更改為:

從20世紀末以來,在新的科技革命及跨國公司迅速發展的帶動下,全球經濟日趨一體化,各國經濟在世界範圍內實現了競爭與協作相 結合的良好共存局面。在全球範圍內,各生產要素由於跨國公司的快速發展實現了優化配置和重新整合,從而使國陳貿易和世界分工 的方式產生了適應新時代要求的變化,傳統的產業分工方式開始轉變為因產品在工序和區段上的差異而進行的分工方式,這也就是我 們所說的產品之中的分工。

「反反抄襲」密招:Google新用

這種方法,命名為「Google法」。「所謂『Google法』,就是找一篇現成的論文,把論文的每一段都用Google在線翻譯成英文,然後將翻譯好的英文用Google在線翻譯全部轉回中文。猛地看上去,跟原文差不多;可是仔細一看,其實每句話都不一樣!只要自己再把少量的語病改一改,就大功告成了。」

五常見問題答疑

1、檢測結果是0%的情況。

這是正常的情況,說明同學引用文字沒有達到論文總字數的1%。如果同學對結果有異議的話,可以在通過了學校的檢測之後再確認收貨。我們的檢測中出現過很多次重合率為0%的情況了,我們不再作過多的解釋了。

2、我已經發表過一篇小論文,引用的話會算重合率嗎

這個問題只有您的學校里負責論文檢測的老師才能說明白了,因為涉及到他對系統怎麼設置。我們默認的檢測方式是不去掉第一作者的,也就是說您的引用自己的論文的部分仍然會作為重合部分或參考文獻部分進行計算。

3、有些同學可能很奇怪,自己在論文中明明引用或者抄襲了其他文獻的段落或句子,為什麼沒有檢測出來?

這是因為知網的檢測系統靈敏度設置了一個閥值,該閥值為1%,以段落計,低於1%的抄襲或引用是檢測不出來的,這種情況常見於大段落中的小句或者小概念。舉個例子:假如段落1有10000字,那麼引用單篇文獻100字以下,是不會被檢測出來的。實際上這裡也告訴同學們一個修改的方法,就是對段落抄襲千萬不要選一篇文章來引用,儘可能多的選擇多篇文獻,一篇截取幾句,這樣是不會被檢測出來的。

4、我明明標註並做了正確的引用了,為什麼檢測報告中還會對這些內容標紅?

知網系統對於正確引用的內容也會標紅的,否則如果我們全篇都是引用其他的參考文獻的內容,但是我們只要做了正確的標註,那麼豈不是重合率還是0%?系統不會有這樣的漏洞的。

5、為什麼我的論文明明是六個章節,而標紅報告中只列出了四個?

這是因為沒有重合的章節系統是自動省略掉的。

6、為什麼我的論文去年檢測的重合率是20%,而今年就變成了30%

這是因為知網每天都是有大量新近發表的文獻入庫的。所以同學來檢測的時間不要距離學校機測的時間太長,也最好不要參考太新發表的文獻。因為這樣都有可能造成因為時間差的問題,導致檢測的重合率出現偏差的情況。

7、為什麼檢測報告中的章節劃分和我論文中的有差別。

這說明同學論文的目錄格式不規範,所以知網的系統將論文自動劃分章節。

8、為什麼我的檢測報告中會有部分特殊符號或亂碼?

這是因為同學的論文中有類似修改標記的東西,正常我們的word顯示時看不到這些標記的,同學在word中打開「工具」-》「選項」-》「視圖」,將「全部」選上並確定後,再看我們的文檔,就會發現這些特殊的標記了。要清除這樣的標記需要我們將我們的論文全文拷貝成文本格式到一個新建的word文檔中才可以。


我不懂原理,作為經歷過兩次論文查重的人來說說。

大概就是機器會把你的論文和國內論文庫里所有文章進行對比,重複率達到30%還是35%被判為抄襲,達到20%被判為過度引用。這些都需要回去修改論文的。

現在的機器基本可以做到抓取關鍵詞來判定兩篇文章是否雷同,也就是說,如果你只是變換一下辭彙,比如,把然而改成但是,把可是改成但是,甚至做到了修改句式,但還是會被發現的。據說是如此。

具體的理論我作為文科生是說不上來的,還是請專家吧。

論文,大家還是要好好寫啊,畢竟是要被收錄的,以後自己的子子孫孫估計都是要看到的。學術不端不說其他,單就是家族傳統也需要開個好頭啊!

和各位共勉了!


論文查重是本碩博畢業生檢驗自己論文成果真假的證明,大部分學校對本科生是全檢或者採樣抽檢的方式。 碩博是全檢的

一旦學生提交的論文檢測抄襲度超過了規定的百分比(一般是本科30%下,碩士15%下,博士是5%下,具體看學校的要求標準),就有可能導致畢業生不能答辯,要重新修改論文、延遲畢業等,當然,論文檢測(論文查重)系統不會那麼可怕,只要你多點自己心思,前提去了解它。

論文檢測原理

上傳論文後,論文檢測系統會自動檢測該論文的章節信息,論文檢測系統會通過引用標註功能,作者自主定位合理引用(關於引用的問題,請參閱簡書文章《解讀論文查重:避免引用被視為抄襲》),使其不再計入抄襲檢測範圍。若自己在段落中明明引用或者抄襲了其他文獻的段落或句子,沒有檢測出來,是正常的。在檢測系統中對該套檢測系統的靈敏度設置了一個閥值,該閥值為5%,以段落計,低5%的抄襲或引用是檢測不出來的,這種情況常見於大段落中的小句或者小概念。舉個例子:假如檢測文章1有10000字,那麼引用單篇文獻500字以下,是不會被檢測出來的。實際上這裡也告訴大家一個修改的方法,就是對段落抄襲千萬不要選一篇文章來引用,儘可能多的選擇多篇文獻,一篇截取幾句,這樣是不會被檢測出來的。


概念普及:論文查重軟體自身收錄海量文獻建立對比資源庫,通過特定的文獻對比技術演算法,把待檢測文獻和已有資料庫資源進行對比,進而生成可視化的檢測報告,並在報告中標出重複率的部分和重複的來源,並給出相應的建議,比如存在觀點剽竊等。然後審核人員根據這些做出最後的判定,是否存在抄襲,到這裡,整個論文查重過程圓滿完成。

常用的查重軟體

1、知網論文查重軟體

知網論文查重系統存在的合理性,他的出現為高校老師,科研工作者,雜誌社編輯部都帶來了很多便利,省去了大量的人力和物理,使用的一方只要花少量的費用就可以替代之前的大量人工,並且花時間也非常少,知網檢測一篇文章,最多超過2小時就可以出報告。

(1)在知網查重報告中,標黃色的文字代表這段話被判斷為「引用」,標紅色的文字代表這段話被判斷為「涉嫌剽竊」。

(2)在知網查重進行中,檢測系統只能識別文字部分,論文中的圖片、word域代碼、mathtype編輯的公式、是不檢測的,因為檢測系統尚無法識別這些複雜的內容格式。你可以通過[全選]——[複製]——[選擇性粘貼]——[只保留文字]這樣步驟的操作來查看具體的查重部分。另外,在編輯公式時,建議使用用mathtype,不要用word自帶的公式編輯器。

(3)論文中的表格內容數據是可以識別的。如果表格的內容有很大的重複度,那麼可以把表格截圖保存,再放到論文中去。

(4)論文中引用的參考文獻部分也是會計算相似度的,所以引用的時候,最好的方式就是先理解內容,再用自己的話寫出來。

(5)知網檢測系統對論文的分節是以「章」作為判斷分節的。封面、摘要、緒論、第一章、第二章、等等這樣一系列的都會各自分成一個片段來檢測,每一個片段都計算出一個相似度,再通過這樣每章的相似度來計算出整篇論文的總重複率。

(6)在知網查重系統中,是以「連續13個字重複」做為識別標準。如果你能夠通過修改,讓你的論文任意一句話都找不到連續13個字與別人的文章相同,這樣就檢測不到。

(7)當知網查重系統識別到你論文中有某句話涉嫌抄襲的時候,它就會對這句話的前面後面部分都重點進行模糊識別,這個時候判斷標準就變得更嚴格,僅僅加一些副詞或虛詞(比如「的」、「然後」、「但是」、「所以」此類詞語)是能夠識別出來的。但這樣子的識別方式有時候會顯得不是很智能,可能會扯上一篇完全不相干的論文說是內容相似。

(8)知網的對比文庫里不包括書籍,教材等。但有一個問題要注意,當你「參考」這些書籍教材中的一些經典內容時,很可能別人已經「參考」過了,如果出現這樣子的情況,那就會被檢測到相似。有些同學會說,那我用自己的話去重新寫一下,這樣就不會被檢測到啦。這樣的方法,理論上是對的,但實際上是,這些經典的句段,已經有無數的人引用過了,也已經被無數的人通過各種改寫的方式引用到論文中去的,所以,要寫出一段跟別人不一樣的話,還真是有點難度,這個也要拼點運氣。

(9)網路上的某些內容也是在知網的資料庫里的。比如:「百度文庫」、「道客巴巴」、「豆丁網」、「互動百科」、「百度百科」。作者查重的時候,甚至還遇到很多奇葩的網站,神馬「東方財富網博客」、「人大經濟論壇」。所以,選擇網上的內容時要慎重。

2、維普論文查重軟體

反抄襲軟體檢測到13個相同的字,就認為是雷同,所以連續相同的,不要超過13個字; 檢查出是重複剽竊了。維普網論文檢測系統,採用國際領先的海量論文動態語義跨域識別加指紋比對技術,通過運用最新的雲檢測服務部署使其能夠快捷、穩定、準確地檢測到文章中存在的抄襲和不當引用現象,實現了對學術不端行為的檢測服務。系統主要包括已發表文獻檢測、論文檢測、自建比對庫管理等功能,可快速準確地檢測出論文中不當引用、過度引用甚至是抄襲、偽造、篡改等學術不端行為,可自動生成檢測報告,並支持PDF、網頁等瀏覽格式。

3、paperpass論文通行證

本系統只能用做學術審核、學術自查等正規用途,系統僅支持中文論文(包括簡體、繁體)的檢測,暫不支持英語等非中文論文的檢測,請勿提交非中文論文! Paperpass論文通行證 全球首個中文文獻相似度比對系統,運營多年來,已經發展成為最權威、最可信賴的中文原創性檢查和預防剽竊的在線網站。系統自主研發的動態指紋越級掃描檢測技術,已經領先於國內外其它檢測系統所用技術,成為了論文抄襲檢測技術的領導者。


首先,我們應該理解什麼叫做查重,就是查重複率。

然後,我們應該理解查重軟體如何判定你是不是重複的,基本上有一個不成文規定,不要有連續六個字與你參考資料是重複的。

接著,我們要了解論文的構成:文字,圖片,表格

圖片是不會判定重複的,表格我們可以轉化成圖片形式。

下面就是重點部分,文字怎麼避免查重,我舉個例子,我們把中文翻譯成英語,還會被判定為重複嗎?不會。

所以我們要做的就是中文翻譯成中文,即同義替換,我們的要求就是意思不變,書面語言,專有名詞不變,重複率降低。

方法:1,基本字詞轉換,例如應該改成應當,高興改成開心。

例句:食品與人們的生活以及健康關係密切。

改後:食品和人們的日常生活乃至身心健康有十分緊密聯繫。

2,基本句式的轉換,例如因為什麼所以什麼改成之所以出現什麼樣的現象,其緣由是什麼。

例句:安全是消費者選擇食品的首要因素。

改後:廣大消費者在挑選食品時候考慮的最重要因素就是安全。

3,理解整體意思,換一種表達方式,這種方法是在前兩種方式行不通的情況下使用。

例句:政府層面加大打擊力度。

改後:政府採取各種嚴厲措施來打擊這一不良現象或者遏制這一不良傾向。

以上三種方法融會貫通,過查重應該是沒問題了。


Levenshtein 字元串相似度演算法

using namespace std;

//演算法

int ldistance(const string source,const string target)

{

//step 1

int n=source.length();

int m=target.length();

if (m==0) return n;

if (n==0) return m;

//Construct a matrix

typedef vector&< vector &> Tmatrix;

Tmatrix matrix(n+1);

for(int i=0; i&<=n; i++) matrix[i].resize(m+1);

//step 2 Initialize

for(int i=1;i&<=n;i++) matrix[i][0]=i;

for(int i=1;i&<=m;i++) matrix[0][i]=i;

//step 3

for(int i=1;i&<=n;i++)

{

const char si=source[i-1];

//step 4

for(int j=1;j&<=m;j++)

{

const char dj=target[j-1];

//step 5

int cost;

if(si==dj){

cost=0;

}

else{

cost=1;

}

//step 6

const int above=matrix[i-1][j]+1;

const int left=matrix[i][j-1]+1;

const int diag=matrix[i-1][j-1]+cost;

matrix[i][j]=min(above,min(left,diag));

}

}//step7

return matrix[n][m];

}


最近用了次crosscheck,感覺分析結果特別不可接受,

1.本學科和統計學專業名詞算雷同,不行,列舉了幾個文獻

2.對於設備條件的描述,基本寫法已經固定,也不行

3. 有一句話,大概意思就是「可作為xxxx的有益補充」,abstract,introduction,conclusion都用了一下,也不行,列舉了一個文獻

3.最離譜,一篇文章有6個圖,投稿一般都會單獨把圖分頁,每頁就只寫一個單詞Figure 1 或者Fiugre 2.。。。。也算查重,列舉了一個文獻

有多少research,設備方法目的都相同,就是研究對象和結果不同,這樣的文章是不是 都沒法投了?

還有人表示作者相同,也是重複,簡直不可理喻啊!我看有的boss挺牛的,直接和雜誌社說,我的結果就是不同,不接受查重結果!

做個research真心累啊!


經歷過論文查重的小夥伴,相信都知道中國知網檢測系統,也都說它好,檢測的准,但是大家知道它為什麼准為什麼好嗎?知道它的原理嗎?今天小編帶你們了解一下。

首先就是要說的是資料庫,通過多年的經營以及與高校的合作,他的資料庫是相當大的,涉及範圍也非常廣,查重的範圍包括:中國學術期刊網路出版總庫、中國博士學位論文全文資料庫/中國優秀碩士學位論文全文資料庫、中國重要會議論文全文資料庫、中國重要報紙全文資料庫、中國專利全文資料庫、互聯網資源(包含貼吧等論壇資源)、英文資料庫(涵蓋期刊、博碩、會議的英文數據以及德國Springer、英國TaylorFrancis 期刊資料庫等)、互聯網文檔資源、圖書資源、學術論文聯合比對庫、CNKI大成編客-原創作品庫、大學生論文聯合比對庫等。

其次應該說的就是檢測演算法、檢測標準了。知網查重檢測系統原理是連續13個字相似或抄襲都會被紅字標註,但是還有滿足下邊的條件:你說抄襲的文字總和在你的各個檢測段落中要達到5%,如果13個字里有一半相似,會算一般疑似相似,了解這個對修改文章降低重複會有大有益處。

最後說一下,知網檢測報告單的標黃標綠部分。這個部分是知網查到的引用部分,就是說表明了出處的引用部分,這部分也是算在總的重複率裡邊的,同學們一定要把握好引用的數量。

下邊是一些關於知網的小問答,可以對知網有更深的了解

問:知網檢測是每句話每句話進行對比檢測嗎?一句話改一兩個字是不是就可以規避了?

答:系統採用的是語義級別檢測技術,系統檢測是自動分部分然後每部分進行對比檢測,並且會結合上下文的內容,對達到一定的語義級別的內容進行判定,並不是說單純的根據一兩個詞或者單獨的句子進行判斷。所以說單純的簡單的改一兩個字的修改效果不算好。

問:我大量地將自己以前的文獻用在了學位論文中,獨立發表的。請問,這算不算是學術不端?

答:本人以前發表的文章是可以用在學位論文中的,合情合理,知網檢測的時候也會在檢測結果中有明確的標示,這種情況下各個學校都會有自己的要求,有的算有的不算的。

問:知網檢測的時候圖表、公式檢測嗎?

答:到目前為止,對圖片格式的文件暫時還沒有計算到重複率裡邊。表格的內容是在文章中進行檢測的,整個表格現在也正在優化,有了相應的檢測。公式編輯器編輯的公式是圖片格式的,暫時還是不參與檢測的。


歪答一樓:

幾年前開始,arXiv都新增查重功能了。。。當某些論文提交上去之後,出現在大家視野里時,系統會自動的在comments一欄里寫道「跟XXXX論文,有重複的內容」。(好吧,我嚴禁一點說:首先,我不知道是否是系統自動加上去的,因為我的論文從未出現過這種情況,不過我猜測應該是這樣,否則哪個人會願意自己的論文下面加這麼一句。)

有的時候,是某個人重複提交了論文,比如本來是一篇準備投遞正式學術期刊的論文,後來遇到了某個會議要出文集,於是就改了個題目,又放到arXiv上,當另一篇會議文章。這種事情,是可以理解的,畢竟在我們圈子裡,會議論文其實是沒啥用處的,再多也只是擺設。而另一些情況是,某些人直接copy了另外一些人的文章。。。然後,這就是被赤裸裸的打臉了。。。


知網查重系統現在已經升級到5.0系統了,並增加了跨語言檢測功能,也就是說你將一篇國外的論文翻譯成中文也有可能會被查出來。

知網檢測演算法非常複雜,而其具體的演算法過程自然是保密的,不會公開的。經過文天下論文網幾百萬字的修改經驗總結,知網系統現在的演算法是以句子為單位進行檢測,演算法結合了關鍵詞匹配與順序模式識別的功能,與對比庫中的某一句話有50%以下的關鍵詞重複,或者有連續7個字以上的順序子句重複會被標出來。

就你這個情況,描述同一件事,必須要根據上述原則來。總之,一個原則,怎麼拗口怎麼說,怎麼彆扭怎麼說,越是說得不像正常人說的,越不會重複。


原理不知道,但我帶的學生,畢業設計論文查重都是一次過的,而且結果基本在個位數

一個是一定要加註,表明是引用

另一個就需要一些翻譯軟體的幫助


當我們寫畢業論文時會想到知網論文查重,當我們拿到不達標的檢測結果時我們會苦於不了解知網論文查重的規則及檢測原理而無從下手。降低重複率就好比一場戰爭,知己知彼方能百戰百勝;降低重複率需要對症下藥,因此我們必須了解知網論文查重的規則原理:

  • 1、知網論文查重由於是採用了最先進的模糊演算法,如果整體結構和大綱被打亂,可能會引起同一處的文章檢測第一次和第二次標紅不一致或者第一次檢測沒有標紅的部分第二次檢測被標紅。因此在修改重複內容的時候盡量變換句式,不要打亂論文原來的整體大綱和結構。
  • 2、整篇論文上傳後,系統會自動根據文章生成的目錄檢測該論文的章節信息,然後系統會將論文分章節檢測,可以獲得每一單章節的複製比同時目錄顯灰色不參與正文檢測;否則會自動分段按照1萬字元左右檢測,同時目錄有可能當成正文檢測,重複就會標紅。
  • 3、中國知網對該套查重系統的靈敏度設置了一個閥值,該閥值為5%,以段落計,低於5%的抄襲或引用是檢測不出來的,這種情況常見於大段落中的小句或者小概念。舉個例子:假如檢測段落1有10000字,那麼引用單篇文獻500字以下,是不會被檢測出來的。實際上這裡也告訴同學們一個修改的方法,就是對段落抄襲千萬不要選一篇文章來引用,儘可能多的選擇多篇文獻,一篇截取幾句,這樣是不會被檢測出來的。
  • 4、一篇論文的抄襲怎麼才會被檢測出來?知網論文檢測的條件是連續13個字相似或抄襲都會被紅字標註,但是必須滿足3裡面的前提條件:即你所引用或抄襲的A文獻文總字數和在你的各個檢測段落中要達到5%以上才能被檢測出來標紅。
  • 5、知網檢測系統會自動識別出參考文獻,參考文獻不參與正文檢測。並且進行剔除,在知網檢測報告中參考文獻顯示灰色字體,說明並沒有參與檢測。當然這是在參考文獻格式完全正確規範的情況下才會自動排除不會標紅。否則參考文獻會當成正文來進行檢測導致參考文獻全部標紅。結果增高!
  • 6、知網論文查重為整篇上傳,PDF或者Word格式對檢測結果可能會造成影響。因為上傳PDF檢測,PDF會比Word多一個文本轉換的過程,這個過程有可能會將你原本正確的的目錄和參考文獻格式打亂,目錄和參考文獻等格式錯亂,就會導致系統識別不正確而被標紅。特別對於那些有英文目錄和大部分英文參考文獻的論文,其英文占字元數很高。英文被標紅就會導致總結果大大增高。
  • 7、關於引用盡量引用整段話,如果引用單獨一句兩句,知網系統是根本識別不到具體你引用的是哪篇文章裡面的句子。所以引用盡量大段引用。並且引用的內容必須完全一致。

總結:根據這些規則原理,我們就可以針對性的去預防和修改來躲避知網論文查重系統的檢測。根據這些規則原理大可歸納為:論文排版格式是基礎,抄襲不能大片的抄襲,但引用要大段的引用。


推薦閱讀:

如何與國外導師交流?
如何看待許晨陽將加盟MIT數學系?
如何審稿?
神經經濟學(Neuroeconomics)在經濟學界的地位和前途如何?
中國的醫療器械水平?

TAG:學術 | 論文 |