英文論文的查重系統中連續多少個單詞重複的情況下會被檢測到?

中文論文查重中 連續12個字重複 就會被系統檢測到 已經是公開的秘密了。。作為一名用英文寫畢業論文的苦逼社科類留學黨,弱弱地求教一下:像Turnitin 這樣的查重系統一般是以 「多少個單詞的重複」 為單位進行檢測的??


我曾經看過TURNITIN的詳細檢測報告,這個東西簡直邪門的驚人。基本上每句話里,抄襲五個單詞以上(不管你怎麼變換順序,主動被動什麼的),它都會檢測出來,但這個時候比例很低,可能1%都不到,無傷大雅。但是如果你下一句話也是這樣的情況,出自同一篇paper,這個比例一下子就升上去了。然後你會想到用同義詞替換,對吧。可惜,TURNITIN也能檢測出來句子結構是抄襲的。甚至你把一個段落里的每句話都改掉,它也會檢測到段落結果是抄襲的(這都是血的教訓TAT)。由於TURNITIN過於強大,我的BOSS基本是允許抄襲率在10%以下的,超過10%就不行了。
總之一句話,如果你的老師用TURNITIN,基本別想著用任何方式「摘抄」了。都是徒勞的。我曾經做過實驗,把一段話改到自己都認不出來了,grammarly(另一個著名的檢測抄襲的網站)已經檢測不出來了,但是TURNITIN還是可以檢測出來。所以人家不是白白貴那麼多的。
另外,Reference是不檢測的。


既然受到邀請,就仔細回答一下

TURNITIN這個系統的目的在於防止抄襲,可以看做多他人學術成果的一種保護和尊重。對於那些自己認真寫論文的人來說是有著積極意義的。換言之——如果樓主屬於自己認真寫論文的那一類人,那麼這個系統是在保護你,你的立場與這個系統的立場具有一致性,所以並不需要特別擔心。

連續多少單詞能被該系統視為重複和是否會被判定為抄襲是兩個概念。我認為樓主更需要的是防止被判為抄襲,而不是去糾結怎麼不重複。原因很簡單,論文里不可能沒有引用,有引用就難免重複,既然引用是合法合理的,那麼就會有合法合理的重複。樓主真正需要做的是讓自己的論文合法且可被認定為合法。

那麼如何做呢?三條:

1 論文確實是自己寫的。尤其是,所有的主要論點也就是ARGUMENTS都是自己得出或總結出且用自己的語言表述出的。

2 使用學校要求的引用系統做引用,批註和參考文獻。

3 盡量避免直接引用。直接引用的字數不超過總字數的10%為佳。多使用間接引用和改寫。改寫的訣竅是:把原文的意思換成自己的理解用自己的話說出來,而不是簡單改幾個詞。

做到如上三點,會不會被軟體發現重複都不會影響你的成績了~

以上。

補充:
1 所有拿來之物都必須註明,包括直接引用,間接引用,改寫或者某個作者的觀點被你使用。這與正文中倡導改寫無衝突。
2 改寫不是同義詞替換,必須使用自己的話表述你在文中理解到的意思。
3 以上基於哈佛系統,不考慮芝加哥系統和其他系統


在英國做了三年助教改了無數學生論文,TurnitIn我還是比較熟悉的,我也給Master的同學專門上過關於Referencing and plagiarism的workshop。
秀一下我的PPT

大概說一下吧:


1. 任何形式的想要抄,多抄少抄基本你都逃不過TurnitIn的檢索。我們閱卷的時候,是可以看到你這句話裡面那幾個單詞是抄自於哪一個文章中的哪幾個單詞。這個時候只要點擊被TurnitIn標記出來的抄襲部分,就會出現一個文字筐,我們就可以看到原文。因此你就算是換了一半的文字以及打亂順序,我們閱卷只要一看就知道。(很重要的一點,你讀的文獻你導師大部分都讀過很多次了,你想懵哪有那麼容易。

看上面這兩張圖,紅色的地方一點,就會彈出原文。

2: 文中所有的東西都會被檢測,因此合格的引用也會被算進去,因此學校一般會有一個容忍限度。這也是為什麼我們不能完全用機器閱卷的原因呀。如果有些同學就是引用了非常多原文,超過20%,有些人甚至到35%,我一直教大一因此導師比較容忍,這種情況我們判為「poor referencing」,會稍微減一點分,但沒有大問題,前提是學生嚴格按照引用格式給出了citation和reference。如果純粹的抄襲超過20%我們就會扣分了,到30%以上就會有掛科的危險了。不過有時候我們也會看你抄的好不好。大多數抄到這麼多的同學論文本來也寫得不好,給四十分或者掛掉都正常。但不排除個例寫得特別好,把抄襲的東子連貫的特別好可能稍稍多給點分,但抄到20-25%基本不可能給60。

3. 寫得特別認真,引用了非常多文獻,turnitIn卻顯示相似度很高的,不用擔心。只要你嚴格按照引用格式,而且一看就是自己做了很多research,查了很多文獻寫出來的。我們一看就知道。就算TurnitIn都標記出來我們一看就知道你是正規的引用。有些學生寫2000字論文引用文獻list有兩頁紙的都有,而且格式寫得好就一定會被TurnitIn檢測到,沒關係,我們會心算減去那些部分的。這樣精緻的文章就算到20%都不影響我們評分。

4. 如果是正規引用,檢測卻超過20%呢。那麼你就要反思你的學術協作方式了。(哈哈我要把我教課的PPT拿出來啦)

常見的引用方式有這三種,直接引用,釋義,綜述。最好的方式是釋義。

a,直接引用,不同多說就是一字不改。根據引用長短不同分為短句引用,直接寫在段落里,或者太長的就要單獨列一個段落。看圖

b,釋義,也就是說你要轉述文獻,但你要用自己的話講出來。你不能只是換幾個單詞或者換順序,這都是屬於抄襲。釋義一般來說與原文長度差不多。請看下圖合格的以及不合格的釋義手法。

釋義其實還是很考驗功底的,如果你做不到。就換成直接引用吧。那樣安全,只是論文質量不高。

c,綜述,這種一般來說你需要很簡略地概括一下好幾頁文獻的內容,你並不需要太多累贅的引用原文,你只需要把它的意思概括一下。有時候甚至用一兩句話概括一本書。這時候的方式是summary。summary和quotation都不宜用太多。paraphrase才是引用的主導。請看下圖是summary的例子。

也是超需要功底的。

總之我看論文,看考卷也不下幾百份了,總而言之寧願寫得差,也不要抄。寫得差還有感情分,寫的努力更是有。抄襲那就是完蛋。還有就是那些天天加你們微博的論文代寫告訴你們說他們可以查TurnitIn不僅系統也是騙你的。TurnitIn不論世界各地只要進過該系統的文章全部入庫啦。所以改自己以前其他科目交過的論文。或者改上幾屆的論文,或者借別的學校同學的論文統統都會查出來。我曾經有別的學院的助教聯繫我說她們系大二的學生交了一篇他曾經大一在我們系那門課交過的論文。TurnItIn查出來100%,我們就無語了。

好吧先說這麼多,我上面東西都只適用於文科,理工科寫作我覺得根本就是另外一個世界所以我不做保證(像理工科那種寫論文一定要用精確字眼,在文科這裡尤其不能寫,我們天天寫文章就各種may,might,could be)


------本文嚴禁在未經本人同意的情況下轉載,All Rights Reserved---------------------------------------
已填坑
上截圖前我們先確定一下分析的方法
首先分成兩大類即citation和quotation
因為citation有些複雜所以先說quotation,再一點點的測試citation
以我論文里的一處quotation為例,並佐以Turnitin的分析

這段quotation已經被Turnitin檢測到,然後是Turnitin給出的理由

我們可以發現Turnitin是有理有據的,然後Turnitin提供了與這段類似的其它essay

我們可以發現Turnitin是很神奇的啊,他彷彿就是所有大學生的essay雲啊,我猜測Turnitin應該也是基於大數據挖掘的某種東西。
哦,對,忘了說了他給我判定的相似率

其實還是要強調一點Turnitin檢測的是相似度不是抄襲度,所以我們還應該以一個平常心去面對。
接下來是分析citation了,我相信這才是題主最關心的,於是我們做個試驗將剛才的quotation改成citation,
1.首先我們改變句子的語序和主被動看看能否被檢測出來,先上圖

這段話中我們改變了整體句子的語序,可見如果只是簡單的換下先後位置是沒有用的,依然能檢測出來,但當我們改變句子語義並變換動詞後『lead』後就會發現Turnitin不會把他當做相似內容,即使使用了相同的名詞alliances and circumstances, 甚至名詞位置順序不變都不會再被計入相似度內。
我們再來看另一種,如果我將原先是一段的句子拆分成兩個分別放在不同段落會怎樣呢

原諒我在這偷了個懶,可見Turnitin也不傻依然會被檢測到,而且還會被歸為同一類
接著是Turnitin走流程的提供的分析

再然後是Turnitin給的有相似段落文章的地址

為了檢測動詞是不是至關重要的被檢測相似度的依據我們來換個詞代替flow並將此句子變成被動,但意思可能就變了,唉答主英語水平有限....

可見動詞並不是關鍵詞,關鍵的應該還是英文的邏輯,假如我們改變其中名詞的順序會發生什麼呢?讓我們測試一下

我們可以發現在改變了單詞順序的情況下Turnitin已經不再把這段話算作相似段落了。至此我相信大家應該都明白了些什麼了吧。
總結一下就是,Turnitin檢測相似度的原理顯然不同於所謂的中文字數的重複檢測原理,Turnitin檢測的是句子在語法上的邏輯,這與單詞是否重複是沒有關係的,只要你使用了不同的邏輯來表達相同的話就算你重複的單詞再多也是不會被檢測出來的。嗯,以上。
只看不贊沒有小雞雞哦


turnitin以我的使用經驗是連續5個詞就會被查

這玩意真的很傻,很多專用術語就這麼長了。
而且學術上很多東西是有固定表達方式的,改了反而奇怪。
我老闆就很瞧不起這個東西,覺得沒啥用。另外一個老闆說的觀點更霸氣:比例太低了不好,說明你的表達方式和學術主流不一致,寫的有問題。
當然了,因為我們生物這類理科實驗科學,只要實驗結果是自己的,老闆就不會認為你這是抄襲,社科類可能不一樣。

當然我也見過有人查出來0%的。因為turnitin收錄的期刊不全,主流的學術方向,就很容易中招,而偏門方向的,可能它只收了abstract沒花錢買全文,那麼就不容易查到。

再一個,查的時候別貼reference,因為會全部中招~ 100%吻合嘛~


建議你搜索一下BLAST演算法,這是一個經典的序列比對演算法。最初是生物信息領域用於DNA比對分析(包括血緣分析什麼的)。

後來,有一篇經典的論文用這個演算法去分析謠言的傳播路徑。簡單來說,就是我們常常收到的那種「把這封信發給10個朋友,你就能獲得幸福……」,隨著郵件流傳,會越來越長,人們會在裡面添加自己的文字。BLAST演算法能夠很清晰的分析出各個版本的謠言郵件的血緣關係。

接下來,這個演算法及其衍生改進演算法就被用於網路上類似帖子的傳播分析,以及文獻抄襲的自動篩選確認了。


比例太低了不好,說明你的表達方式和學術主流不一致,寫的有問題。。。。。。。。。。。。。中槍啊 我碩士論文3%
這個 其實吧 只要都是自己寫的 不用查也會過的吧 就比如你看到某某人的什麼研究 或者一個什麼理論 就算它寫的很好了 看一眼然後按掉 在自己的文章里再用自己的話寫出來 如果你不能概括或者換種說法表達出來 說明你沒有理解透徹它到底在說什麼嘛 反正我覺得這個還蠻有意思的 除非這幾個字這種排列方式有特殊的意義(比如是一句人盡皆知的名人名言) 不然改寫一下都是蠻有必要的
另外Turnitin就算那個數字高了也沒關係的 它會把標出來的字句分類 像有人說的一個術語很多連續的字 你們要仔細看Turnitin報告 它是能分辨出來不假思索的抄襲 不合適的改寫段落(就是一句話主謂顛倒 從句換個位置這種低級伎倆) 加了reference的合理引用 和學術術語神馬的


被turnitin折磨了一年多了,similarity基本控制在5%以下。真心太低的話,總會被批有些用詞奇怪,每次看到這種就在心裡OS:不奇怪similarity就高了好么。
做到similarity低基本幾個方法
1.多加citation。尤其是你真的要引用的句子 一定要加citation,這能很好的幫你解除你直接「摘抄」被判similarity的一個好辦法,當然記得加引號。
2.改寫。這種改寫大家都有各自的方法,基礎就是改同義詞。但是只是改同義詞肯定過不了turnitin。我喜歡的一個方法是把你想用的一句或者一段或幾段話,抽出一個主旨來,或句子或短語或詞。把能夠用同義詞替換的替換掉,然後重要的步驟來了,打亂+擴寫。一個詞擴成一兩句話,一句短語擴成三四句話,一句話打亂擴成一段話。再加深一步,找到相同topic的文章里的句子,和你要用的句子 揉在一起寫。
3.多加「自己的話」。可能你完全「摘抄」了一個短語,半句話,打亂他們,把他們拆成幾句話,然後在每句裡面至少揉進半句你自己原創的話,或連接上下文用,或進一句解釋,或用上別的文章。

這些步驟看起來自己要花很多功夫,其實熟練了,速度不在話下。我上一篇essay,2000字,找reference一個下午,寫花了大半天。

總之一句話,讓turnitin相信一句話里至少80%是你自己的,就成功了。


我的碩士論文加上reference turnin上40%,這玩意很邪門,因為我碩士論文跟我大學論文課題相近,它居然能把我大學時寫的論文給找出來(最神奇是我寫碩士論文沒有參考自己大學論文的,只是寫作習慣和用詞相近)。如果你想不引用換換單詞調整一下句子結構就用別人的觀點,我勸你死了這條心吧............


我看到都在說是5個以上會標註,但我之前(偷)看過老師在TurnItIn系統上的報告,行業專業辭彙,只要是3個連在一起的,都被標註了出來.根據個人感受,這個系統還是比較笨,但標註後,有利於人工的二次審查.

其實真不要在意這些細節,一步一步的,按照學校規定來,特別的,可標可不標的都標註,這樣,不會有實質性影響的.


知網檢查是按照句子結構以及句中詞語和其他論文的吻合度測出來的。不過 ,測的很細,有時候一個長句,它會自動划出幾個部分測試!因此,如果有慣用的較長短語最好簡化。我能說last but not least, as a matter of fact, from the dialog 這種是百分百重么!


連續十二個字重複?沒這麼寬吧。有些時間了。所以記不清具體了。不過我記得papperpass可是給標題專業名詞標紅了。還是我記錯了?


親!可以給我一份嗎?我想作為參考!謝謝!yaoyin@vip.163.com


你們覺得某寶上turnitin檢測會和學校的是一樣的嗎?尤其是UK版本,為啥我的論文除了第一次有一句話被標註顯示重複率5%其他三次論文都是0%而且換一家查還是零。我都覺得不靠譜,是不是假的...


我查了一下我的thesis其中一章,那章是我製備材料的內容,基本上都是自己寫出來的,結果一查說重複率18%。當時嚇尿,看完之後很無語,因為各種專業名詞全部標出,我做的是XXXX,結果全部的XXXX都被標出來說重複了...

不過英國的老師好像都是先標出來,然後看是不是真的重複。所以如果是自己寫的應該都還好。


聽說是4個喲,我覺得還挺靠譜的……

根據我的經驗
看中文文獻,自己中翻英…不會很高的……
看英文文獻改寫就不一定啦……
選擇那種方法,還是要參加自己的英文水平,閱讀能力及偏好~


我是格拉斯哥大學D,當年是10%以內即可~


我們學校就是用turnitin的~

所以學校給了我們一份十分詳盡的academic writing的referencing guide,只要認真看了認真參考,都按照上面的要求來的話,一般不會有抄襲風險,除非那邊東西你真的不是自己寫的=_=

===================================

兩年過去了沒想到需求還是不少

為了方便我已經把這個guide上傳到微雲:微雲分享

請有需要的朋友自行去下載吧:)


推薦閱讀:

如何在設計的問卷中對職業的種類進行劃分?

TAG:學術 | 畢業論文 | 英文論文 |