1億中國人已被AI批改過作業

06-07

1億中國人已被AI批改過作業

來自專欄量子位

夏乙舒石發自凹非寺

量子位出品 | 公眾號 QbitAI

你被機器批改過作業么？

最近，老外特別關注AI在中國教育界的進展，例如人臉識別進課堂、高中AI教材出版等等，這一次關注的焦點是：AI代替老師批作業。

起因是，英文媒體《南華早報》最近有篇報道[1]說，中國有大約6萬所學校都在用人工智慧來批改學生的作業，每四所學校中就有一所在用。

這些學校分布在各地，四川、山東、安徽、北京……

學生們提交的英文作業，打分交由機器完成，而不是人類教師。作文批改系統，要比Word的拼寫檢查複雜得多。它能夠理解文字的一般邏輯和意思，對作文的整體質量做出像人一樣合理的評判，還要在寫作風格、結構、主題等方面給出改進建議。

據說，92%的情況下，AI和人類教師對一篇作文的評分是一致的。

這個籠罩6萬所學校的人工智慧，就是句酷批改網。在它的背後，是一個多所高校和公司共同推進了近10年的項目：語言智能評測關鍵技術及應用。

數據顯示，這個機器教師的學生已經達到1.2億，還覆蓋了北京90％高校，以及所有區縣的中學。但它也像一道分水嶺，有些人壓根沒聽過。這一點也不奇怪。要知道2016年底，這個服務覆蓋的學校才6000多所。

也就是說，一年之間，它覆蓋的學校數量增長了900%。

「高分秘籍」

學生對機器批改作業，感受如何？

一個可見的情況是，你能輕鬆從微博上找到各種吐槽。

比如：

「生活所有的痛苦都來自英語批改網和老師的公郵」

「受了批改網一肚子氣」

「就像相信批改網是垃圾。即使在批改網的排名是倒數也不影響就是這樣堅定地上交的決心」

說起這些，量子位的一枚同事，默默地貼出她被批改網「支配」的往事：100多字的英語短文，修改了40多次。

當人把命運交到機器手裡，心中總是有點不服氣。

於是不斷有人試圖證明，機器評分這套系統，不過爾爾。比如此前未來網就在報道[2]中提及此事。

網友「TroyS」反映，一次專門到網上查到批改網各種高分表達並且用到作文里，提交後得了86分，修改語法錯誤後分數變為91.5分。此後，該網友把「高分表達」刪除，試著用普通表達後，評分還是91.5分。再後來，試著刪掉最後一段、試著刪掉最後兩段，提交後的分數也都仍然是91.5分。但更令其吃驚的是，當該網友把最後兩段又貼回去後，分數變成了90分，並且此後修改了17次之多，但分數沒變過。

知乎網友「猴賽雷」也提到，通過使勁重複題目要求中的詞和句子、貫穿全文，結構以「首先、其次」這類「八股文模式」照搬，文內多加六級高級辭彙和句式等，再加上批改網推薦替換的辭彙都用上，最後就能得到高分，但是內容驢唇不對馬嘴。
未來網記者將網上找的《假如給我三天光明》的英文節選粘貼到批改網上，提交後得分85.5分，並提示標題「假如給我三天光明」的英文表達「疑似謂語缺失」。根據文後的按句點評修改兩處提交後，得分仍為85.5分。然而，當記者刪掉最後一段後，得分變為了86分。接著，記者又刪除第一段，提交後得分變成了86.5分。當記者再將第二段刪除後，分數又變成了86分。

總而言之一句話，機器批改作業，確實還有很多不完善的地方。

一位自稱曾經是批改網研發的用戶也表示，「批改網的批改原理是用多維度加權平均來給你打分。如果一個維度權重很重，你剛好改了之後這個維度的值降了，一加權自然就分數低了」。

「同學們加油，是機器就有漏洞，就看你們能不能總結出規律了。」

背後原理

機器到底是如何批改作業的？

在批改網的官方頁面上，對於背後技術的闡釋如下。

批改網的原理通過對比學生作文和標準語料庫之間的距離，並通過一定的演算法將之映射成分數和點評。

2014年多知網的一篇報道中[3]，批改網創始人講述了更多的細節。我們摘錄如下。

批改網修改作文的原理是，作文提交後，網站將作文從「辭彙」、「句子」、「篇章結構」、「內容相關度」4個大類192個維度進行拆分，每個維度都會與批改網建立的英語本族語語料庫(即國外英語文章的素材)作對比。語料庫越豐富，對比的客觀性就越高，機器批改與人工批改的一致率就越高。
比如，在作文中經常出現「learn knowledge」這樣的中式英語。將這樣的語言搭配與語料庫資料對比後發現，以英語為母語的國家中，使用「learn knowledge」的頻率為0次，使用頻率最高的是「have knowledge」。所以，會建議學生使用「have knowledge」。

再提供點新信息，根據《2018年國家科學技術進步獎項目提名公示》中披露的內容顯示，批改網背後的技術「歷經近10年的潛心研究」。

其中列出的五個主要的創新點包括：

1、首次提出全信息語言評測模型 2、構建大規模評測本體知識庫 3、構建大規模評測語料庫和規則庫 4、提出篇章主題聚合度模型 5、提出文檔自動編輯和轉換模型。

大概就這樣吧。

不管細節怎樣，總有質疑說機器批改打分的價值不大，目前仍有一些不足云云。但是，這套系統可能真的擊中了老師的痛點。官方也把這個作為宣傳的重點：

老師們問什麼要使用批改網呢？
上海交通大學的胡開寶教授說，批改網可以減輕老師負擔，提高學生學習積極性；清華大學楊芳老師：」以前學生追著我問『老師你改了沒有？『，在使用批改網後我追著學生問『作文交了沒有？』「。

系統的開發者們把它定位成一種輔助工具。對於缺乏教育資源的偏遠地區學生來說，一個批改作文的AI能為他們帶來不錯的寫作訓練；對於一般的學校來說，它能幫老師們搞定堆積如山的作業，加快批改的速度。

然而根據《南華早報》的報道，老師們對作文批改AI的信任度並不是很高。老師們依然認為，這個系統還不能算完美，有些很好的作文得不到高分。

其實，在作文批改AI出現更早的美國，機器打分早已有了更大膽的應用。

測試機構ETS的作文評分系統e-rater，從2010年開始，就開始正式參與托福考試作文的打分，一個人類評分員和e-rater給出的分數一平均，就成了托福作文的得分。

而這次被英文媒體關注的中國批作業AI，老師們也只是在日常作業和小測驗中使用AI來批改打分，真正的考試，還不敢交給它。

就醬。

[1] SCMP：China』s schools are quietly using AI to mark students』 essays … but do the robots make the grade?

http://www.scmp.com/news/china/society/article/2147833/chinas-schools-are-quietly-using-ai-mark-students-essays-do

[2] 未來網：批改網讓學生不再質疑分數？英文原著「打臉」智能批改實力

http://m.edu.k618.cn/ycbd/201801/t20180130_15146364.html

[3] 多知網：句酷批改網：用機器批改作文的創業故事

http://www.duozhi.com/company/20141124/2412.shtml

— 完 —

歡迎大家關注我們的專欄：量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態