AI說:你的書法有咖喱味丨看字識國別

AI說:你的書法有咖喱味丨看字識國別

來自專欄量子位

郭一璞 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

在電影《大偵探福爾摩斯》中,福爾摩斯能夠根據兩個英文字母的筆跡,判斷書寫者的才能與性格特點,識破對手的偽裝。

如此神奇的筆跡理論聽起來像是玄學,恐怕只能在小說電影中出現。現實社會中,利用筆跡來破案倒不是一件稀罕事。

但是,你聽說過AI也能判斷筆跡了么?

一個跨國研究團隊通過機器學習的演算法,讓機器從英文手寫的字跡中判斷書寫者來自中國、印度、馬來西亞、孟加拉國和伊朗中的哪個國家。

這個團隊包含中國、印度和馬來西亞研究人員,其中兩名中國研究者分別來自河海大學和南京大學。

亞洲五國英文書法

這項研究的基礎是來自中國、印度、馬來西亞、孟加拉國、伊朗五個國家的數據集。

研究者們找了每個國家100份英文書寫文本,總共500份數據。

正如上圖的例子所示,每個國家的人寫英文風格都有所不同。

比如,中國人寫英文就像寫漢字,橫平豎直,尤其是在「f」、「l」、「d」這些字幕上,豎著的筆畫頂天立地一般。

而印度人和孟加拉人寫的英文則完全不同,就像繡花一樣,筆畫圓潤、上下起伏明顯。

於是,他們根據筆畫的特徵,設計了下面這樣一套方法:

降噪後提取筆畫線條,識別字體數據的四種特徵:距離因素、主成分分析(PCA Direction)、通過Cloud of Line Distribution軟體進行的線分布特徵、描邊特徵,通過分類器判斷屬於五個國家的哪一種。

Cloud of Line Distribution(COLD)是一個分析筆畫的軟體,可以分解單個字母,測量筆畫的垂直度和彎曲度,進而判斷寫字者的國別。

五國人書寫的英文描邊特徵有巨大的區別。

而通過COLD分析筆跡關鍵點,可以變為極坐標系的展示形式,而五國筆跡的極坐標系圖有巨大差別:

綜合所有特徵,五國筆跡就有了他們特有的矢量特徵:

準確率比前人演算法翻倍

在最後的測試中,這套方法的確識別出了不少各種各樣的字體:

研究者們統計了一下這個方法的準確率

上圖中,下面的表格是前人研究的方法測試結果,可以看出,針對數據集中的每個國家,筆跡識別準確率都在40%左右,沒有過半;

上方的表格則是這次研究者們的測試結果,每個國家的筆跡識別準確率都在60%以上,平均達到了75%。

識別筆跡的國家到底有什麼用?

75%的準確率並不是一個多麼好看的數字,何況這是僅僅建立在5個國家的基礎上的。

畢竟,人們對這項技術的應用還有疑慮。或許它可以用在刑偵領域,以字跡結合人臉識別、生物識別等技術來判斷犯罪,但字跡的識別只能作為參考,有誤判的可能性。

不過,字跡作為個人的數據也可以被用來做營銷。想想去銀行填單子的時候留下了多少字跡,或許他們就會用字跡判斷國家,進而給你推送理財產品呢。

論文傳送門

A New COLD Feature based Handwriting Analysis for Ethnicity/Nationality Identification

作者:Sauradip Nag, Palaiahnakote Shivakumara, Wu Yirui, Umapada Pal, Tong Lu

Comments: Accepted in ICFHR18

arXiv: arxiv.org/abs/1806.0707

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀:

台大林軒田機器學習課第十六講筆記:機器學習的三條原則
Machine Learning 機器學習筆記
泰坦尼克號辛存者預測
機器學習面試題精講(一)
(No.35)SVM(支持向量機)--知識串聯

TAG:書法 | 人工智慧 | 機器學習 |