AI說:你的書法有咖喱味丨看字識國別
來自專欄量子位
郭一璞 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
在電影《大偵探福爾摩斯》中,福爾摩斯能夠根據兩個英文字母的筆跡,判斷書寫者的才能與性格特點,識破對手的偽裝。
如此神奇的筆跡理論聽起來像是玄學,恐怕只能在小說電影中出現。現實社會中,利用筆跡來破案倒不是一件稀罕事。
但是,你聽說過AI也能判斷筆跡了么?
一個跨國研究團隊通過機器學習的演算法,讓機器從英文手寫的字跡中判斷書寫者來自中國、印度、馬來西亞、孟加拉國和伊朗中的哪個國家。
這個團隊包含中國、印度和馬來西亞研究人員,其中兩名中國研究者分別來自河海大學和南京大學。
亞洲五國英文書法
這項研究的基礎是來自中國、印度、馬來西亞、孟加拉國、伊朗五個國家的數據集。
研究者們找了每個國家100份英文書寫文本,總共500份數據。
正如上圖的例子所示,每個國家的人寫英文風格都有所不同。
比如,中國人寫英文就像寫漢字,橫平豎直,尤其是在「f」、「l」、「d」這些字幕上,豎著的筆畫頂天立地一般。
而印度人和孟加拉人寫的英文則完全不同,就像繡花一樣,筆畫圓潤、上下起伏明顯。
於是,他們根據筆畫的特徵,設計了下面這樣一套方法:
降噪後提取筆畫線條,識別字體數據的四種特徵:距離因素、主成分分析(PCA Direction)、通過Cloud of Line Distribution軟體進行的線分布特徵、描邊特徵,通過分類器判斷屬於五個國家的哪一種。
Cloud of Line Distribution(COLD)是一個分析筆畫的軟體,可以分解單個字母,測量筆畫的垂直度和彎曲度,進而判斷寫字者的國別。
五國人書寫的英文描邊特徵有巨大的區別。
而通過COLD分析筆跡關鍵點,可以變為極坐標系的展示形式,而五國筆跡的極坐標系圖有巨大差別:
綜合所有特徵,五國筆跡就有了他們特有的矢量特徵:
準確率比前人演算法翻倍
在最後的測試中,這套方法的確識別出了不少各種各樣的字體:
研究者們統計了一下這個方法的準確率
上圖中,下面的表格是前人研究的方法測試結果,可以看出,針對數據集中的每個國家,筆跡識別準確率都在40%左右,沒有過半;
上方的表格則是這次研究者們的測試結果,每個國家的筆跡識別準確率都在60%以上,平均達到了75%。
識別筆跡的國家到底有什麼用?
75%的準確率並不是一個多麼好看的數字,何況這是僅僅建立在5個國家的基礎上的。
畢竟,人們對這項技術的應用還有疑慮。或許它可以用在刑偵領域,以字跡結合人臉識別、生物識別等技術來判斷犯罪,但字跡的識別只能作為參考,有誤判的可能性。
不過,字跡作為個人的數據也可以被用來做營銷。想想去銀行填單子的時候留下了多少字跡,或許他們就會用字跡判斷國家,進而給你推送理財產品呢。
論文傳送門
A New COLD Feature based Handwriting Analysis for Ethnicity/Nationality Identification
作者:Sauradip Nag, Palaiahnakote Shivakumara, Wu Yirui, Umapada Pal, Tong Lu
Comments: Accepted in ICFHR18arXiv: https://arxiv.org/abs/1806.07072— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※台大林軒田機器學習課第十六講筆記:機器學習的三條原則
※Machine Learning 機器學習筆記
※泰坦尼克號辛存者預測
※機器學習面試題精講(一)
※(No.35)SVM(支持向量機)--知識串聯