Python徒手實現識別手寫數字—圖像識別演算法(K最近鄰)

Python徒手實現識別手寫數字—圖像識別演算法(K最近鄰)

寫在前面

這一段的內容可以說是最難的一部分之一了,因為是識別圖像,所以涉及到的演算法會相比之前的來說比較困難,所以我盡量會講得清楚一點。

而且因為在編寫的過程中,把前面的一些邏輯也修改了一些,將其變得更完善了,所以一切以本篇的為準。當然,如果想要直接看代碼,代碼全部放在我的GitHub中,所以這篇文章主要負責講解,如需代碼請自行前往GitHub。

本次大綱

上一次寫到了資料庫的建立,我們能夠實時的將更新的訓練圖片存入CSV文件中。所以這次繼續往下走,該輪到識別圖片的內容了。

首先我們需要從文件夾中提取出需要被識別的圖片test.png,並且把它經過與訓練圖片相同的處理得到1x10000大小的向量。因為兩者之間存在微小的差異,我也不是很想再往源代碼之中增加邏輯了,所以我就直接把增加待識別圖片的函數重新寫一個命名為GetTestPicture,內容與GetTrainPicture類似,只不過少了「增加圖片名稱」這一個部分。

之後我們就可以開始進行正式圖片識別內容了。

主要是計算待識別圖片與所有訓練圖片的距離。當兩個圖片距離越近的時候,說明他們越相似,那麼他們很有可能寫的就是同一個數。所以利用這個原理,我們可以找出距離待識別圖像最近的幾個訓練圖片,並輸出他們的數字分別是幾。比如說我想輸出前三個,前三個分別是3,3,9,那就說明這個待識別圖片很有可能是3.

之後還可以對每一個位置加個權重,具體的就放在下一次再講,本節內容已經夠多了。

(第一篇文章之中我說過利用圖片洞數檢測。我嘗試了一下,認為有些不妥,具體原因放在本文末。)

MAIN代碼

所以直接把主要代碼放上來,邏輯相對來說還是比較清晰的

import osimport OperatePicture as OPimport OperateDatabase as ODimport PictureAlgorithm as PAimport csv##Essential vavriable 基礎變數#Standard size 標準大小N = 100#Gray threshold 灰度閾值color = 200/255n = 10#讀取原CSV文件reader = list(csv.reader(open(Database.csv, encoding = utf-8)))#清除讀取後的第一個空行del reader[0]#讀取num目錄下的所有文件名fileNames = os.listdir(r"./num/")#對比fileNames與reader,得到新增的圖片newFileNamesnewFileNames = OD.NewFiles(fileNames, reader)print(New pictures are: , newFileNames)#得到newFilesNames對應的矩陣pic = OP.GetTrainPicture(newFileNames)#將新增圖片矩陣存入CSV中OD.SaveToCSV(pic, newFileNames)#將原資料庫矩陣與新資料庫矩陣合併pic = OD.Combination(reader, pic)#得到待識別圖片testFiles = os.listdir(r"./test/")testPic = OP.GetTestPicture(testFiles)#計算每一個待識別圖片的可能分類result = PA.CalculateResult(testPic, pic)for item in result:for i in range(n):print(+str(i+1)+個向量為+str(item[i+n])+,距離為+str(item[i]))

相比上一篇文章的內容,本篇文章里只增加了下面的的一段代碼,即得到待識別圖片名稱、得到待識別圖片向量、計算分類。

下面我們將著重講解CalculateResult函數的內容,即識別圖片的演算法。

演算法內容

演算法大致講解

我們在大綱之中已經簡單介紹過了,所以我就直接把複製過來,並且再添加一些內容。

假設我們在二維平面上有兩個點$A = (1, 1)$和$B = (5, 5)$,我現在再放一個點$C = (2, 2)$,那麼請問,$C$點離哪一個更近?

學過初中數學的都會知道肯定是離$A$點更近。所以我們換一種說法,我們現在有兩個類A和B,A類中包括了點$(1, 1)$,B類中包括了點$(5, 5)$,所以對於點$(2, 2)$,它**可能**屬於哪一類?

因為這個點離A類的點更近一點,所以它可能屬於A類。這就是結論。那麼對於3維空間,A類是點$(1, 1, 1)$和B類是$(5, 5, 5)$,那麼對於點$(2, 2, 2)$肯定也是屬於A類。

可以看出,我們這裡是將**兩個點的距離**來作為判斷屬於哪一類的標準。那麼對於我們將圖片拉成的1xn維向量,他實際上投影到n維空間上就是一個點,所以我們將訓練向量分成10類,分別代表十個數字,那麼被識別數字靠近哪一個類,那說明它有可能屬於這一個類。

那麼我們這裡可以假設對於被識別向量,列出距離他最近的前十個向量分別屬於哪一類別,然後根據名次加上一個權重,並計算出一個值。該值代表了可能是屬於哪一個類,因此這就是我們得出的最終的一個結果——被識別手寫數字圖片的值。

以上是第一篇文章中的內容,下面我著重講一下數學方面的內容。

考慮到某些地方不能夠輸入數學公式(或不方便輸入),我還是把這一段內容貼成圖片出來。

之後直接挑出前幾個離被識別圖片最近的向量數字,基本上這幾個數字就是被識別圖片的數字了。但這樣做未免有些簡單,所以下一篇文章我會再深入一下,這張先講計算距離的內容。

主代碼

下面的代碼中文件夾test用來存放待識別圖片,並通過函數GetTestPicture來得到圖片向量,之後和訓練圖片pic一起放進計算距離的函數CalculateResult中計算每一個待識別向量和其他所有圖片向量的距離。

#得到待識別圖片testFiles = os.listdir(r"./test/")testPic = OP.GetTestPicture(testFiles)#計算每一個待識別圖片的可能分類result = PA.CalculateResult(testPic, pic)for item in result:for i in range(n):print(+str(i+1)+個向量為+str(item[i+n])+,距離為+str(item[i]))

函數CalculateResult在文件PictureAlgorithm.py中,這個文件裡面包含了兩個函數為CalculateDistance函數和CalculateResult函數,代表識別圖片所用到的演算法。

函數CalculateResult

這個函數的邏輯比較簡單,也沒什麼好說的,主要的聯繫就是這個計算距離的CalculateDistance函數。

def CalculateResult(test, train):計算待識別圖片test的可能分類#得到每個圖片的前n相似圖片 testDis = CalculateDistance(test[:,0:N**2], train[:,0:N**2], train[:,N**2], n)#將testDis變成列表 tt = testDis.tolist()#輸出每一個待識別圖片的所有前n個for i in tt:for j in i:print(j)

函數CalculateDistance

函數中我導入了四個參數:被識別向量test,訓練向量train,與訓練向量對應的每個向量對應代表的數字num,想要導出的前n個距離最近的向量。

def CalculateDistance(test, train, num, n):計算每個圖片前n相似圖片#前n個放距離,後n個放數字 dis = np.zeros(2*n*len(test)).reshape(len(test), 2*n)for i, item in enumerate(test):#計算出每個訓練圖片與該待識別圖片的距離 itemDis = np.sqrt(np.sum((item-train)**2, axis=1))#對距離進行排序,找出前n個 sortDis = np.sort(itemDis) dis[i, 0:n] = sortDis[0:n]for j in range(n):#找到前幾個在原矩陣中的位置 maxPoint = list(itemDis).index(sortDis[j])#找到num對應位置的數字,存入dis中 dis[i, j+n] = num[maxPoint]return dis

首先建立一個行數為test內被識別向量數量,列數為2*n的矩陣,每一行前n個放距離,後n個放數字。之後針對每一個被識別向量進行循環。

首先直接計算每個訓練圖片與該識別圖片的距離,直接可以用一行代碼表示

itemDis = np.sqrt(np.sum((item-train)**2, axis=1))

這一行代碼就是上文中的演算法過程,我個人覺得還是比較複雜的,可以詳細的拆開看一下,我這裡不細講了。下面的內容就是開始排序並且找到距離最近的前幾個向量。

這裡的邏輯是:先排序,找到距離最小的前n個,存入矩陣。找到前n個在原矩陣中的位置,並找到對應位置上num的數字,存入dis的後n個。

這樣子就相當於完成了所有內容,返回dis即可。

實際測試

我自己動手寫了一些數字,如圖所示。所以實際上我們的資料庫還是比較小的。

所以我又寫了一個數字作為待識別圖像,通過程序運行以後,我們的以直接輸出前十個最相似的向量:

第1個向量為2.0,距離為33.62347223932534第2個向量為2.0,距離為35.64182105224185第3個向量為2.0,距離為38.69663119274146第4個向量為2.0,距離為43.52904133387693第5個向量為2.0,距離為43.69029199677604第6個向量為1.0,距離為43.730883339256714第7個向量為6.0,距離為44.94800943845918第8個向量為2.0,距離為45.033283944455924第9個向量為4.0,距離為45.43926712996951第10個向量為7.0,距離為45.64893989116544

之後我又依次從1-9試了一遍,我自己手寫的數字全部識別正確,可以看出準確率還是挺高的。所以做到這一步相當於已經完成度很高了。

所以我就試了一下從網上找的圖片,發現幾乎沒有正確的了。說明我們的資料庫還是太小,只認得我的字體。不過話說這樣,也可以做一個字體識別的程序。

所以如果要提高準確率,那麼擴大圖庫是必須的。這一次就到這裡。

總結

所有源代碼我都放在了我的GitHub中,如果有興趣的話可以去看看。

到這裡就相當於演算法內容寫完了,比較簡單,只用了一個類似於K最近鄰的演算法。

下一篇文章將會講一個給前n個排名加權的想法,這樣來提高準確度。

所以這一次就先到這裡為止,謝謝。

如果喜歡的話,麻煩點一個贊和關注一下噢,謝謝~

P.S. 知乎的代碼編輯也是尷尬,粘貼上來縮進全亂了

推薦閱讀:

Day10,遞歸函數,遍歷目錄
有沒有什麼東西是 Go 可以做但 Python 做不到的?
Kaggle實戰:泰坦尼克號生存預測
黃哥分析如何用python解決特殊文本文件問題

TAG:Python | 圖像識別 |