如何理解機器學習?

簡介:百度問咖(大咖線下約見平台)職場技能、產品領域專業大咖。

每天都在看這些故事和文章。和大家聊聊。機器學習機器學習,百度機器學習也在努力。

機器學習(MachineLearning),在我看來就是讓機器學習人思維的過程。機器學習的宗旨就是讓機器學會「人識別事物的方法」,我們希望人從事物中了解到的東西和機器從事物中了解到的東西一樣,這就是機器學習的過程。在機器學習中有一個很經典的問題:

「假設有一張色彩豐富的油畫,畫中畫了一片茂密的森林,在森林遠處的一棵歪脖樹上,有一隻猴子坐在樹上吃東西。如果我們讓一個人找出猴子的位置,正常情況下不到一秒鐘就可以指出猴子,甚至有的人第一眼就能看到那隻猴子。」

如何理解機器學習

那麼問題就來了,為什麼人能在上千種顏色混合而成的圖像中一下就能識別出猴子呢?在我們的生活中,各種事物隨處可見,我們是如何識別出各種不同的內容呢?也許你可能想到了——經驗。沒錯,就是經驗。經驗理論告訴我們認識的所有東西都是通過學習得到的。比如,提起猴子,我們腦海里立刻就會浮現出我們見過的各種猴子,只要畫中的猴子的特徵與我們意識中的猴子雷同,我們就可能會認定畫中畫的是猴子。極端情況下,當畫中猴子的特徵與我們所認識某一類猴子的特徵完全相同,我們就會認定畫中的猴子是哪一類。

另一種情況是我們認錯的時候。其實人識別事物的錯誤率有的時候也是很高的。比如,當我們遇見不認識的字的時候會潛意識的念字中我們認識的部分。比如,「如火如荼」這個詞,是不是有朋友也跟我一樣曾經念過「如火如茶(chá)」?我們之所以犯錯,就是因為在我們沒有見過這個字的前提下,我們會潛意識的使用經驗來解釋未知。

目前科技如此發達,就有牛人考慮可不可以讓機器模仿人的這種識別方法來達到機器識別的效果,機器學習也就應運而生了。

·························

大數據平台的統一性。因為隨著Spark特性,分析團隊越來越喜歡用Spark作為大數據平台,而機器學習/深度學習也離不開大數據。

如何理解機器學習

·························

從根本上說,識別,是一個分類的結果。看到四條腿的生物,我們可能會立即把該生物歸為動物一類,因為我們常常見到的四條腿的、活的東西,九成以上是動物。這裡,就牽扯出了概率的問題。我們對身邊的事物往往識別率很高,是因為人的潛意識幾乎記錄了肉眼看到的事物的所有特徵。比如,我們進入一個新的集體,剛開始大家都不認識,有的時候人和名字都對不上號,主要原因就是我們對事物的特徵把握不夠,還不能通過現有特徵對身邊的人進行分類。這個時候,我們常常會有這種意識:哎,你好像叫張三來著?哦,不對,你好像是李四。這就是分類中的概率問題,有可能是A結果,有可能是B結果,甚至是更多結果,主要原因就是我們的大腦收集的特徵不夠多,還無法進行準確分類。當大家都彼此熟悉了之後,一眼就能識別出誰是誰來,甚至極端情況下,只聽聲音不見人都能進行識別,這說明我們已經對該事物的特徵把握相當精確。

所以,我認為,人識別事物有四個基本步驟:學習、提取特徵、識別、分類。

那麼機器可不可以模仿這個過程來實現識別呢?答案是肯定的,但是沒有那麼容易。難題有三:第一,人的大腦有無數神經元進行數據交換和處理,在目前的機器中還達不到同等的處理條件;第二,人對事物特徵的提取是潛意識的,提取無意識情況下的信息,誤差很大;第三,也是最重要的一點,人的經驗來自於人每時每刻的生活中,也就是人無時無刻都處在學習中,如何讓機器進行各個方面的自主學習?因此,目前在人工智慧領域始終還沒達到類人的水平,我認為主要原因就是機器沒有潛意識。人的潛意識其實並不完全受人的意識支配,但卻可以提高人類識別事物的概率。我們無法給機器載入潛意識,因為主動載入的意識就是主觀意識,在機器里無法完成人類潛意識的功能。所以,以目前的發展情況來看,要達到完全類人,還有不短的時間。但即便如此,與人的思維差別很大的機器依然可以為我們的生活帶來幫助。比如,我們常用的在線翻譯、搜索系統、專家系統等,都是機器學習的產物。

那麼,如何實現機器學習呢?

整體上看,機器學習就是模仿人識別事物的過程,即:學習、提取特徵、識別、分類。由於機器不能跟人類思維一樣根據事物特徵自然而然的選擇分類方法,所以機器學習方法的選擇依然還需要人工選擇。目前,機器學習的方法主要有三種:監督學習、半監督學習和無監督學習。監督學習是利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程。白話一點,就是根據已知的,推斷未知的。代表方法有:Nave Bayes、SVM、決策樹、KNN、神經網路以及Logistic分析等;半監督方法主要考慮如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類的問題,也就是根據少量已知的和大量未知的內容進行分類。代表方法有:最大期望、生成模型和圖演算法等。無監督學習是利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程。也就是及其自個兒學。代表方法有:Apriori、FP樹、K-means以及目前比較火的Deep Learning。從這三方面看,無監督學習是最智能的,有能實現機器主動意識的潛質,但發展還比較緩慢;監督學習是不太靠譜的,從已知的推斷未知的,就必須要把事物所有可能性全都學到,這在現實中是不可能的,人也做不到;半監督學習是「沒辦法中的辦法」,既然無監督學習很難,監督學習不靠譜,就取個折中,各取所長。目前的發展是,監督學習技術已然成熟,無監督學習還在起步,所以對監督學習方法進行修改實現半監督學習是目前的主流。但這些方法基本只能提取信息,還不能進行有效的預測(人們就想,既然沒法得到更多,就先看看手裡有什麼,於是數據挖掘出現了)。

百度機器學習也在努力。希望2017可以更牛~~~~~~~



推薦閱讀:

我的機器學習計算資源
什麼是超網路?
【精品】12條核心知識帶你了解機器學習
面壁者系列:線性回歸
機器學習演算法簡介

TAG:學習 | 計算機 | 機器 | 機器學習 | 數據挖掘 |