標籤:

機器學習有什麼作用?

機器學習有什麼作用?


這其實是一個非常好的問題。搬運一篇《科學》雜誌刊登的《What can machine learning do?》,發表時間為2017年12月。作者是來自MIT和CMU的Erik Brynjolfsson和Tom Mitchell教授。

這篇文章探討了機器學習對工作場景的影響,機器學習到底可以替人做哪些工作?作者認為在現有技術下,適合機器學習的任務滿足八個準則:

  1. 「有明確的輸入輸出的,需要學習其中映射關係」的任務

    這其中就包括了分類任務(例如,給狗狗的圖片做品種分類),和預測任務(例如,分析貸款申請人償還貸款的可能性分析)。
  2. 存在大量的(數字化)數據集,或者可以創造「輸入—輸出」對的任務

    這種數據集要大量到包含能夠包含所有的輸入特徵;至於創造「輸入-輸出」對,可以僱傭人工進行檢測、或者模擬現有的過程獲取數據集。

  3. 提供了清晰的反饋和目標的任務

    機器學習對可以清晰描述目標的任務有巨大的優勢。當結果可以清晰地評估時——即使我們不知道什麼是最優的解決途徑——機器學習也很適合做這一類工作。
  4. 不能是「需要常識和多樣化背景知識「的多步邏輯思考的任務

    Ng的「one-second rule」指出,機器學習對於有著及時反饋的電子遊戲中可以做得很好,但是對於那種「需要記住之前的事件的、有著未知信息的並做出最優化策略」的電子遊戲,機器學習很難勝任。(答者註:文明系列?)(答者再註:比如前段時間deepmind對於星際爭霸系列的研究)
  5. 不需要解釋決策過程是如何做出的工作

    雖然現在有學者在研究「如何解釋AI系統」,但是這方面的成果甚微。因此雖然人工智慧對某些疾病、癌症的預測的準確率要好於專家,但是他們在解釋決策過程的方面明顯不如醫學專家們。然而,對於某些感知型的任務,人們也很難解釋自己的決策過程,比如人們是怎麼把自己聽到的不同的聲音轉化成詞語的呢?(答者註:比如同一個詞語,不同的口音)
  6. 對誤差有容忍性的,不需要提供最優解的任務

    大多數的機器學習演算法都是隨機演算法,因此求出的解很難保證100%的準確性。就算是最好的語音識別、物體識別和醫療系統也會犯錯。
  7. 學得的函數不能是「隨著時間快速變化」的函數

    總體來說,機器學習演算法只有在未來事件的分布和訓練事件的分布類似時才有用。如果這些分布會改變,那麼需要重新訓練模型。那麼訓練的成功在於這些新的有效的數據的獲取的變化率。(例如,保證郵箱的垃圾郵件機制能夠運行的部分原因就是因為獲得新郵件的速度總是要大於收到垃圾郵件的變化率。)
  8. 不能是專業的敏捷性任務、需要運動技能的任務、需要快速移動的任務

    機器人和人類相比,處理複雜的物理環境還是很困難。

參考文獻:

What can machine learning do? Workforce implicationsscience.sciencemag.org圖標


機器學習問題之屌絲的女神專屬

每個屌絲都有自己的女神專屬

屌絲的通病便是眼神不老實。走在街上,看到漂亮妹子情不自禁要多瞟幾眼,如果是兩三屌絲在一起,時不時還要品評一番,如果一群屌絲只有你覺得這個妹子漂亮,一般情況下是要恭喜你的,因為你總不免要被嘲笑一番,然後大家一致得出結論你審美能力低下;當然這種極端的情況很少出現,對一個妹子,總有些屌絲覺得漂亮,有些屌絲不置可否。萬千屌絲在極端無聊的情況下,發明了一種慘無人道,侵犯人權的對漂亮的量化方法,打分!看到一個妹子,1到10的區間,每個屌絲給出一個分數,這種例子在我身邊發生了無數次,聽多了,某一天,愚鈍的我好像被樹上掉下來的蘋果砸了一下。我發現對同一個妹子,不同的屌絲給出來的分數差別很大,經過一番思考,我撿起掉在地上的蘋果,咬了一口,自言自語道:「每個屌絲的審美觀是不同的」。

在我咬下一口之前,我決定想一想為什麼屌絲們的審美觀會不同,當然了,我不想將問題擴大化,免得被不懷好意的人利用,就好像當年潤芝兄搞什麼整風,革命之類的一樣,我還是將問題局限在女人。首先我想到的是屌絲們的媽長得不一樣,忘記在哪裡看到的,說屌絲們總覺得像他媽的女人更漂亮一點,我狠狠的咬了一口蘋果。其次我想到的是,屌絲們長得不一樣,這個結論是我用肉眼觀察了大量的高富帥和他身邊像鳥一樣的女人之後得出來的結論,嗯,他們長得很像,冥冥之中,屌絲也在尋找和他長得很像的女神。再次,屌絲們的教育背景不一樣,有些屌絲身上有書卷氣,他們往往喜歡沉靜,溫婉一點的女孩,有些屌絲,身上有流氓氣,《野蠻女友》是他們的最愛,當然除此以外,還有屌絲的年齡,父母有沒有離過婚,有沒有看過斷背山等等因素,這些共同決定了屌絲的審美。

這裡忍不住要吐槽一下妹子,初次見面,或者就是擦肩而過,屌絲對女神他粑粑的長相,女神有沒有看過美麗在唱歌,女神爸媽有沒有離婚這些都不了解,映入屌絲眼帘的是妹子飄逸的秀髮,優雅的腳步,活潑的眼神,整齊的衣著;屌絲的世界屌絲自己都不懂,屌絲覺得自己和女神根本不在一個次元,屌絲糊塗了,特徵空間都不相同,都沒法用餘弦相似度,「我是怎麼判斷我喜不喜歡那個妹子的?」屌絲自言自語。

看著手中不剩幾口的蘋果,忽然領悟到剛才被砸中卻不怎麼疼的原因,我想牛頓當年被蘋果砸了,那該是幾噸重的蘋果;牛頓沒被砸死,抓住上帝的失誤不放,勒索到了經典力學的秘密,當然牛頓付出的代價是慘重的,他二十幾歲之後的人生都做了上帝的奴僕。還好砸我的蘋果很小,蘋果的秘密已經被牛頓公諸於世了,斯人已往矣,上帝總不至於抓我去做他的奴僕,瞬間,我堅定了繼續扒的勇氣。

膜在哪裡

屌絲很悲哀,屌絲的世界沒有初次見面,只有擦肩而過,屌絲的回眸不能傾國傾城,只能得出一個猥瑣的分數。

「你打多少分?」

「7.2」

「次奧,是不是你媽長得太丑了,無語。我給9.0分。」

正如上面說的,屌絲和妹子處在不同的特徵空間,屌絲到底是怎麼判斷喜不喜歡那個妹子的?

屌絲仔細回想媽咪的長相,媽咪長頭髮,著裝整齊乾淨,步態優雅,屌絲忽然又想到他的女神,飄逸的秀髮,優雅的腳步,活潑的眼神,整齊的衣著。屌絲若有所悟,瞬間來了精神,屌絲斗轉思緒,想到自己身上的書卷氣,自言自語道:「書卷氣和飄逸的秀髮較之書卷氣和圓寸頭聯繫更緊密一點,書卷氣和優雅的腳步較之書卷氣和快速沉重的步伐聯繫緊密一點,啊,原來如此」。屌絲像窺探到上帝的秘密一樣開心,原來自己特徵空間中的每一維和女神特徵空間中的每一維都有關係,這樣的關係或緊或松。

你們都是第一次

為了量化這個問題,我想先做一些定義:

屌絲的特徵向量X: (x1,…,xm)T

妹子的特徵向量Z: (z1,…,zn)T

屌絲i對妹子的j的評分:rij

我們用Wm*n矩陣來量化屌絲特徵空間的每一維與女神特徵空間的每一維之間關聯的緊密程度。wa,b表示屌絲特徵空間第a維和女神特徵空間第b維聯繫的緊密程度,越大越緊密。

當屌絲又一次和妹子擦肩而過的時候,屌絲瞬間獲取到妹子的特徵向量zj,我們猜測屌絲i可能給出的評分sij。

矩陣W是未知數,我們要做的事情就是求出W從而建立屌絲對女神評分的模型,建立這個模型還需要大量的屌絲評分樣本,我們假設已經有這樣的樣本O。

我們定義誤差函數如下:

扒到這裡膜便找到了,這是一個優化問題,我們要做的就是最小化error(w),可以用梯度下降的方法很容易求解出W。

輕車熟路的老鳥

老鳥們覺得任何一個未知參數,都是一個隨機變數,應該使用一個概率分布去描述變數的未知情況,這個分布是對抽樣之前就有的變數的先驗信息的概率陳述。老鳥駕馭參數估計也是那麼的鬥志高昂,「衝刺!衝刺!!」,老鳥高喊黨的口號。

老鳥輕而易舉的就寫下了下面的公式:

一看就是貝爺的子子孫孫,真相越發明了,司馬昭之心路人皆知,現在缺的就是先驗分布以及似然函數了。

高斯先驗分布:

似然函數:

根據元誤差學說,誤差是由大量的、由種種原因產生的元誤差疊加而成,因此可以使用高斯分布作為誤差的分布:

使用最大後驗估計(MAP),這個優化問題等同於最小化下面的負對數聯合概率:

仍然可以使用梯度下降的方法處理:

雲上的日子

事情總有個了斷。清晨,蘇菲睜開眼睛,一夜的雲雨,讓蘇菲感覺很是疲乏,習慣性的看向枕邊,卻發現除了枕頭上的凹痕,身邊空空如也,蘇菲瞬間清醒了好多,一股習慣性的厭惡感湧上心頭,情不自禁罵道,「屌絲!」,是的,蘇菲已經習慣了。

屌絲披著黎明前的夜色走了,屌絲走的很悲愴,他還是眷戀這裡的,他甚至半夜裡,趁著蘇菲睡著,偷偷地鑽到床底,在床板上刻下了「zz到此一游」的悲壯語句,但屌絲不得不走,因為他必須在路上,只有這樣他才能用下面的公式驗證預測模型的正確性:

屌絲今夜重又走入風雨,為了生命的遠行,為了不安分的心。


推薦閱讀:

TAG:機器學習 |