機器學習是什麼?
當今世界,數據無處不在。從一張圖片,到一段樂曲,再到一篇文章,數據充斥著我們的生活,並且在相當一段時間內,數據仍然會是數字世界的主體。而機器學習給予了我們從這些無窮無盡的數據中找出規律並加以利用的可能。
https://www.zhihu.com/video/898275234841505792在這一系列文章中,我們將一起探秘人工智慧的世界,共同品味藝術、探索科學以及掌握機器學習的工具。一路上,我將為你展現機器學習的魅力並指導你親身體會整個創造的過程。千里之行,始於足下,我們將從概念開始,逐漸深入到它們背後的技術細節。
人類對數據的探索豈止於當下
Arthur C. Clarke 曾講過:
任何先進之技術,乍一看,如夢如幻。
一開始你會覺得機器學習好似變戲法一般深不可測,但當你深入其中,會發現它就是一堆用來從數據中挖掘信息的工具。
數據就在我們身邊
在過去,人們往往通過分析數據,並針對數據模式的變化來適配軟體系統。但是,當數據容量超越人類的感知或模式制定能力之後,我們不得不傾向於使用那些可以從數據自主總結歸納的方式,尤其是從變化的數據中自主學習的軟體系統。
機器學習早已無處不在
如今我們能夠在將日常生活當中瞥見機器學習的身影,但卻忽視了一些難以發現的應用。比如你可能發現相冊應用自動為照片分門別類是利用了機器學習演算法,卻可能沒有意識到,YouTube 等視頻網站、Google 等搜索引擎的推薦演算法也得力於機器學習。
如你所料,也許當前最龐大和複雜的機器學習系統就是 Google 搜索了。每一次你「Google」某個關鍵字的過程,就是在使用一個於軟體內核大量運用機器學習的系統(從理解你檢索的文本,到根據用戶的個人喜好調整搜索結果)。譬如當你搜索「Java」時,機器學習將通過判斷你的身份(比如是開發者還是還是咖啡大拿,亦或是二者兼有之)來選擇哪些結果優先顯示在你面前。
如今,機器學習的直接應用已經非常廣泛了,包括圖像識別、欺詐檢測、推薦引擎、文本和語音系統等等。這種強大的能力被廣泛應用於糖尿病視網膜病變、皮膚癌檢測到零售以及自動泊車與自動駕駛運輸系統等等領域當中。
備受期待的特性
不久以前,人們普遍認為一個公司或是一款產品在其產出中使用機器學習簡直是痴人說夢。現在,每個公司都在探索將機器學習應用到自身產品的方法。這已然成為對產品的一種預期。正如當初我們希望每個企業都有一款好用的 App 或者一個漂亮實用的網站那樣,不久的將來,人們將會希望這些技術或服務都更加個性化,都能深入洞悉用戶需求並且還具備一定的自我糾錯能力。
我們希望機器學習能夠讓現今的任務辦得更好、更快、更輕鬆,同時也希望在未來,機器學習可以幫助我們實現一些曾經通過人力無法完成的工作。
我們應當慶幸,要充分發揮機器學習的優勢並不困難。利刃早已磨好,你要的就是數據、開發者和強大的意志力來揮舞寶刀!
用數據來解決問題
此處我們可以將機器學習的定義簡化為7個字:
『施以數據解難題』
這一表述也許過度簡化了,但足以充分表達我們的目標。尤其是當我們將這句話拆分成兩個部分:「施以數據」和「解難題」,我們會發現兩者充分勾勒出機器學習的兩個重要層面(訓練和預測)。
「施以數據」也就是常說的「訓練」,而「解難題」則被當作是「預測」或是推理的過程。
將這兩者聯繫起來的部分叫做模型。我們使用數據集來訓練模型以實現更好、更有用的預測。訓練完成後,這一模型就可以通過部署來預測未曾出現過的數據。
數據是金鑰
如你所見,在整個流程中最關鍵的部分就是數據。將數據比作機器學習的核心,有如將機器學習比作開啟數據洞察殿堂的金鑰。
接下來呢?
這篇文章僅僅只是在鳥瞰機器學習,解答為什麼它如此有用,當然,我們也列舉了它的一些應用。機器學習是一個非常廣闊的領域,涵蓋了一整個與「從數據推斷答案」相關的技術棧群。之後,我們將致力於為大家提供如何根據給定的數據集和問題挑選合適的方法來解答,同時還會提供相關的實現工具。
這是 Cloud AI Adventures 系列的首個分享。下一次,我們會更詳細深入探究機器學習的過程,通過一個公式一步一步剖析怎樣解決機器學習問題。
向 Sara Robinson 致謝!
「注」:Arthur C. Clarke 是英國著名科幻小說家、科學作家、未來主義者,同時還是著名的水下探險家、發明家和知名電視節目主持人。他和羅伯特?海因萊因及艾薩克?阿西莫夫並稱科幻小說界三巨頭,曾與庫布里克合寫了《2001太空漫遊》的劇本。
▏原文出處:What is Machine Learning
▏封面來源:What"s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?
▏視頻出處:YouTube - What is Machine Learning?
▏字幕翻譯:谷創字幕組
▏文章編輯: @楊棟
推薦閱讀:
※想學習「機器學習」,需要學習哪些先導課程?
※目標檢測(5)-Faster RCNN
※Udacity的納米學位 (Nano degree)怎麼樣?
※論文導讀 | TFX:基於TensorFlow可大規模擴展的機器學習平台