如何自學人工智慧?

零基礎自學人工智慧,希望能推薦下學習路徑。

基礎只有興趣,不要說不可能。

興趣為解決人類智能緣起的問題。


不少同學躍躍欲試,想投入 AI 的懷抱,但苦於不知如何下手。其中,人工智慧的核心就是機器學習(Machine Learning),它是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域。

我們今天就來分享一篇來自 EliteDataScience 上專門講給機器學習入門自學者的教程,一步步教你如何從基礎小白進階為 ML 大拿。快上車吧,別找硬幣了,這趟車不要錢!

你是否正在準備自學機器學習,但又不知道怎麼去學、還被那些貴的要命的培訓課程嚇得不行?

今天我們在這篇文章里就教你怎樣免費獲得世界級的機器學習教育,你既不需要有博士學位,也不必是技術大牛,更不必賣好幾個腎去買一份很貴的培訓課程。不管你是想成為數據科學家還是在開發中使用機器學習演算法,其實你都能比想像中更快地學習和應用機器學習。

本文告訴你在機器學習之路上的幾個步驟,保你不會迷路,下面開始我們的表演。

第一步:先搞懂什麼是機器學習

在悶頭學習機器學習之前,最好先把什麼是機器學習搞清楚,了解機器學習的基本概念。

簡單來說,機器學習就是教電腦怎樣從數據中學習,然後做出決策或預測。對於真正的機器學習來說,電腦必須在沒有明確編程的情況下能夠學習識別模型。

機器學習屬於計算機科學與統計學的交叉學科,在多個領域會以不同的面目出現,比如你應該聽過這些名詞:數據科學、大數據、人工智慧、預測型分析、計算機統計、數據挖掘······

雖然機器學習和這些領域有很多重疊的地方,但也不能將它們混淆。例如,機器學習是數據科學中的一種工具,也能用於處理大數據。

機器學習自身也分為多個類型,比如監督式學習、非監督式學習、增強學習等等。例如:

郵件運營商將垃圾廣告信息分類至垃圾箱,應用的是機器學習中的監督式學習;電商公司通過分析消費數據將消費者進行分類,應用的是機器學習中的非監督式學習;而無人駕駛汽車中的電腦合攝像頭與道路及其它車輛交互、學習如何導航,就是用到了增強學習。

想了解機器學習的入門知識,可以看看一些網路課程。對於想對機器學習領域的重點慨念有個基礎的了解的人來說,吳恩達教授的機器學習入門課程絕對必看:

https://www.coursera.org/learn/machine-learning

以及「無人車之父」 Sebastian Thrun 的《機器學習入門》課程,對機器學習進行了詳細介紹,並輔以大量的編程操作幫助你鞏固所學內容:

https://cn.udacity.com/course/intro-to-machine-learning--ud120

此外,Sebastian 在優達學城上還開設了一本《人工智慧入門》課程,講解人工智慧領域的基本原理以及相關應用比如機器人、計算機視覺和自然語言處理等:

https://cn.udacity.com/course/intro-to-artificial-intelligence--cs271

當然也少不了集智君整理製作的免費專欄,在這裡你可以免去安裝環境的煩惱,直接投入簡單地機器學習訓練中來:

邊看邊練的簡明機器學習教程 Part I - 集智專欄

這些課程都是免費的哦!

大概了解機器學習後,我們就來到知識準備階段了。

第二步:預備知識

如果沒有基本的知識儲備,機器學習的確看起來很嚇人。要學習機器學習,你不必是專業的數學人才,或者程序員大牛,但你確實需要掌握這些方面的核心技能。

好消息是,一旦完成預備知識,剩下的部分就相當容易啦。實際上,機器學習基本就是將統計學和計算機科學中的概念應用在數據上。

這一步的基本任務就是保證自己在編程和統計學知識上別掉隊。

2-1:用於數據科學中的Python編程

如果不懂編程,是沒法使用機器學習的。幸好,這裡有份免費教程,教你如何學習應用於數據科學中的Python語言:

How to Learn Python for Data Science in 2017 (Updated)

註:景略集智再補充三個資源:

[Python入門] 01 基本法則 - 集智專欄:

https://jizhi.im/blog/post/pyintro01

從零學習數據科學中Python的完全指南:

A Complete Tutorial to Learn Data Science with Python from Scratch

以及40多個Python學習資源的匯總文章:

https://www.datacamp.com/community/tutorials/python-statistics-data-science

2-2:用於數據科學的統計學知識

了解統計學知識,特別是貝葉斯概率,對於許多機器學習演算法來說都是基本的要求。

這裡有份學習數據學習中統計學知識的教程:

How to Learn Statistics for Data Science, The Self-Starter Way

2-3:需要學習的數學知識

研究機器學習演算法需要一定的線性代數和多元微積分知識作為基礎。點這裡,獲取一份免費學習教程:

How to Learn Math for Data Science, The Self-Starter Way

第三步:開啟「海綿模式」,學習儘可能多的原理知識

所謂「海綿模式」,就是像海綿吸水一樣,儘可能多地吸收機器學習的原理和知識,這一步和第一步有些相似,但不同的是,第一步是對機器學習有個初步了解,而這一步是要掌握相關原理知識。

可能有些同學會想:我又不想做基礎研究,幹嘛要掌握這些原理,只要會用機器學習工具包不就行了嗎?

有這個疑問也很正常,但是對於任何想將機器學習應用在工作中的人來說,學習機器學習的基礎知識非常重要。比如你在應用機器學習中可能會遇到這些問題:

  • 數據收集是個非常耗時耗力的過程。你需要考慮:我需要收集什麼類型的數據?我需要多少數據?等此類的問題。
  • 數據假設和預處理。不同的演算法需要對輸入數據進行不同的假設。我該怎樣預處理我的數據?我的模型對缺失的數據可靠嗎?
  • 解釋模型結果。說機器學習就是「黑箱」的觀點明顯是錯誤的。沒錯,不是所有的模型結果能直接判讀,但你需要能夠判斷模型的狀況,進而完善它們。我怎麼確定模型是過度擬合還是不充分擬合?模型還有多少改進空間?
  • 優化和調試模型。很少有人剛開始就得到一個最佳模型,你需要了解不同參數之間的細微差別和正則化方法。如果我的模型過度擬合,該怎麼修正?我應該將幾個模型組合在一起嗎?

要想在機器學習研究中解答這些問題,掌握機器學習的知識原理必不可少。這裡推薦兩個世界級的機器學習課程,一定會讓你受益良多:

哈佛大學的機器學習課程,讓你了解從數據收集到數據分析的整個流程:

https://cs109.github.io/2015/

https://cs109.github.io/2015/pages/videos.html

https://github.com/cs109/content

(提示:這個課程和吳恩達教授的課程配合食用,效果更加)

斯坦福大學的機器學習課程,清楚地講解了機器學習的核心概念:

https://see.stanford.edu/Course/CS229

還有兩部值得讀的參考書籍:《統計學習導論》和《統計學習基礎》

這兩部書的英文原版下載地址:

《An Introduction to Statistical Learning》:

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf

《Elements of Statistical Learning》:

https://web.stanford.edu/~hastie/Papers/ESLII.pdf

註:看不慣英文原版的同學,可以去讀這兩本書的中文版。

集智也建議大家可以多逛逛Reddit上的機器學習論壇:

https://www.reddit.com/user/techrat_reddit/m/machine_learning/

https://www.reddit.com/r/MachineLearning/

https://www.reddit.com/r/learnmachinelearning/

當然,Quora上的機器學習版塊也很有料:

https://www.quora.com/pinned/Machine-Learning

逛論壇不容易看到高階知識,你不能一直停留在菜鳥階段不是,要升級就有必要看看專業的論文。arXive是個好去處,是個收集物理學、數學、計算機科學與生物學的論文預印本的網站。

關於人工智慧的版塊:

https://arxiv.org/list/cs.AI/recent

關於機器學習的版塊:

https://arxiv.org/list/cs.LG/recent

如果嫌自己搜索論文太麻煩,可以在網站 arxiv-sanity.com 上註冊一個賬號,它可以按自己的感興趣標籤給你推送最新的 arXive 上的論文。

第四步:針對性實際練習

在開啟「海綿模式」後,你應該掌握了機器學習的基礎理念知識,接著就該實際操作了。

實際操作主要是通過具體的、深思熟慮的實踐操作增強你的技能。本步目標有三個:

  • 練習機器學習的整個流程:收集數據,預處理和清理數據,搭建模型,訓練和調試模型,評估模型。
  • 在真正的數據集上實踐操作:對於什麼樣的數據適合用什麼類型的模型,自己應逐漸建立這方面的判斷能力。
  • 深度探究:例如在上一步,你學習了很多機器學習演算法知識,在這一步就要將不同類型的演算法應用在數據集中,看看哪個效果最好。

完成這一步後,就可以進行更大規模的項目了。

4-1 九個基本部分

機器學習是一個非常廣泛和豐富的領域,幾乎在每個行業都有應用。因為要學習的東西太多,初學者很容易發慌,而且在面對很多個模型時也很容易迷失,看不到大局。

因此,我們把機器學習大概劃分為九個部分:

ML整體學習:

基本的機器學習原理,比如方差權衡這些知識。

優化:

為模型發現最優參數的演算法。

數據預處理:

處理缺失數據、偏態分布、異常值等。

取樣和拆分

怎樣拆分數據集來調整參數和避免過度擬合。

監督式學習

使用分類和回歸模型從標記數據中學習。

非監督式學習

使用因素和集群分析模型從非標記數據中學習。

模型評估

根據不同的性能度量做出決策。

集成學習

將不同模型相結合,達到更好的性能。

商業應用

機器學習如何幫助不同類型的商業業務。

4-2 實踐工具

對於初學者,我們建議採用現成可用的演算法,這樣可以把時間用在熟悉機器學習流程上,而不是寫演算法。根據你使用的編程語言,有兩個不錯的工具(鏈接為使用教程):

Python的Scikit-Learn

Python Machine Learning Tutorial, Scikit-Learn: Wine Snob Edition

R語言的Caret

4-3 利用數據集實踐操作

在這步需要用數據集進行搭建和調試模型的實際操作,也就是將你在「海綿模式」階段學到的理論轉變為代碼。我們建議你選擇UCI Machine Learning Repo,Kaggle和http://Data.gov上的數據集開始入手:

UCI Machine Learning Repo:

http://archive.ics.uci.edu/ml/index.php

Kaggle:

https://www.kaggle.com/datasets

http://Data.gov:

Frontpage

第五步:機器學習項目

終於到了最後一步,也是很有意思的一步。目前為止,我們已經完成了:知識儲備、掌握基本原理、針對性練習等階段,現在我們準備探究更大的項目:

這一步的目標就是練習將機器學習技術應用於完整的端到端分析。

任務:完成下面的項目,依次從易到難。

5-1:「泰坦尼克號」倖存者預測

「泰坦尼克號」倖存者預測是練習機器學習時相當流行的選擇。而且有非常多的教程可供參考。

Python 教程:

https://www.kaggle.com/c/titanic

https://github.com/savarin/pyconuk-introtutorial

R語言教程:

https://amunategui.github.io/binary-outcome-modeling/

Machine Learning with R: An Irresponsibly Fast Tutorial

5-2 從零開始寫演算法

我們建議你先以一些簡單的方面寫起:邏輯回歸、決策樹、k 最近鄰演算法等。

如果中間卡住了,這裡有些小技巧可以參考:

  • 維基百科是個不錯的資源庫,提供了一些常見演算法的偽代碼。
  • 可以看看一些現成ML工具包的源代碼,獲得靈感。
  • 將演算法分為幾部分。寫出取樣、梯度下降等的分離函數。
  • 在開始寫整個演算法前,先寫一個簡單的決策樹。

5-3 選個有趣的項目或自己感興趣的領域

其實這應該是機器學習最棒的部分了,可以利用機器學習實現自己的想法。

如果實在沒想到好點子,這裡有6個有趣的初學者機器學習實踐項目:

8 Fun Machine Learning Projects for Beginners

結語:

如果你按照這個步驟一步步紮實學習的話,相信你最終一定在機器學習方面小有成就!

我們對初學機器學習的人還有10個小小的tips:

  1. 為自己設定學習目標和期限,儘力完成。
  2. 打好學習基礎,掌握基本理論。
  3. 將實踐理論相結合,不要只關注某一個方面。
  4. 試著自己從頭寫幾個演算法。
  5. 多角度思考問題,找到自己感興趣的實踐項目。
  6. 多想想每個演算法能產生什麼價值。
  7. 不要相信科幻電影中對ML的胡吹。
  8. 別過度理會網上關於ML知識的爭論。
  9. 多想想數據的「輸入/輸出」,多問問「為什麼」。
  10. 上集智,第一時間將自己升級。→→ 集智 - 通向智能時代的引擎

最後,祝同學們學有所成!


【福利活動】即將截止報名的無人車比賽你參加了嗎?假如你恰好對自動駕駛感興趣,那這塊兒 1070ti 可能是屬於你的,快來試試!! 傳送門:別忙著準備期末,這裡有塊1070ti等你拿


這是ANU教授Marcus Hunter(Universal Artificial Intelligence的作者)給出的建議

Short AI Reader"s Guide

Please find below suggestions for some textbooks which I found most relevant for understanding and modeling intelligent behaviour in general, and for developing the AIXI model in particular. If you are confused by the amount, diversity or complexity of the references below, I suggest you to start with the Reinforcement Learning book by Sutton and Barto. It requires no background knowledge, describes the key ideas, open problems, and great applications of this field. Don"t be surprised about the ease of the book, it teaches understanding, not proofs. It gets really tough to make things work in practice and to prove things. The Artificial Intelligence book by Russell and Norvig gives a comprehensive overview over AI in general. TheKolmogorov Complexity book by Li and Vitanyi is an excellent introduction to algorithmic information theory. If you have some background knowledge in decision theory and algorithmic information theory you may be interested in the Theory of Universal Artificial Intelligence.

Long AI Reader"s Guide

For the impatient.
If you are the sort of impatient student who wants to build super intelligent machines right away without "wasting" time reading or learning too much, well, others have tried in the last 50 years and failed, and so will you. If you can"t hold back, at least read Legg (2008) [Leg08]. This is an excellently written non-technical thesis on the necessary ingredients for super intelligent machines.

It will not help you much building one, since in order to properly understand the general theory and to bridge the gap to "narrow" but practical existing AI algorithms, you need a lot more background. Nevertheless, [Leg08] might motivate you to consider reading the books I"ll recommend now.

Artificial Intelligence. Russell and Norvig (2003) [RN10] is the textbook to learn about Artificial Intelligence. The book gives a broad introduction, survey, and solid background of all aspects of AI. There is no real alternative. Whatever subarea of AI you specialize later, you should understand all introduced concepts, and have implemented and solved at least some of the exercises.

The textbooks below are relevant for understanding and modeling general intelligent behavior. If you already got attracted to some specific AI applications, they may not be relevant for you. One axis of categorizing AI is into (1) logical (2) planning and (3) learning aspects. CSL@ANU has experts in all 3 areas. Historically, AI research started with (1) in the 1950s, which is still relevant for many concrete practical applications. Since at least in humans, high-level logical reasoning seems to emerge from the more basic learning and planning aspects, it is conceivable that (1) will play no fundamental role in a general AI system. So I will concentrate on (2) and (3). If put together, learning+planning under uncertainty is mainly the domain of reinforcement learning (RL), also called adaptive control or sequential decision theory in other fields.

Reinforcement Learning. Sutton and Barto (1998) [SB98] is the excellent default RL textbook. It requires no background knowledge, describes the key ideas, open problems, and great applications of this field. Don"t be surprised about the ease of the book, it teaches understanding, not proofs. It gets really tough to make things work in practice or to prove things [BT96].

If you want to bring order into the bunch of methods and ideas you"ve learned so far, and want to understand more deeply their connection either for curiosity or to extend the existing systems to more general and powerful ones, you need to learn about some concepts that at first seem quite disconnected and theoretical.

Information theory. Intelligence has a lot to do with information processing. Algorithmic information theory (AIT) is a branch of information theory that is powerful enough to serve as a foundation for intelligent information processing. It can deal with key aspects of intelligence, like similarity, creativity, analogical reasoning, and generalization, which are fundamentally connected to the induction problem and Ockham"s razor principle. Li and Vitanyi"s (1997) AIT book [LV97] provides an excellent introduction. Kolmogorov complexity, Minimal Description Length, universal Solomonoff induction, universal Levin search, and all that. It requires a background in theoretical computer science in general and computability theory in particular, which can be obtained from the classic textbook [HMU06].

Universal AI. Now you are in a position to read [Hut05]. The book develops a sound and complete mathematical theory of an optimal "intelligent" general-purpose learning agent. The theory is complete in the sense that it gives a complete description of this agent, not just an incomplete framework with gaps to be filled. But be warned, it is only a theory. Like it is a long way from e.g. the minimax theory of optimally playing games like chess to real chess programs, it is a long way from this theory to a practical general purpose intelligent agent [VNHS09].

Peripheral Areas. The other recommended books below can be regarded as further readings that provide more background and deepen your understanding of various important aspects in AI research. Bishop (2006) [Bis06] is the excellent default textbook in statistical machine learning, and should be put on your reading list. Some Bayesian probability book will be useful too [Pre02, Jay03]. How multiple rational agents interact [SLB08] is the domain of game theory [OR96]. Computer vision [FP02], natural language understanding [JJ08], and robotics [TBF05] interfaces abstract agents with the real world. Alchin (2006) [Alc06] gently and broadly introduces you to philosophy of science in general and Earman (1992) [Ear92] to the induction problem in particular.

來自他的個人網站:

Homepage of Marcus Hutter


回答這個問題,還是要有一些背景信息,如你目前所掌握的知識結構,希望從事AI的哪個方向,以及達到什麼水平。

姑且假設是個高中畢業生吧,目標是達到能夠從事機器學習研發工作的基本要求,那麼需要先循序漸進地學習幾門基礎知識:

1、高等數學

2、線性代數

3、概率和數理統計

4、一門計算機語言(Java/C++/Python and the like)

5、演算法

一定要自學的話,除了看書,建議看高校課程視頻(這裡就不放鏈接了,在網上很容易找到美國牛校的視頻教程,當然前提還有英語聽力...),否則不太容易學好。

判斷這些基礎知識是否學好的標準,不是去做幾套考題。最有效的辦法是應聘計算機公司的初級程序員。入職後可以繼續往下看 :-) &>&>&>&>&>

恭喜你已經入門一隻腳!不過要坐到AI演算法工程師的位置,還要啃這幾門知識:

1、計算原理

2、模式識別

3、人工智慧導論,個人推薦:Artificial Intelligence: A Modern Approach,雖然有些年頭了,但很經典!

接下來要看你喜歡哪個具體方向了,NLP、圖像還是語音,相關書籍就不推薦了。強烈建議NLP方向哈,我們需要更多的同行。 :-)

這時需要:1)找個開源框架多練練手了,2)多看國際會議經典論文。

記住:演算法不是萬能的,多讀數據,會有靈感。

以上。祝順利!


如果從0開始的話,建議這樣走:

首先先弄清楚人工智慧的分類,從接觸一名新學科來說,先搞清楚其家譜體系,這樣子按照各個線條來深入了解就好,所以在了解人工智慧之前,我建議先看看有哪些分類:

機器人:各種各樣的機器人

智能家電:跟家電有關的智能軟硬體

智能出行:跟出行有關的智能硬體,比如智能汽車和自行車等等;

智能設備:比如大型工程使用的操控性智能設備;

智能用品:剃鬚刀、牙刷也有可能是智能的

.......

先把分類弄清楚,然後搞一個行業圖譜,並且能夠弄清楚它的上下游,這樣有助於你對行業的了解,也有助你進入行業交流也非常迅速並且暢通無阻。

然後開始看各種各樣的人工智慧報告,這種報告其實還蠻多的,也會有不少公眾號會放出類似的報告,閱讀報告是最快了解行業的方式。

當然,報告不是萬能的,智能作為輔助工具來了解,除了報告之外,就是多看點類似的書,通常最好的方法,就是上網上書店把所有關於人工智慧的書都搜索出來,然後在根據裡面的題目挑選一些比較好的書,這樣有助於快速兩家技術和行業狀況,而且比較系統。

當然,上面說的這些都是基於自學,只能說是理論水平和視野,真正的操作,還是建議你自己去實操,或者找一家公司學習。如果你還是學生,你可以利用假期去實習,如果你已經出來了,然後又特別喜歡,可以業餘玩玩,或者乾脆跳槽到相關的公司,哪怕你不是在該部門,但已經離真正的人工智慧團隊非常近了。因為最好的學習方式是去實踐。


-------------------------------------------------以下是更新的內容------------------------------------------

原本只是想貼兩張圖片就走人了,沒想到大家還是對人工智慧挺有學習熱情的。

如果真的要回答這個問題,那我肯定是不夠格的,因為我不是這一行的大拿,我也只是對人工智慧感興趣的一隻工科狗,參加過一些機器人的競賽,學習過一些與人工智慧搭邊的知識。但是畢竟感興趣了嘛,所以也看過別人分享的一些經驗。

敲黑板!!!

OK,下面開始轉載大拿門的經驗了,可以把你們的天線拔出來收聽信號了!

因為本人畢業後從事的是碼農行業,所以了解到的人工智慧大多是應用在以下幾個方面:

1、計算機視覺

計算機視覺最典型的應用就是大家熟知的人臉和車牌的識別,掃描文字,圖片內容識別等。

2、自然語言處理

自然語言處理的典型的應用包括:搜索引擎智能匹配、文本內容理解、文本情緒判斷,語音識別、輸入法、機器翻譯等。

3、社會網路分析

社會網路分析的典型的應用包括:用戶畫像、網路關聯分析、欺詐作弊發現、熱點發現等。

4、推薦

典型的應用包括:蝦米音樂的「歌曲推薦」,某寶的「猜你喜歡」等。

看似學習難度大,曲線陡峭的機器學習,對於我們這種感興趣,增加課外知識,拓展知識面的人來說也有一塊入門磚。

簡單說來,大概的一個學習路徑如下

AI簡化學習路徑

簡單分析下,之所以最左邊寫了『數學基礎』『典型機器學習演算法』『編程基礎』三個並行的部分,是因為機器學習是一個將數學/演算法理論和工程實踐緊密結合的領域,需要紮實的理論基礎幫助引導數據分析與模型調優,同時也需要精湛的工程開發能力去高效化地訓練和部署模型和服務。

需要多說一句的是,在互聯網領域從事機器學習的人,有2類背景的人比較多,其中一部分(很大一部分)是程序員出身,這類同學工程經驗相對會多一些,另一部分是學數學統計領域的同學,這部分同學理論基礎相對紮實一些。因此對比上圖,2類同學入門機器學習,所欠缺和需要加強的部分是不一樣的。

就以上圖來簡單分析下:

1、數學基礎

大學的數學包括: 微積分 、線性代數、概率論和數理統計,這三門是大多數同學都上過的課程。但是有無數激情滿滿大步向前,誓要在機器學習領域有一番作為的同學,在看到公式的一刻突然就覺得自己狗帶了。是啊,機器學習之所以相對於其他開發工作,更有門檻的根本原因就是數學。每一個演算法,要在訓練集上最大程度擬合同時又保證泛化能力,需要不斷分析結果和數據,調優參數,這需要我們對數據分布和模型底層的數學原理有一定的理解。所幸的是如果只是想合理應用機器學習,而不是做相關方向高精尖的research,需要的數學知識啃一啃還是基本能理解下來的。至於更高深的部分,這可能就需要大家再多多得去學習下了,或者在學業上更進一步。

沒有數學的AI都是耍流氓!

A微積分

微分的計算及其幾何、物理含義,是機器學習中大多數演算法的求解過程的核心。比如演算法中運用到梯度下降法、牛頓法等。如果對其幾何意義有充分的理解,就能理解「梯度下降是用平面來逼近局部,牛頓法是用曲面逼近局部」,能夠更好地理解運用這樣的方法。 凸優化和條件最優化 的相關知識在演算法中的應用隨處可見,如果能有系統的學習將使得你對演算法的認識達到一個新高度。

B線性代數

大多數機器學習的演算法要應用起來,依賴於高效的計算,這種場景下,程序員GG們習慣的多層for循環通常就行不通了,而大多數的循環操作可轉化成矩陣之間的乘法運算,這就和線性代數有莫大的關係了 。向量的內積運算更是隨處可見。 矩陣乘法與分解在機器學習的主成分分析(PCA)和奇異值分解(SVD) 等部分呈現刷屏狀地出現。

C概率論與數理統計

從廣義來說,機器學習在做的很多事情,和統計層面數據分析和發掘隱藏的模式,是非常類似的。極大似然思想、貝葉斯模型 是理論基礎,樸素貝葉斯(Na?ve Bayes )、語言模型(N-gram)、隱馬爾科夫(HMM)、隱變數混合概率模型是他們的高級形態。 常見分布如高斯分布是混合高斯模型(GMM)等的基礎。

有了一定的數學基礎後,下面就要開始學習一些典型的演算法。

絕大多數問題用典型機器學習的演算法都能解決,粗略地列舉一下這些方法如下: 處理分類問題的常用演算法包括:邏輯回歸(工業界最常用),支持向量機,隨機森林,樸素貝葉斯(NLP中常用),深度神經網路(視頻、圖片、語音等多媒體數據中使用)。

處理回歸問題的常用演算法包括:線性回歸,普通最小二乘回歸(Ordinary Least Squares Regression),逐步回歸(Stepwise Regression),多元自適應回歸樣條(Multivariate Adaptive Regression Splines)

處理聚類問題的常用演算法包括:K均值(K-means),基於密度聚類,LDA等等。

降維的常用演算法包括:主成分分析(PCA),奇異值分解(SVD) 等。

推薦系統的常用演算法:協同過濾演算法 ,模型融合(model ensemble)和提升(boosting)的演算法包括:bagging,adaboost,GBDT,GBRT

其他很重要的演算法包括:EM演算法等等。

但是 機器學習里所說的「演算法」與程序員所說的「數據結構與演算法分析」里的「演算法」略有區別。前者更關注結果數據的召回率、精確度、準確性等方面,後者更關注執行過程的時間複雜度、空間複雜度等方面。 當然,實際機器學習問題中,對效率和資源佔用的考量是不可或缺的。

演算法是需要實現的。在這個實現的過程中我們需要考慮編程語言,工具和環境。而合適的編程語言、工具和環境能夠幫助我們在數據集上應用機器學習演算法,或者實現自己的想法。對於沒有什麼編程基礎的人來說,把Python語言作為第一門入門AI的編程語言,我覺得是再好不過了,Python很容易上手,同時又活躍的社區支持,豐富的工具包又能幫助我們完成想法。如果學習過其他語言,那麼再好不過了,因為語言都是相同的。在大學裡我們學的第一門語言就是C語言,當時大部分人應該學的都是很痛苦的【樓主就是這樣的,剛上大學時連計算機都玩得不是很好。只會打遊戲】後來學習Java。學習C#都感覺很容易了,因為你有基礎了,說到底編程語言的思想是相通的,不論是面向過程還是面向對象,都會有for循環,if條件判斷等。

在操作系統的選擇上,mac和linux會方便一些,而windows在開發中略顯力不從心。所謂方便,主要是指的mac和linux在下載安裝軟體、配置環境更快捷。 對於只習慣windows的同學,推薦anaconda,一步到位安裝完python的全品類數據科學工具包。

Downloads這個是官網的下載地址。

再加幾個學習資料的鏈接:

Python入門課程英文版:http://pan.baidu.com/s/1geSKxvd密碼:x9f4

python入門課程中文版(包含安裝包):鏈接:http://pan.baidu.com/s/1hs3WclA 密碼:sze4

人工智慧:鏈接:http://pan.baidu.com/s/1dESO03B 密碼:yy1q

好了,今天就說到這裡,下次有時間再更新機器學習的基本操作過程。


基礎

興趣當然很重要。人工智慧本身是一個跨學科的分類。

我個人的學習心得,下面這些基礎知識是挺重要的。

  • 計算機——AI分科划到的CS里,計算機基礎能不重要嗎。
  • 語言學——自然語言處理需要相關知識,說話都聽不懂,那就不叫AI了。
  • 神經科學——AI很重要的一個方向是模擬人腦。
  • 心理學和哲學——什麼是智能,人如何認知,如何學習。這些問題都有心理學和哲學去回答。
  • 控制論——不太懂,感覺是做機器人的吧。

沒有人能完全精通上面所有學科。做一些涉獵,有問題得知道到哪找啊。

學習過程

先推薦兩本書:

  • 人工智慧:一種現代方法
  • 人工智慧:複雜問題求解的結構和策略

這兩本書總體的介紹了AI這個領域的相關知識。究竟怎麼讀,自己把握吧。我的建議是先有個大概的概念結構,然後再決定走哪個分支,補哪些知識。

我也在起步中,希望對你有幫助。

共勉吧!


AI產品經理——成長路

一、AI的興起與互聯網

1. 互聯網的紅利消失

1) PC端和移動端使用人數固定

目前來看,PC端和移動端的每年出貨量都在一個值上下,移動端大概在每年4億台,PC端更少而且每年還在下降。

2) 大流量入口被巨頭瓜分

從平時大部分人的手機端來看,一般人下載的應用就那麼幾個。

聊天(QQ、微信),資訊(今熱頭條、知乎、微博),外賣(餓了么、美團)等軟體,基本上的移動端流量都被這些巨頭給帶走了。

3) 獲客成本大幅度提高

現在已經不是幾個人合作開發個APP就能搞定的年代了,基本上投資家就會問,你是怎樣獲客的,也就是你能找到你的適用人群嗎?怎樣讓人去用它。

2015年打車大戰時,資本投了很多錢,滴滴和快的一年都燒了一個億用來獲客;2016年的共享單車也是一樣。隨著APP的飽和,即使出現一個很好的idea,你都需要大量的資金去燒。

2. 互聯網對傳統行業的改造有限

1) 醫療本質

醫療的本質是醫生給人看病。但是有一個問題互聯網它是解決不來的,那就是全國上下醫生的數量並沒有因為互聯網而增多,數量就那麼多。互聯網的本質是解決了信息的不對稱問題,它把醫生和病人連接在一起,但是本質上還是一個醫生只能看一個病人,只是效率上略有提高,本質問題並沒有解決。

AI可以帶來新的可能,未來她可以在很多方面代替醫生給人看病、抓藥等。從本質上提升了看病的效率。

2) 物流本質

物流的本質上問題也是跟醫療問題一樣,也是一個司機開一輛車,並沒有從根本上解決這個行業的效率痛點。

3) 製造業本質

製造業從第二次工業革命之後,生產效率就沒有大的提升。第一工業革命後,製造業全面升級,伴隨著大量手工業者的失業,隨之而來的是,蒸汽動力帶來的產業鏈革新;而第二次工業革命是內燃機和電力的普及,帶來新的動力,製造業進入飛速發展的時代,從而帶來生產力的進步推動社會的發展;互聯網帶來的三次革命是信息革命,製造業並沒有從中獲取太多的好處,而AI可以為製造業帶來新的可能,大幅度提升生產力。

4) 其他的類似有打車行業、餐飲行業和教育行業等,互聯網也都沒有對其作出根本性的改變。

3. AI有無限遐想

1) 全新的世界

a) 新的交互方式:語音交互,視頻交互,手勢交互

b) 新的購物方式:虛擬試衣

c) 新的遊戲體驗:VR/AR帶來的新一代沉入式遊戲

2) 機會眾多

a) 雙創帶來的AI機會

國家近年來提出的雙創計劃,鼓勵大眾創新創業,而且國家最近又將AI列入國家的發展規劃之中,可見未來AI將會給年輕人帶來很多機會。

b) AI可以帶來新的商業模式

看互聯網的20年發展史可知,互聯網的每一次小小革新都將帶來新的商機和商業模式。乾爹馬雲創立淘寶給商家和用戶直接的交易帶來了可能;小馬哥創立的騰訊帝國帶來了社交方式的突破,讓我明白了「羊毛出在豬身上」的真諦;而最近幾年的共享經濟模式和直播經濟模式又是一個創新的商業模式,並且中國的共享單車被外國人稱為「新四大發明」之一。

3) 大量的工作機會

a) AI訓練師:

這個職業已經在某些招聘網站上可以看到了,而且工資還都不低。

b) 機器人顧問:

我想這個是未來為機器人服務的一個崗位。

c) 虛擬律師:

我想大概將來虛擬產業起來之後,將會有針對虛擬的事物(機器人、智能產品、虛擬的世界NPC等)法律法規,這時這個職業將會應運而生。類似的我猜應該還有機器慰問師等。

d) AI PM:

這個現在應經被大多數科技企業所接受了,也是伴隨著AI而生的。

4. AI將大規模提升生產力

1) 看病效率大幅度提升

AI創企依圖科技已經在和某些三家醫院合作,並採用AI系統平台來代替醫生對腫瘤等影像圖片進行分析了,未來將會在更多的領域協助醫生看病分析病情,改變以往一個醫生在單位時間內的看病效率。

2) 無人車解決交通物流壓力

現如今各大一線城市皆都因為私家車的普及造成交通的堵塞,給大城市的交通運輸造成極大壓力。電商的發展造成物流的運輸壓力。

3) 智慧機器人推進位造業升級

智慧機器人的高精度重複作業既降低了企業的人力成本,也降低了人身安全風險,相反卻可大大提高企業的生產力。

4) 經濟的發展帶動文明的進步

AI帶來的生產力發展,而生產力又是人類文明進步的推動力,文明發展將會為人類探索未知世界(星空、深海、生命的起源等)帶了新的機會和突破。

5) 機器人解決陪伴、護理、客服等問題

5. AI能為用戶打造個性化服務體驗

1) 淘寶能夠根據個人信息匹配衣服尺寸

淘寶上買衣服眾所周知都是看中後詢問客服衣服的尺寸及其他的信息,以後則可以利用機器學習建立每個用戶的尺寸信息和款式愛好等特徵給用戶畫像,下一次買衣服則不用客服來回答用戶的尺寸信息了,直接可以推薦用戶的合適款式。

2) 婚戀網站根據用戶社交屬性打造興趣朋友圈

婚戀交友網站可以利用用戶的數據來訓練機器從而建立模型為用戶畫像,再為用戶推薦匹配交友對象等。

3) 點對點式教育促進個性化知識的傳播

未來的教育形式在滿足普通教育的基礎上,人們越來越崇尚個性化的因材施教方案,而只有利用AI為每一個用戶個性化打造個性化的教育內容。

4) 百度能根據用戶畫像,實現精準搜索

這個百度已經在利用了,不需要多說了。

二、AI PM的必須

1. 演算法的開源和數據資源戰

1) 谷歌和BAT演算法框架的免費

未來的演算法和框架肯定都是免費的,這是大公司們的套路,「羊毛出在豬身上」,大公司靠其他業務盈利如雲計算等。

2) 技術服務利潤窄

3) 數據價值的商業提現

2. 技術人才不一定適用於商業發展的需求

1) 推動社會進步的不是技術的創造而是技術落地的實現者

a) 瓦特發明蒸汽機從而進入蒸汽時代推動工業革命

b) 貝爾發明電話打開通訊時代

c) 愛迪生髮明電燈從而讓人類拜託黑暗

d) 促進信息時代發展的不是互聯網的提出者,而是各大科技公司的CEO們

2) AI技術人才的思維並不一定適用於商業模式的探討

3) 商業落地需要創新意識

3. 產品的落地需要專業人才探討

1) 百度引進陸奇

百度AI技術在中國是走在前列的,領先與BAT中的其他兩家,然而Robin還是去矽谷請來了陸奇為其開拓AI的落地業務,隨之而來的是一大批技術大牛(吳恩達、余凱等)的離去。側面證明了AI產品人在未來場景落地應用方面的重要性。

2) 智能音箱的落地更需產品思維

在美國的所有高科技企業中,谷歌是以技術見長的在AI方面更是技術人才輩出,然而正如陸奇所說的,在矽谷,AI商業化的落地探尋中,亞馬遜才是最成功的(原話不記得了,大概意思是這樣),因為亞馬遜的智能音箱Echo至少是賣火了的,賣出了AI的概念,讓用戶知道了有這麼個高科技玩意。

4. 未來的產品涉及到各個方面(哲學、心理、情感)

1) 智能音箱(情感)

智能音箱中的對話情景涉及到人與人之間的情感分析,這些都不是技術人才能搞得定的,所謂術業有專攻,這些情景類的探尋還是需要懂用戶的產品人來開拓市場。

2) 虛擬購物(懂用戶)

5. 細分行業的垂直應用需要複合型人才開拓

1) 陪伴類機器人需要情感交流

2) 智能投顧需要金融知識

3) 智慧醫療需醫學知識

4) 無人車商用需要懂人文法律

三、未來產品的思考

1. 未來工具

1) 交互工具

人用語音,機器視覺呈現、手錶、頭盔、眼鏡等

2) 交通工具

可能是移動分眾平台、星巴克、書房

3) 社交工具

虛擬社區、主題公園、遊戲世界等

2. AI+行業

1) 定義:AI技術沒發展之前是沒有這個行業的

2) 特點:

a) 行業壁壘較低,和巨頭同一起跑線

b) 機會太少

c) 技術要求高,創業團隊得高大上

d) 創新思維要求高

3) 應用:

a) 無人車:AI技術發展起來之前,誰敢大言不饞的說無人駕駛。

b) 智能音箱:ASR、NLP沒突破之前,智能音箱的概念估計都沒人敢提。

c) 城市大腦:計算機視覺和機器學習的突破才讓圖片分析成為可能,才能幫助治理城市。

d) 人臉識別:這個方向純粹就是計算機視覺和機器視覺發展的產物。

e) 陪伴機器人:未來機器人發展的必經之一。

3. 行業+AI

1) 定義:一直存在的行業,AI只是帶來產業升級

2) 特點:

a) 有很深的行業壁壘,巨頭並沒有什麼優勢

b) 對創業公司更友好

c) 懂AI的行業人才相較AI人才更重要

d) 七成以上的產品落地都在行業+AI上

3) 應用:

a) AI醫療影像

b) 無人物流貨運

c) AI數據投顧

d) 無人零售

e) AI安防

4. 方式的考慮

1) 控制方式

未來產品的控制方式將會更加的自然,從以前的少數極客到受過高等教育的學生再到老人和小孩。

2) 感知豐富

a) 輸入:多種感知方式的輸入,語音、手勢

b) 輸出:語言、圖像、行為

3) 導向:從功能導向到以人為核心

4) 內容

a) 內容標籤化、精細化

b) 內容個性化用戶畫像、精準化

c) 形態:以語音和視頻為主體(不再主動尋找)

5. 產品形態

1) 雲端一體:

a) 端:語音、視覺、行動

b) 云:數據、演算法、服務

2) 形態以方便自然為導向

6. 應用類別

1) 關鍵性應用

a) 用戶承受要求極高,容錯率極低

精確度99%意味著100次出一次事故,99.9%意味著1000次出一次事故,因此技術要求高,非要一些技術大牛坐鎮不可,因此對大部分的創業公司不是很友好。

b) 落地應用

i. 手術機器人

ii. 醫療影像分析

iii. 無人飛行

iv. 智能配藥

v. 無人駕駛

c) 技術要求很高,非高大上搞不定

d) 項目周期長,商業化遙遠,盈利遙遙。

2) 非關鍵性應用

a) 落地應用:

i. 智能安防

ii. 人臉識別

iii. 掃地機器人

iv. 陪伴機器人

v. 送餐機器人

b) 技術要求不高,能達到通用技術即可

c) 用戶承受力期望要求不高

d) 項目周期短,短時間可判斷能否盈利,且對廣大想要在AI上尋找機會的創業者來說更友好一點,機會跟多一點。

四、產品人技能樹

1. AI發展史

1) AI孕育期(1943-1955):計算機器與智能的提出

a) 明斯基和同學造出第一台神經網路計算機

b) 阿蘭.圖靈提出圖靈測試

2) AI的誕生(1956):達特矛斯會議幾個科學家(麥卡錫、明斯基、香農等)提出了人工之能這個名詞,並正式有了概念。

3) 熱情與期望(1956-1973)

a) 西蒙提出物理符號系統

b) 薩繆爾編寫西洋跳棋程序

c) 演算法發明

i. 貝爾曼公式的提出:增強學習的雛形

ii. 感知器的提出:深度學習模型的雛形

d) 人工智慧實驗室在高校(MIT、斯坦福)的建立

e) 廣泛應用於數學和NLP領域以解決代數、幾何證明和英語問題

4) 第一次寒冬(1974-1980)

a) 邏輯證明器、感知器、增強學習只能夠做簡單的任務

b) 數學模型被發現有缺陷

c) 政府中斷合作並轉移資金,社會輿論壓力

5) AI崛起(1980)

a) 專家系統的提出

b) BP演算法的提出

6) 第二次寒冬(1987)

a) 蘋果和IBM生產的台式機性能超越專家系統性能

b) 美國政府項目局否決AI為下一個浪潮

7) 現代AI(21世紀初左右)

a) 1997年IBM深藍戰勝國際象棋冠軍

b) 2009年羅斯聯邦理工學院的藍腦計劃成功模擬部分鼠腦

c) 大數據導致深度學習興起

d) 2011年IBM沃森挑戰智力問答節目「危險邊緣」奪冠

e) 2016年阿法狗戰勝人類圍棋冠軍

f) 2017年AI被列入各大國的戰略發展規劃中

2. AI通識理解

1) 基礎計算能力層:雲計算、GPU等硬體加速,神經網路晶元

2) 技術框架層:TensorFlow、Caffe、Theano、Torch、DMTK、DTPAR、ROS等框架或操作系統

3) 演算法層(機器學習)

a) 監督學習

i. 定義:已標註的數據為老師,機器得出模型,然後輸出預測數據結果

ii. 解決問題

① 回歸問題

② 分類問題

iii. 演算法模型

① 線性回歸模型

② K-近鄰演算法

③ 決策樹

④ 樸素貝葉斯

⑤ 邏輯回歸

b) 半監督學習

i. 定義:通識使用未標註和標註的數據訓練模型來進行模式識別工作

ii. 解決問題

① 垃圾信息過濾

② 視頻網站分析

iii. 演算法模型

① 半監督SVM(支持向量機)

② 高斯模型

③ KNN模型

④ Self-trainning

⑤ Co-trainning

iv. 優點

① 相比監督學習,節約人力成本,提高投入產出比

② 相比無監督學習,可以得到分配更高精度的模型

c) 無監督學習

i. 定義:不給機器提供已標註的數據,讓機器自己對數據進行處理並輸出結果

ii. 解決問題

① 關聯

② 聚類

③ 降維

iii. 演算法模型

① K均值演算法

② 自編碼

③ 主成分分析

④ 隨機森林

d) 強化學習

i. 定義:機器感知環境的正狀態轉移時會反饋給機器的一個獎賞,使機器學習朝著正信號趨勢學習,從而使累積獎賞值最大。

ii. 解決問題

① 自動直升機

② 機器人控制

③ 手機網路路由

④ 市場決策

⑤ 工業控制

⑥ 高效網頁索引

iii. 演算法模型

① K-搖臂賭博機(單步強化學習任務)

● ε-貪心演算法

● Softmax演算法

② 有模型學習(多步強化學習任務)

● 基於T步累積獎賞的策略評估演算法

● 基於T步累積獎賞的策略迭代演算法

③ 免模型學習

● 蒙特卡羅強化學習

a) 同策略

b) 異策略

● 時序查分學習

a) Q-學習演算法

b) Sarsa演算法

④ 模仿學習

e) 遷移學習

i. 定義:指從一個領域的學習結果遷移到另一個學習領域

ii. 解決問題

① 終身學習

② 知識轉移

③ 歸納遷移

④ 多任務學習

⑤ 知識的鞏固

⑥ 上下文相關學習

⑦ 元學習

⑧ 增量學習

iii. 演算法模型:TrAdBoost演算法

f) 深度學習

i. 定義:多層神經網路

ii. 解決問題

① 預測學習

② 語音識別

③ 圖像識別

iii. 演算法模型:RNN、DNN、CNN

iv. 優點

① 從特徵中檢測複雜的相互作用

② 從幾乎沒有處理的原始數據中學習低層次的特徵

③ 處理高基數類成員

④ 處理未標記的數據

4) 通用技術層

a) 語音識別(ASR)

i. 概念

① 原理:輸入——編碼——解碼——輸出

② 識別方式

● 傳統識別:一般採用隱馬爾可夫模型HMM

● 端到端識別:一般採用深度神經網路DNN

ii. 遠場識別

① 語音激活檢測VAD:遠場識別信噪比(SNR)比較高

② 語音喚醒:智能設備需要語音喚醒詞來使其工作

③ 難點

● 喚醒時間:用戶發出語音到設備響應用戶所花時間(目前還是略長)

● 功耗:目前功耗並不低

● 喚醒詞:一般在3-4個字

● 喚醒結果

a) 漏報:喊他他不應(喚醒詞字數太多容易發生漏報)

b) 誤報:沒喊他他應(喚醒詞字數太少容易發生誤報)

iii. 麥克風陣列

① 背景:在複雜的背景下經常有各種雜訊、回聲、混響來干擾識別場景此時需要麥克風陣列來處理雜聲。

② 作用

● 語音增強

● 聲源定位

● 去混響

● 聲源信號的提取和分離

③ 分類

1. 線性:一維(180度)

2. 環形:二維(360度)

3. 球形:三維空間

④ 個數

1. 一般常用為2、4、6麥

2. 單麥、雙麥、多麥在嘈雜環境下拾音效果差距較大

3. 5麥和8麥在安靜環境下效果相當

iv. 全雙工

① 單工:A和B說話,B只能聽A說

② 半雙工:A(中路miss了,下路注意了,完畢) B(下路收到,完畢)

③ 全雙工:兩人多輪對話,可插話和打斷

v. 糾錯:對識別的語句進行糾錯

b) 自然語音處理(NLP)

i. 過程

① NLU(自然語言理解)

② NLG(自然語言生成)

ii. 難點

① 語言歧義性:意思意思(到底是什麼意思,機器無法弄明白)

② 語言魯棒性:句子多字少字錯字,語法錯誤(這個人都經常出錯,機器現在還無法搞定)

③ 知識依賴:蘋果(這個到底指「水果」還是指「手機」)

④ 語境:上下文的語境分析(她走了——她到底是哪個呢)

iii. 解決方法(這個太多了就不細說了,深究的同學可自查資料)

① 規則方法

② 統計方法

③ 深度學習

④ 關聯方法

iv. 應用

① 句法語義分析

② 信息抽取

③ 文本挖掘

④ 機器翻譯

⑤ 信息檢索

⑥ 問答系統

⑦ 對話系統

c) 語音合成(TTS)

i. 實現方法

① 拼接法:

1. 定義:從事先錄製的大量語音中,選擇基本單位(音節、音素)拼接而成,為了連貫性常採用雙音子(一個因素的中央倒下一個因素的中央)作為單位。

2. 優點:語音質量較高

3. 缺點:資料庫較大,一般需幾十小時的成品語料,企業級商用的話需5萬句費用在幾百萬。

② 參數法:

1. 定義:根據統計模塊來產生每時每刻的語音參數,然後將參數轉化為波形,主要分三個模塊:前端處理,建模和聲碼器。

a) 這句話的語氣語調,節奏,韻律邊界,重音,情感

b) 拼接法和參數法,都有前端處理,區別在於後端聲學建模方法。

2. 優點:個性化的TTS大多是用參數法可節約時間成本

3. 缺點:質量比拼接法差一些,因為受制於發生演算法,有損失。

ii. 評判標準(評判TTS系統的好壞)

① 主觀測試:人為評測(人為來聽)

② 客觀測試:系統評測(機器評測)

iii. 瓶頸和機會

① 數據匱乏(可用的語音數據)

② 人才匱乏:TTS人才相比於AI中的NLP和CV類人才太少

③ 產品化難度高

● 用戶預期場景較複雜

● 技術現在還有較多難點

● 細節設計還需較多斟酌

④ 商業化壓力

● 項目周期較長(這個需要長時間的數據和技術的積累與沉澱)

● 細分場景上的切入目前還處於早期階段,試錯成本較高

d) 計算機視覺(CV)

i. 發展階段(四個階段)

① 馬爾計算視覺階段

● 計算理論

● 表達和演算法

● 演算法實現

② 主動和目的視覺階段

③ 多視幾何和分層三維重建階段

● 多視幾何

● 分層三維重建

● 攝像機自標定

④ 基於學習的視覺階段

● 流形學習

● 深度學習

ii. CV應用的處理過程

① 成像

1. 定義:模擬相機原理(怎樣把照片的質量進行提升)

2. 影響圖片因素

a) 光照影響

i. 從產品角度控制:可以通過提醒來改變用戶的使用場景;通過升級或變更硬體設施來提升產品的體驗

ii. 從演算法角度控制:利用演算法對圖片進行處理來提升圖片的質量

b) 模糊

i. 運動模糊:人體、車輛、攝像頭的移動造成

ii. 對焦模糊:攝像頭的距離、質量和天氣等因素造成

iii. 低解析度差值模糊:小圖放大和攝像頭硬體等設備造成

iv. 混合模糊:多重模糊存在

c) 雜訊、解析度

② 早期視覺

1. 定義:圖片的處理加工過程

2. 圖像分割

3. 邊緣求取

4. 運動和深度估計

5. 圖像拼接

6. 目前問題

a) 結果不精確

b) 需要長時間的知識沉澱

③ 識別理解

1. 定義:把一張圖片對應到一個文字、一張照片或標籤

2. 標籤

a) 越精確對模型越有利,但數據就會越少

b) 主觀因素影響

c) 細分標籤

3. 數據優化

iii. 研究內容(此部分還未總結完,感興趣的可自己探尋)

① 空間視覺

② 物體視覺

iv. 典型物體表達理論

① 馬爾的三維物體表達

② 基於二維的圖像物體表達

③ 逆生成模型表達

v. 應用發展趨勢

① 人臉識別

② 圖片搜索

③ 個性化廣告投放

④ 即時定位與地圖構建

3. AI產品理解(此部分還未涉獵)

1) 人人都是產品經理(AI時代應該也不變)

2) 產品理解

a) NLP類

i. 對話機器人(圖靈的BabyQ、微軟小冰)

ii. 語音搜索(百度、谷歌)

iii. 智能語音輸入法(訊飛、搜狗)

iv. 智能音箱(喜馬拉雅和獵戶星空的小雅音響、亞馬遜的Echo)

b) CV類

i. 無人機(大疆)

ii. 醫療影像分析系統(依圖科技的胸部CT智能輔助診斷系統)

iii. 無人駕駛(馭勢科技、百度、谷歌)

iv. 安防

c) 機器學習類

五、產品人上車(都是自己平時涉獵)

1. 思想上認識到AI的重要性:認識到AI時代確實是已經來了,主要開闊一下視野

1) 書籍

a) 奇點臨近

b) 未來簡史

c) 智能時代

d) 人工智慧時代

e) 智能主義

f) 科學的極致——漫談人工智慧

2) 視頻(影視)

a) 人工智慧

b) I robot

c) 西部世界

d) 終結者

e) 黑客帝國

2. 理論知識

1) 書籍

a) 機器學習(周志華)

b) 機器學習實戰

c) 數學之美

d) 統計學習方法

e) 人工智慧—一種現代的方法

f) 計算機視覺——演算法與應用

2) 視頻

a) Ng的機器學習 課程(網易公開課)

b) 楊瀾的AI訪談節目

c) 北大的人工智慧公開課(網易雲課堂)

3) 網站

a) 知乎(所有AI的問答和知乎Live)

b) 簡書(所有AI文章)

c) 人人都是產品經理(產品經理學習的最佳社區)

d) 36氪(AI行業研究報告和AI新聞)

e) CSDN(可以跟隨AI方面的博主學習系統的AI知識)

f) AI論文下載網(有些是要花錢的,但對未來的投資來說都是些小錢)

i. 維普

ii. 萬方

iii. 中國知網

iv. 谷歌學術

4) 資訊

a) 36氪

b) 虎嗅

c) 極客公園

d) 商業周刊

e) 中關村在線

5) 微信公眾號

a) 飯糰AI產品經理大本營(這個是業內最早成立的AI PM社區,有很多AI PM的開拓者在這裡分享乾貨,不過要花點錢)

b) 集智俱樂部(科學的極致——漫談人工智慧,這本書是這個俱樂部出的)

c) 量子位

d) 專知(有很多AI的專業知識和大佬見解)

e) AI科技大本營

3. 整理輸出:看完書或者視頻之後一定要輸出自己的內容

1) 簡書(輸出自己所得所想)

2) 知乎(輸出自己所得所想)

3) CSDN(輸出自己所得所想)

4. 研究行業

1) 政策

a) 國家AI規劃

b) 人才扶持政策

c) 創業資金扶持政策

2) 市場及融資

3) 城市對比(北上廣深杭成武)

a) 人才對比

b) 行業完整對比(產業鏈雛形)

c) 行業集中度及公司分布

d) AI氛圍對比

4) 細分行業切入

a) 醫療

b) 無人車

c) 安防

d) VR/AR

e) 機器人

f) 金融

5) 公司選擇

a) 晶元類:寒武紀、地平線、深鑒科技

b) NLP類:圖靈機器人、艾特曼、思必馳、雲知聲、科大訊飛

c) CV類:商湯科技、曠視科技、依圖科技、雲從科技、碼隆科技、極視角科技

d) 機器人類:優必選、圖靈機器人、Rokid

e) 平台類(巨頭):百度、阿里、騰訊、京東、小米

f) 應用類:乂學教育、智齒科技、出門問問

g) 駕駛類:馭勢科技、圖森未來、奇點汽車

h) 細分類:匯醫慧影(醫療)、第四範式(金融)、量化派(金融)、碳雲智能(醫療)

6) 上車

a) 挑選公司

i. 查找AI創企的相關榜單並總結出公司的上榜次數

ii. IT桔子查找相關公司的公司狀況

iii. 上知乎和拉鉤查找相關公司的員工評論和介紹

iv. 上脈脈勾搭相關公司的在職人員了解公司詳情

v. 上公司官網體驗公司產品並總結輸出

b) 研究相關公司

i. 公司定位及主要產品

ii. 創始人及團隊

iii. 戰略融資情況

iv. 公司合作夥伴

v. 公司核心技術

c) 上車

i. 投簡歷

ii. 拿著研究報告上門找Hr談

iii. 拿著在知乎、簡書、CSDN上的輸出內容找人談

iv. 認識行業內的人,找人內推(AI產品經理大本營、產品社區)

六、自我思考

1. AI時代的交互方式

1) 交互更加自然簡便

2) 人用語音(手勢)與機器交互,機器用圖像與人交互

3) 更容易攜帶(手錶、眼鏡等其他硬體產品作為承載)

2. 機器的存在方式

1) 工具

2) 寵物

3) 朋友

4) 陪伴的親人

5) 戀人

3. 新的職位

1) 機器訓練師

2) 機器人保險/顧問

3) 無人車管理員

4) 機器人4S店

5) 機器人糾紛解決師

4. 未來的消費

1) 無人零售

2) 虛擬消費

a) 虛擬遊戲

b) 虛擬社交

c) 虛擬旅行

以上都是自己平時知識的一些總結,只是一些個人的愚見,下面出現的公司、書籍、視頻、網站都是自己看過體驗過的。

同志們有用的話,文章左下角是不是有個「點贊」按鈕很可愛啊,可愛的話點一個唄!畢竟開車也累啊,雖然剛拿到駕照哈哈 。

「滴,學生卡」,又要上車了。

不同意見的評論區留下意見。


1500G人工智慧資料下載地址 - 知乎專欄

這是AI垂直媒體@智能玩咖 (VRdaxue)的館藏,現在分享給大家。

800G人工智慧學習資料下載鏈接

鏈接: https://pan.baidu.com/s/1eSnAZse 密碼: j9sk

人工智慧圖書館

人工智慧學術論文資料下載鏈接:

鏈接: https://pan.baidu.com/s/1eSCD8Tc 密碼: itu1

人工智慧融資資料庫下載鏈接:

鏈接: https://pan.baidu.com/s/1c23ohbi 密碼: wa9k

人工智慧深度解讀資料下載鏈接:

鏈接: https://pan.baidu.com/s/1pL0PQ7T 密碼: 7ed2

人工智慧政策庫下載鏈接:

鏈接: https://pan.baidu.com/s/1bpd7L5l 密碼: 2rrq

人工智慧各類報告庫匯總下載鏈接:

鏈接: https://pan.baidu.com/s/1eRJiReE 密碼: hq3s

人工智慧技術庫資料下載鏈接:

鏈接: https://pan.baidu.com/s/1hssqEKO 密碼: vpge

最詳細的人工智慧歷史資料下載鏈接:

鏈接: https://pan.baidu.com/s/1nvr05Fb 密碼: zi6b

知名人工智慧公司介紹資料下載鏈接

鏈接: https://pan.baidu.com/s/1o817TN0 密碼: 84yq

人工智慧領域重要產品介紹資料下載鏈接

鏈接: https://pan.baidu.com/s/1o817TN0 密碼: 84yq

人工智慧與行業資料下載鏈接

鏈接: https://pan.baidu.com/s/1qYFGU4k 密碼: ffih

人工智慧電子書庫

26本深度學習電子書下載鏈接:

鏈接: https://pan.baidu.com/s/1jI5dM6a 密碼: j6s6

61本機器人電子書下載鏈接

鏈接: https://pan.baidu.com/s/1slhOZE1 密碼: d8rf

37本大數據電子書下載鏈接

鏈接: https://pan.baidu.com/s/1o8t0yOq 密碼: 4pte

30本人工智慧電子書下載鏈接

鏈接: https://pan.baidu.com/s/1cu4ID4 密碼: vtwq

(更多人工智慧資料請關注公眾號@智能玩咖)

下面是部分資料的截圖,感興趣或者想加入中國最大的人工智慧社群的,搜索公眾號@智能玩咖 即可。


沒法自學


抱歉,被邀請,但我的那點知識不足以支撐回答。


題主,你基本只會扯淡。我都不知道你是不是理科生,是不是計算機或相關專業的。有問題這樣問的嗎?

一句「零基礎」,我怎麼知道你會不會微積分,會不會矩陣論、概率論和統計學?

假如以上都不會或很差,那真的沒什麼希望。

但既然回答還是應該說下,就先從我們CS專業大一大二的基礎課程補起。如果全職學習,一年足矣。再加上數據結構、演算法、離散數學、組合數學(你把它倆看成一個我也沒意見),學完,總共用一年半算快的。

但到此,你連人工智慧的門還沒摸到呢。接下來是專門讀一些概論性的書籍,還有機器學習、深度學習有關課程。畢竟,符號主義、連接主義等學派我們都要學。這些研究生一年級能拿下就不錯了。我現在還在為人工智慧痛苦掙扎呢,不然也不會看到這道題。

你自己盤算下吧,反正人工智慧當談資很簡單,但有資格(基礎)學習它的人其實比談論它和對它好奇的少太多。


謝邀

首先告訴題主,在下是文科生

對人工智慧只是有些個人小興趣

對題主自學的需求,只有點點建議

如果是對理論學有興趣

題主可以大可自己找一些感興趣的人工智慧類書籍先看看

比如《人工智慧的未來》、《可透視化未來》、《機器人浪潮》這一類的通俗易懂的書籍

可以先給題主一個比較直觀的人工智慧的觀念

專業一點的解讀《人工智慧及其應用》、《人工智慧與人工生命》

產業類觀點的《人工智慧時代》

這些對於了解人工智慧的現狀,未來及時代地位可以有比較直觀的了解

如果是學術類、技術類的學習

題主可以考慮從計算機專業入手

畢竟人工智慧是在計算機產業發展的一個延伸

需要深厚的計算機知識與編程知識

這一塊,很多朋友已經給了你指導啦,我就不多說了


首先你需要具備以下基礎:

數學基礎:高等數學,線性代數,概率論,數理統計

計算機基礎:至少一門編程語言,演算法與數據結構,離散數學

具備這些之後,才有繼續學習的能力。


Artificial Intelligence:A Modern Approach

此書已讀2/3的樣子,基本覆蓋了大部分AI領域的知識點。

另外深深地感覺到統計學如果學的很好,對AI領域的知識點理解幫助真心是巨大的,我粗暴的認為統計學功底比編程能力還重要,在AI領域...


https://www.edx.org/course/uc-berkeley/cs188-1x/artificial-intelligence/579


人工智慧之機器學習路線圖 - 博客頻道 - http://CSDN.NET
http://blog.csdn.net/baihuaxiu123/article/details/52464510


人工智慧目前是個前沿學科。

當前對於人工智慧的解決方案,似乎很難逃出自動化和功能軟體的範疇。

即,當前研究人工智慧,就像是物理學家在探尋新的自然規律。

你需要具備幾個要素:

1.知識積累

2.思維能力

3.不局限和幻想意識

4.最重要的,要有興趣

然後你得自己尋找答案,和建立解決方案。

在真正的切實可靠的,完美的意識模型產出以前,你也許很難得到經濟回報。

因為很難證明你的努力有價值。

從而在其他方面,也很難被人理解。

增補:

急切的市場化,急切的從現有的技術中汲取價值產出的慾望,正是阻撓真正的,貼近自然意識模型本身的模型出現的一個原因。對於建立一個大模型而言至關重要的某些技術和內容,在單獨創造商業價值方面很可能是毫無用處的。

所以西方許多著名科學家西方許多著名的科學家都是以科學研究為副業的——他們不靠這個吃飯。他們之所以不靠這個吃飯,並不是因為他們有興趣,而是因為他們有其它渠道保障自己的物質需求得到高度滿足。


可以通過了解人工智慧背後的名人歷史開始入門 。

我在公眾號里有系統地總結人工智慧發展的歷史以及背後推動的牛人們。這裡我將資源貼出來供大家翻看。

在「易圖秒懂の人工智慧誕生」裡面, 我們介紹了從羅素-&>維納-&>麥卡洛克-&>皮茨-&>羅森布拉特這個神經網路誕生的主線; 在這個主線裡面, 暗含了邏輯-&>控制-&>神經網路領域遷移。 也介紹了「二大會議」的人工智慧誕生的主線:西克森研討會-&>達特茅斯Dartmouth會議; 在這個主線裡面,馮諾依曼和圖靈的影響釋放 -&> 麥卡錫,閔斯基和香農的影響釋放 -&> 司馬賀 和 紐厄爾的影響釋放, 這樣一脈傳承的影響釋放和傳播。

在「易圖秒懂の符號主義誕生」裡面, 介紹了搞經濟學的司馬賀搞起人工智慧來, 一發不可收拾, 司馬賀和學生紐厄爾,還有另外一個學生費根鮑姆 都是圖靈獎得主。 他們的突破性研究帶來了專家系統, 開啟了這個符號主義時代最優秀的應用。

在「易圖秒懂の連接主義誕生」裡面, 介紹了羅森布拉特的感知機被閔斯基的XOR問題打死之後, 雖然隨後韋伯斯發明BP演算法搞定XOR,但是閔斯基的這次悶棍太狠, 神經網路完全無法還魂。 新的救世主是作為物理學家的霍普菲爾德,繞道電子工程威德羅的ADALINE, 大爆發了霍普菲爾德網路, 神經網路起死回生。 這次起死回生並不容易, 霍普菲爾德得道於:1)SOM的作者,科荷倫鼓吹的 Content-Addressable Memories (CAM);學習到網路結構。 2)利特爾的能量函數(基於能量的學習); 學習到優化目標。 3)李雅普諾夫的Lyapunov Function; 學習到優化方法。 4)威德羅的ADALINE; 學習到迭代學習。 霍普菲爾德網路深深刺激了到DNA雙螺旋的創建者克里克, 這位大師在繼承了心理學大師曼德勒的實驗室之後, 糾集了實驗室三大員工:心理學大師埃斯蒂斯的學生魯梅爾哈特; 理論化學家、認知科學大師Christopher的學生辛頓;和認知科學大師諾爾曼。 克里克就這麼搞起了神經網路,並且第一次在Nature上鼓吹神經網路。 這樣, 一幫心理學派的弟子們在搞神經網路的時候, 將認知科學融合了進來, 誕生了連接主義。魯梅爾哈特和 辛頓一起, 簡化了BP演算法。 讓BP盛行了起來。 另外, 以魯梅爾哈特為代表的連接主義, 培養了下一代的喬丹。他和辛頓一起,同時也造就了貝葉斯網路和深度神經網路在機器學習中的極大發展。

在「易圖秒懂の深度學習誕生 問題篇」,描述了霍普菲爾德網路衍生的Simple Recurrent Network 在被Schmidhuber用來做語音識別時候效果不好, 讓他的碩士霍克賴特去研究為什麼效果不好。 霍克賴特一發而不可收拾, 發現了Gradient Vanishing問題,搞出了LSTM,可惜Schmidhuber沒有混連接主義的圈子。 喬丹的一個搞自然語言處理的博士後本吉奧開始把Gradient Vanishing問題在連接主義的圈子裡宣傳開了。

在「易圖秒懂の深度學習誕生 發展篇」, 描述辛頓,改進了霍普菲爾德網路到玻爾茲曼機, 最後和自己的深度信念網路融合,誕生了深度玻爾茲曼機。 另外,辛頓一個搞圖像識別的博士後楊樂昆再造了福島邦彥的Neocognitron, 成為了LeNet CNN。 這樣DBM,LSTM, CNN三架馬車帶動了深度學習的發展。

哪些行業的人發展了神經網路?

在神經網路發展史上, 生物學的, 心理學的,神經科學的, 計算機的, 電子電路的, 物理的, 數學的, 邏輯的, 你方唱罷我登場, 一路不通換一路, 終於發展到今天。

搞控制、計算機的人架了骨:

搞控制的人搞了, MP神經元模型骨子裡就是一個支架, 不會自我學習。 但是後來發展成立神經元。

搞計算機的人搞了Content-Addressable Memories, 也是一個骨架, 沒有太多自我學習。 但是後來發展出了霍普菲爾德網路。

搞心理學,生物學,神經科學, 腦科學的人造了血:

赫布從行為學發展了Hebb Learning Rule,也啟發了Delta Learning Rule, 為感知機和ADALINE的誕生, 賦予了學習機制: 學習目標和手段。

威澤爾和胡貝爾研究的視覺神經,讓cross-correlation和腦相關性研究, 能量函數, 有了學習的目標。

搞數學的人賦予了髓 和 搞認知的人賦予了神:

李雅普諾夫的收斂性證明, 塔克的KKT條件,芬切爾的凸優化理論, 從此 有架構(骨),有目標(血), 有演算法(髓)。 再加上搞認知的人賦予了新的分散式表達和網路的神!開啟了從人工智慧到深度學習的大爆發

哪些牛人在早期神經網路的應用:圖像識別(人臉,手寫體),語音識別,文本分析?

福島邦彥使用了Neocognitron做手寫體識別。

科荷倫使用了Self-Organising Map做人臉識別。

Schmidhuber使用了RNN做語言識別。

本吉奧使用了NNLM做機器翻譯。

所有這些細節,都可以從下面這個超級龐大的關係圖譜中找到!

從上面這個更大的錯綜複雜的網路裡面, 你也可以挖掘出來新的內容, 希望你也能進行按你的知識去理解一下, 哪些是你喜歡的部分, 哪些還有缺失的部分, 哪些可以反饋改進。


題主就是因為興趣想學人工智慧,又沒說將來要做人工智慧的職業,結果回答的一大堆人不是找了很多借口,就是列超多書單。強烈鄙視說題主什麼都不懂只會扯淡的人,難道你學計算機之前什麼都懂了嗎?多學了點知識就學會看不起人了。我覺得他就只要會Python和Matlab編程,然後找智能演算法的書看看,編一編不是很好嗎?現在智能演算法在MATLAB裡面有很多人寫好的工具包,用著玩玩肯定沒問題。學校里辦數學建模的時候,做數學實驗的時候,我們就這麼玩玩,覺得挺開心的。


專業的培訓,必備的工具都是必不可少的。

你的知識就是你的工具。

沒有基礎學科墊底,完全從0開始?

的確,沒有不可能,但是你至少需要5年的時間來打好基礎。


推薦閱讀:

求大神通俗易懂的解釋下交叉驗證cross-validation?
IBM 是如何訓練「沃森」人工智慧平台的?
家庭智能機器人現在已經萬事俱備只欠喬布斯了,對嗎?

TAG:人工智慧 | 演算法 | 計算機 | 自學 | 人工智慧演算法 |