16年數據科學圈摸爬滾打,能給初學者的話都在這了
華院數據科學家 段勇
「16年前我開始轉型學數據挖掘,那時候的我不是學計算機專業的,也不是學數學的。一個工科男,還好我在當時意識到數據在未來會有很大的前景,也慶幸那時毅然決然的選擇,一步一步走到今天,趕上了大數據時代的浪潮。」
「擔心強人工智慧對人類的影響我覺得目前來看是杞人憂天的。」
「領域知識、編程語言、數學統計學,三者並存才能稱為合格的數據科學家。」
——段勇
3月24日容大教育舉行了新一期人工智慧+大數據高端培訓班的開班典禮,為了讓初學者更好的了解整個人工智慧行業發展,我們特意請來了一位神秘嘉賓,他就是大數據技術和應用領域專家,華院數據科學家段勇老師。
作為在數據科學領域深耕十餘年的前輩,段勇老師見證了大數據、人工智慧在實踐領域的發展與運用,也以一個過來人的身份,用最簡單的語言給大家講解了人工智慧行業前景,機器學習與深度學習演算法的概念聯繫,Python語言在人工智慧領域的應用。按照段老師的說法,是十六年前的決定讓自己預定了浪潮之巔的一席之地,也告訴我們一個決定往往勝似再生。下面就讓我們看一看段老師都講了哪些乾貨。
1什麼是人工智慧?
一提到人工智慧大家都覺得高大上,尤其是最近幾年人工智慧這個詞變的很火,前年到去年很火,但實際上人工智慧是一個非常古老的話題了,比大數據要早很多,1956年的時候在當時的一個達特矛斯會議上面正式提出的。
那什麼是人工智慧呢?其實人類一直以來都是有一個夢想,想造一個機器人,讓這個機器人具有人類的一些智能,這其實就是人工智慧最初的一個定義。那什麼是機器呢?這裡的機器大家不要狹義的理解為一個人型的機器人,它可能就是一段程序,就是一段計算機程序,它是一個軟體,我們也把他稱為一個機器人,只要它具有人的這樣一些基本的智能的這種行為,那麼我們就認為人工智慧。
對於人工智慧的理解呢,其實每個人心中都有一個自己想像的場景,有人想像的人工智慧是像《終結者》那樣的統治地球的一些機器人,可能我想像的就是一段計算機程序,只是他能比較自動化的處理一些數據,所以每個人想像的人工智慧其實是五花八門。
在這裡我要跟大家去做一些概論上的一些梳理,給大家建立一些正確的人工智慧觀。
2弱人工智慧與強人工智慧
人工智慧一般我們來說分為弱人工智慧和強人工智慧。人工智慧呢實際上就是一些在特定領域具有一定地智能的機器人或者程序。這個初學者請一定要注意,弱人工智慧它是在特定領域具有人工智慧的。
打一個比方,AlphaGo它在圍棋領域他具有如人類一般的棋藝,這種也是屬於是弱人工智慧,而我們需要為APP開發一個推薦系統,那這個推薦引擎就是在針對這個APP的業務層級內為用戶做一些推薦,它也是在特定領域具有了一定智能,也屬於一種弱人工智慧。
強人工智慧,有著最終最強大智能的機器或者程序,它具有自我意識,它能夠推理能夠學習,它能解決問題,其本質與人類一樣。人之所以能夠統治地球成為整個地球主人的主要原因在於思想,人是具備自我學習的能力,如果有一天能造一款機器,它和人同樣具備這樣的能力,那麼這就是強人工智慧。
但事實上,現在強人工智慧仍舊屬於概念階段,且研究進度非常緩慢,甚至有些人建議要立法不能研究強人工智慧,因為這涉及到的是人類人倫的問題,就跟我們不能克隆人一樣。所以說強人工智慧目前是一個較少人在研究的領域,並且很多人不主張研究強人工智慧,現在擔心強人工智慧對人類產生的影響,我覺得還為時尚早。
3弱人工智慧的廣泛應用
我們現在在研究的人工智慧基本集中在弱人工智慧,在弱人工智慧方向上呢,又有一些特定領域的應用,這邊就給大家介紹一下:
推薦系統,是我們最熟悉的,我們每天都能感受到推薦系統給我們帶來的便利,每天推送的頭條,只要你刷新就可以看到應用上推薦你最感興趣的一些新聞。我們在淘寶上購物,在淘寶上永遠會推薦你喜歡或者你近期感興趣的商品,推薦系統可以說是互聯網最成功的人工智慧應用方向之一了。
精準廣告,站在廣告平台的這一方,目標就是研發一個引擎向廣告受眾呈現一個用戶最有可能點擊到的廣告,這就是開發廣告演算法核心的思維,如果你能讓這個廣告點擊率提高一倍,那麼就意味著廣告平台的收入提升了一倍。所以說精準廣告,廣告演算法也是當今互聯網最成功的人工智慧應用之一。而且他直接與錢有著非常大的關係,整個演算法的提升將直接為企業、廣告平台方的提升收入。
精準營銷,與精準廣告有一個差別,廣告可以理解為營銷的一種,但我們這裡指的「營銷」更多是客戶關係管理,是企業對於其客戶價值的深入挖掘。第一次在這家店買了衣服,第二次可能會給他推薦相應的新款,營銷過程中可能會涉及到一些推薦,也會涉及到對客戶是否接受推薦做出的預測,對目標客戶篩選,用戶畫像的描繪等等,目的是希望營銷成功率變得更高,這也是人工智慧的一個應用。
風險控制,我們都有申請信用卡的經歷,信用卡公司拿到每個人的資料,他們在背後都會做一件事情,首先根據你的申請表做一個評估,然後還會查一下你在央行的數據,最終來評估你的風險程度,再決定要不要給你發不發卡,發了給你多少額度,那麼這個背後就是一個風險識別模型,這個模型也屬於弱人工智慧。
以上四個在實際在我們企業中應用廣泛,其他的一些與我們常人理解的人工智有著感官上更加貼近的關係,人工智慧顧名思義該是與人的感知認知相關的能力。前面所講的應用偏向於商業,圍繞這客戶、營銷,其實不管圍繞著哪個,其本質都是一樣的,只不過大家認為於聽覺、視覺有關的,如在圖像、文本、語音這方面的應用才更像人工智慧。
人臉識別,圖像領域上最成功的就是人臉識別,已經屬於非常落地應用了,我們經常坐飛機在安檢時,設備直接採集人臉圖像比對身份證很快判斷是否一致。車牌識別,上海很多的停車場已經可以做到自動識別車牌然後在線付費。自動駕駛則是綜合了定位、感知、決策、控制一些功能於一體的人工智慧系統,雖然功能非常強大,但是它也屬於弱人工智慧範疇。語音識別這個是我們說人工智慧對人類工作起到作用最明顯的工作,以前都有速記員,現在會議現場就能做到直接語音轉化文字,準確率95%以上,再有就是文本轉語音,語音合成,我們的導航收音就是語音合成,採集好林志玲的聲音,然後進行合成。自動翻譯,藉助設備就可以與其他國家的人進行對話。
以上這些都是人工智慧,以上每個方向都值得深入研究,我們很難找到在這些領域都可以涉獵掌握精深,初學者需要有對這些行業應用有一個基本認知,學習好基礎,然後集中在一個方向深耕發展。
4人工智慧、機器學習、深度學習
今天我要給大家澄清一下人工智慧,機器學習,深度學習之間的關係。人工智慧的發展有三個高潮,第一個便是人工智慧的概念的提出。人工智慧,最早於這三個名詞誕生,可以說是三個領域中的老大哥,他也是包含範疇最為廣泛的,因為人工智慧除去數據、演算法以外,還包括很多控制理論,機器人學等等,演算法只是其中一部分。
機器學習是被人工智慧所包含的,在上世紀五十年代提出人工智慧之後,並沒有產生很明顯的熱潮,原因是尚未有辦法實現人工智慧,機器學習是在80年代逐漸發展起來,這也是第二個高潮。它是實現人工智慧,實現智能演算法非常重要的技術,換句話說,人工智慧的智能實現方法就是機器學習。
深度學習是高級的機器學習技術,2012年以後深度學習崛起後帶來了人工智慧發展的第三次高潮。深度神經網路技術得到了突破,尤其是卷積神經網路和遞歸神經網路這兩種為代表的技術。機器學習的技術較多經常聽到的是如決策樹、隨機森林等等,機器學習的演算法非常多,深度學習的演算法相對比較窄點,主要說的就是整個深度神經網路,雖然窄點但是在特定領域演算法精度非常高。正因為這樣這樣的技術的發展,像我們今天的圖像、文本識別,才能取得了突破。
5發展趨勢
上面一圖我們可以看到機器學的發展趨勢,十六年前我入門的時候,並沒有大數據、機器學習這樣的辭彙,我們叫數據挖掘,直到2011年的時候大數據概念爆發了,可以看到藍色的線,在此之後從事數據挖掘的人也變成了從事大數據。而原本數據挖掘這個詞歷史更加悠久,從圖中可以看出這條線始終高居上方,相對比較穩定與平緩,直到2015年,從事數據挖掘的人越來越少紅色的線逐漸趨於平緩,主要是因為數據挖掘被大數據、機器學習這兩個詞所取代。
從圖上也看到深度學習也是很新的一個詞,還有一個詞是數據科學,以前也是不太明顯。現在可以說是為從事數據領域的工程師生成了一個更好的名詞或者說是Tittle,另外對於很多企業來說,這類人同做科學的人是類似的,用數據去論證,也能指導生產,就把從事數據相關工作的這一類人統稱為數據科學家。數據科學家就像一個統稱,其中也有做數據分析、數據挖掘、機器學習、深度學習,這些都可以叫數據科學家。
6從事數據科學你都該懂些什麼?
在數據科學的海洋中遨遊我們需要學習一些本領,如圖中的三個圈裡面的內容,在數據科學學習過程中缺一不可。
第一是領域知識,我們的學習最終是需要解決問題,大部分的人會進入到各個領域、可能去做廣告、做金融,要熟悉領域知識,如果沒有領域知識那就是做純機器學習 。數據科學一定是以解決問題為導向的。
第二個是計算機編程,如果不懂得編程,那麼就是一名傳統企業中的數據研究者,適合於寫一些研究報告,純停留在紙面不能完成工程。例如,領導在安排工作希望過段時間上線APP的推薦系統,但是不懂得編程,數據研究者只能提供相應的流程或者報告分析,而沒辦法將系統搭建。在也就意味著計算機編程就像人的雙腿,光有腦子沒有雙腿,是沒有辦法行走的。
第三個是數學與統計,如果沒有這方面的知識,那麼是非常危險的。自認為自己是會編程的,出現的需求可以寫出程序解決,因為懂得編程所以所有機器學習的程序都會調用,他可能很快的可以做一個模型,但是這個模型可能並不適宜,因為他缺少數學統計學的一些支持。
所以,只有這三者並存才能稱為合格的數據科學家,有兩句話可以很好總結。
7為什麼要學Python
如圖所示,2018年的編程排行榜中Python是排第四,較2017年的第五名排名有著非常大的增長,排在前三的是C,C++,Java,可以理解的是這份數據是偏工程類的編程語言排名,這前三名語言可以說是構建世界的基石,雖然Python排在第四,不過我認為他很快會排到第三位超越C++。
第一張圖針對的是全世界範圍內的通用編程領域,縱觀數據分析領域的情況,可以看下右方的圖片,這是2017年的Kaggle做的一項調研,調研的目的是搞清楚數據科學家工作中主要用哪些工具,排第一位的是Python,第二是R語言。那麼為什麼Python在數據科學領域這麼受歡迎?是因為在Python中有很多關於數據科學的包,今天我們想要做任何數據科學領域的工作,都不需要從零開始,幾乎我們能想像到的與數據相關的處理工具,Python都有現成的包,具體可以看一下下列一張圖。
8R與Python之爭
長久以來在數據科學領域,一直有一個問題爭論不休,那就是R和Python到底誰是最好的,這兩個是數據科學領域最重要的開源軟體,如果再把商業軟體加進去,R和Python,SAS,個人現在比較擁抱Python。
有一項調查顯示,在企業招聘的過程中,會開源軟體的數據科學家薪資要遠遠高於使用商業軟體的數據科學家,大約是14萬美金與9萬美金的差距,所以說選擇開源軟體作為主攻是一個正確的選擇。在開源領域R與Python各有優劣,其實很難分出來誰對誰錯,很公正客觀的來說,R的發明者是統計學家,基本已經成為統計學的通用語言,在R語言中能找到最新最全的統計演算法包,繪圖和可視化能力更強,Python算通用編程語言,能做的比R要多很多,學習曲線比較平緩,並且更適合深度學習。一言以蔽之,如果你越接近統計研究喜歡做一些統計模型,傾向於R,如果你接近於工程開發,那應該越傾向於Python。
數據科學學習,貴乎以務實
段勇老師的開班演講結束之後,也對所有的初學者給出了一個發自肺腑的忠告,學各類編程語言並不是很高的門檻,重要的是語言的背後是機器學習、深度學習的方法,以及它背後的原理,語言只是提供了調用這些包的API的這種框架,未來在學習過程中,如果需要轉換還是比較方便的,但是一定要踏實的將基礎打好,穩步的進入到數據科學領域進行實踐,並且保持終身學習的態度。
推薦閱讀:
※用PaddlePaddle調戲郵件詐騙犯(完結篇)
※分享一個好貨,你看看值不值得?
※日本研製AI機器乒乓球選手,對抗中國隊?
※百年奧運是一部科技史,智能奧運在平昌冬奧會浮出水面
※無需iPhone X,用AI即可生成Animoji!
TAG:人工智慧 |