大數據還能火多久?
如題,以後大數據會被人工只能取代?現在的人工只能大概到什麼程度?
2017年08月13日更新:
———————————————————————————————————————
我感覺很多朋友,對「大數據」、「機器學習」、「深度學習」等概念挺暈的,沒有感官的認識,這裡,我簡單說一下:
「大數據」、「人工智慧」、「機器學習」、「神經網路」、「深度學習」。這幾個詞往往摻雜在一起,讓人不知所云,這裡我簡單說一下,不求細節上100%準確,只求能給各位一個感官上的印象,明白說起這幾詞時,通常都是說什麼。
首先,「人工智慧」這個詞。大家說,什麼是人工智慧?每個人在自己心裡,都有一個特定的人工智慧定義。有人認為,老版《星際迷航》里「Datas上校」這個東西叫人工智慧;有人認為《機器公敵》里機器人應該叫人工智慧;有人認為電影異形里的「大衛」,這麼個東西叫人工智慧。近一點的,有人認為谷歌開發的下圍棋的系統「AlphaGo」,很吊,這玩意是人工智慧;谷歌大腦能通過自己看視頻,自動識別出貓,這就人工智慧了;還有公司,我們通過「人工智慧」幹了XXXX。。。。。。因此,可以看出,這個詞大的沒邊,因此,真追究起來,誰要說這個詞,除裝逼外,你就當他什麼都沒說就行了。
當前,「大數據」這個詞,也跟「人工智慧」這個詞一樣,大的沒邊,虛無飄渺的沒邊,誰要是說這個詞而不說具體的東西,你也就當他什麼都沒說就好了。
回過頭來,我們再看「人工智慧」這個詞。究竟什麼是人工智慧?計算機的神級人物圖靈給出了「圖靈測試」,定義了人工智慧——圖靈測試(The Turing test)由艾倫·麥席森·圖靈發明,指測試者與被測試者(一個人和一台機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問,進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這台機器就通過了測試,並被認為具有人類智能。(摘自百度百科)
上面,圖靈神人說神話,凡人聽不懂。針對「人工智慧」,用人話講,如果,某個東西,具有了「學習」、「分類」、「預測」能力,我們就認為這個東西是智能的。比如,我們說人。我們說諸葛亮,料事如神(預測能力強)、神機妙算(「分類」強)。。。因此,諸葛亮很智能。
其實,現實中很多問題,都可以轉化為分類問題和回歸問題,如何即「准」又「穩」的把事物分類,是我們追求。比如,我們根據一系列指標,把一個妹子分類為「漂亮」、「不漂亮」;把某件事根據一系列指標,分為「可以干」、「不可以干」;把某個人,分為「人品好,可以交」、「人渣,不可交」;這類就是二分類問題。也有多分類問題,比如,把一篇文章,分類到「財經新聞」、「娛樂八卦」、「武俠小說」、「黃色小說」。。。。等等多個類目下的一類中。
因此,為了給編個有「智能」的軟體,賦予它分類能力呢。簡單,用編程語言語言里的判斷語句都能行:
If XXX :
OOOO
elif XXXXX :
oooooo
else:
OOOOO
各位看官也許會笑,這TMD算哪門子的智能。但是,在現實中,就這樣用編程語言的特性,編出來的軟體,在很多不懂計算機父輩們眼中,就很智能,就能把他們鎮住。。。。。
當然,這麼low的方案,計算機的神級人物們,是不屑的。畢竟,現實太複雜,對這個複雜的現實建模,對複雜的事物分類,豈能是幾個判斷語句所能夠描述的。所以,大神們,搞出來很多演算法策略來搞這件事。這下演算法,主流的也就那麼多,比如說:決策樹演算法、隨機森林演算法、邏輯回歸、SVM、樸素貝葉斯、K最近鄰演算法、K均值演算法、Adaboost 演算法、神經網路演算法、馬爾可夫演算法,還有最近火的「深度學習」演算法、增強對抗網路演算法。。。等等。這些算都叫「機器學習」演算法。
講到這裡,各位看官,應該對我們經常講的「人工智慧」、「機器學習」、「深度學習」,這些虛無縹緲的詞大概是什麼意思,有個感官的認識了。
好了,現在我們討論「人工智慧」、「機器學習」、「深度學習」等等這些詞時,具體就討論這些演算法就行了,那些虛無縹緲的概念,留給裝逼的人、想要吸引投資的人去說吧。
從總體理論方向來說,來說,這些演算法,大體上可分為兩類,「神經網路」演算法和「深度學習」演算法,算作一類,其它的演算法作為另一類。
但是,不管怎麼分類,這些演算法要想正常的工作,對事物的分類能夠達到實用的水平,兩個條件是不可或缺的,那就是「數據」、「計算力」。計算力很好理解,這些演算法,都比較複雜,沒有強大的CPU、內存等硬體支撐,這些演算法,要麼不能運行,要麼猴年馬月也運行不完,給不出結果。如果你訓練模型,利用這些演算法編好程序後,扔給計算機,它花了半年才計算完,給你列印出結果。你心中,也一定是一萬個「草泥馬」飄過。。。。。對於數據的要求,這是因為,這些演算法的背後的數學原理,大部分都跟概率論有關。各位看官,如果興趣,可百度「VC維」理論,針對「深度學習」的可學習性的理論解釋,人類現在也沒有研究透,只知道這玩意挺管用,在很多方面效果挺好,科技前沿,給出的解釋是用「泛函空間概率論」來解釋。但不管怎麼說,就是概率論,就是瞎猜。瞎猜嘛,當然是依據越多,猜的的越准,猜的越穩。也就是數據越多,這些演算法就會猜的越准,猜的越穩。好了,現在「大數據」,就可以攙和進來了。沒有數據,或者數據很少、數據緯度較少,不夠詳細,這些演算法「巧婦」,也會無米下鍋,做不出可口的飯菜的。
有了所謂的「大數據」和雲計算,我們就可以方便的命令這些演算法「巧婦」們給我們做飯了。從『數據』這個「米」的角度說,我們可以HDFS存儲更多的米,更豐富的食材;從『大數據組件』這個鍋碗瓢盆的『工具』角度來說,我們有了spark等組件(利用深度學習演算法,比較強大的組件是TensorFlow),有了更強大的計算工具,我們可以利用這些組件調用這些高大上的分類演算法,再加上所謂的「大數據」、「深度學習」、「機器學習」,就可以做出更好吃的飯了。從系統架構上來說,猜嘛。猜對、猜錯都是很正常的,可能這麼猜不對,換個參數、換個演算法 重新猜一下,就猜對了。因此,也就有了「數據挖坑一身功,全靠調參」的說法。這就要求,我們的系統,有更好靈活性,方便我們對針對這些演算法「休妻再娶」。
。。。。。。。。。。
有了上面大體的介紹,針對「大數據」、「人工智慧」、「深度學習」、「機器學習」等具體行業應用,我再簡單說兩句。
以電商行業為例,有一個概念叫「用戶畫像」,它是很多系統的基礎,比如推薦系統、精準廣告系統、大數據風控系統的等等。
用戶畫像,是什麼呢。說到底,就是對用戶的分類數據。比如說,ID 000001110011,性別:女,性格描述:萌妹子,性格特點描述,資產狀況描述,信用狀況描述,喜歡的顏色,鍾愛的品牌,大姨媽的日期,上周的購物。。。。。。。。有了這些信息,我們就可以針對這個用戶,進行精準的廣告營銷、精準的購物推薦、個性化的服務。。。。。。
那麼問題來了。現實中,這位妹子註冊信息時,性別欄里,可能填的是「男」,年齡欄里填了「5」或者「150」。你怎麼知道這個妹子,可能喜歡相宜本草的面膜,她又沒明確告訴你。。。。
沒辦法了,只能猜。如果,我們有了關於這位妹子的各類「大數據」,再結合上面的各種演算法,就可以猜了。如果這個ID的用戶,上購物網站時,經常瀏覽的是「胸罩」、「衛生巾」等女性用品,我們的演算法(機器學習、深度學習等)把他猜成「女性」,是可以理解的。當然,如果是位暖男,為他女朋友、老婆買這些東西,也是可以理解的。如果我們再增加一個緯度的「大數據」,這個ID用戶,最近經常看韓劇,那麼他是女性可能性,就又提高了。再增加一個緯度的「大數據」,這個ID在某個評論里說「最近剛生完寶寶,聽老公說XXXX,我覺的XXXX」。。。。這裡,針對這個ID的畫像,把他的性別改為「女」,是可以的,是有99.99%的把握的。但也無法排除0.01%的變態。。。。。
這個例子中,就把「大數據」、「機器學習」等等熱門的概念都搞一塊了。。。
實際工作的過程中,情況和限制,也就更多更複雜了。針對各類企業、每個企業,我想都在某些時刻,有去猜(也就是去分類)某些事情的需求。此時,找猜的「米」時,一看,之前很多數據沒保存,無米下鍋。沒有人才,沒多少人會利用這些牛逼的「演算法+數據」去猜。更多是沒有數據意識,針對馬雲口中「DT時代」,沒有感官認識,不明白具體是什麼意思。。。。。。
在具體落地的解決方案過程中,數據收集、存儲、計算工具等等方面,現在技術發展的還是可以的。再具體「怎麼猜」(是利用if elif else與語句猜,是利用線性模型猜,還是利用「深度學習」猜)的過程中,那就要具體情況具體分析了:
總共才兩三中情況,看一眼就知道怎麼回事,提煉出規則,編程成固定規則就行了,上深度學習,純屬腦子有病;
但像BAT這種大公司,有很多牛叉的研究員,整天研究如何利用儘可能對的數據(「大數據」),比較牛逼的演算法策略(比如「深度學習」等),儘可能多猜的更准、更穩。哪怕猜準確率提高1%,那麼可能多銷售幾個億的商品。。。。。
目前,語音識別、機器翻譯。等等,本質上,也是「猜」嘛。英語中某個句話猜成中文的意思,有30%準確率,用上深度學習後,猜對的可能性提高到了45%。。。。。某段錄音,根據記錄的音波,之前猜對概率是85%,積累的數據多了,用的演算法牛逼了,參數調的好點了,猜對概率95%了,這就是進步啊。等到,你說依據話,計算機猜你的意思,猜對的概率是99%了,我想那時,你百度什麼東西,就不用輸關鍵詞了,對這電腦說就行了。。。。
但無論怎麼樣,即便是BAT、谷歌等大公司,前沿研究除外,能為資本家帶來直接利潤的機器學習演算法,目前還是比較簡單的機器學習演算法為主,比如一些線性模型類的演算法(我記得我第一次學線性回歸時,在初中數學裡的內容),所以,這些演算法的原理也是比較簡單的。上世界90年代各方面就研究的很透了,只不過那時候,人類積累的數據少(數據就在那裡,每天都在產成,只不過,那是沒有性價比高的記錄手段)、計算機的計算能力不足。。。。。。至於更高大上一些的演算法,比如深度學習等,主要用來對系統里的某一些環節改造,增加猜對的概率。嚴格意義說,跟所謂的「大數據」,沒多少直接關係。即便是沒有「深度學習」,用其他的演算法,要想達到實用效果,所需要的數據量也不一定少。
回望,很多概念,「火」與不「火」的歷程也是有規律可循的。07、08、09年時,與「雲」有關的很火,什麼「公有雲」、「私有雲」、「混合雲」,12、13、14年時,「大數據」很火;現在,16、17年,「機器學習」、「人工智慧」很火。有了「雲」架構,我們有了靈活手段的去調度硬體資源,所以要利用搞點事情啊,再加上谷歌的工程師發表了著名的三篇論文,全世界的工程師開發了相關軟體;因此,後來的「大數據」火了,這時的「火」,更多是建立「數據倉庫」等存儲等階段,針對數據利用、處理,也是普通簡單演算法範圍,如統計一下數據,出一些Top榜什麼的。。。。後來,有了積累了多數據、更多資源了,我們有什麼理由不把跟牛逼的策略、演算法搬出來,對數據挖的更深、利用的更好呢。。。。從中可以看出,這些概念火起來,是計算力的進步,是人類收集、存儲、加工、處理、利用信息能力的進步。。。。
————————————————————————————————————————首先聲明,本人現在杭州一家互聯網公司做大數據平台架構師和數據分析師。因此,以下的回答,可能帶有自己的視野局限,敬請各位看官理性地指教,討論。
根據我個人的行業經驗來看。現在很多人,對大數據的理解都有些偏了。目前,對大數據的主流看法就是"深度學習","人工智慧"等很火,很高大上的東西,都需要大量的數據,所以大數據會怎樣、怎樣。。。。
我記得13、14年時,大數據最火的時候。在一次電視節目中,李彥宏面對楊瀾,大談大數據,並舉例"谷歌利用大數據預測流感。。。。"等等balabala的一大通,全是忽悠套路,沒一點乾貨!!我想大多數人,聽到這些東西,一般都不care,說不準還暗暗的罵一句"草,這些關我鳥事"。。。
最近,談起大數據,很多人都往"人工智慧"等高大上的東西上。我想大多數人,特別是中小企業,也不會關心。那是BAT等大公司的事,我們公司小、數據少,業務也簡單。"分析",也是電腦不如人腦。因此,大多人,也是覺得,大數據或許是未來,但是,對我來說,似乎也沒多大用處。如果,此人當時心情不好,還多半認為"大數據",純粹是瞎忽悠。 回到本次話題,針對"大數據能火多久",這個問題,這就要看大數據的本質了。在我看來,我們業內目前討論"大數據",應該更傾向於看它背後的技術對當前企業IT系統的革新。就如同目前大多數企業以關係型資料庫為中心的IT系統一樣,現在,我們處理信息的手段中,又添加了新的成員。現在,如果你向老大建議,我們不要以關係型資料庫為核心的各類"進銷存"、財務等系統了,全體回退到以Excel、word來處理信息,我相信,他會分分鐘扇死你。我相信,20年後,你向老闆建議,我們放棄各類以大數據處理集群為核心的精準營銷系統、智能客服系統、用戶智能分析系統等等,大家集體回退到以純關係型資料庫為核心的時代;我相信,他也一定會分分鐘扇死你。當前,我們對大數據的理解,越來越清晰和接地氣。阿里巴巴已經把他們的大數據系統,改名為了"maxComputer"。從名字不難看出,大數據就是大電腦,這意味著更大的信息處理能力、更高的靈活性。。。
大數據能火多久,如同穿越到上世紀80年代,去問個人電腦能火多久一樣。現在,我們都不會認為"個人電腦"很"火"。因為,它已經成為了人類工具箱里一件強大的工具,提高了人類的生產力。我相信,"大數據",也會成為我們的工具箱里的這麼一樣工具的。
目前,看知乎里的答案。很多人討論起大數據,很多人的看法,還是照搬教科書里的內容。其實,對真正大數據圈而言,大數據已經落地了。下了凡的七仙女,雖然是神仙,但也成為了農家媳婦,沒太大討論的必要了。大數據從幾年前很火,到現在,從PPT上下凡到數據中心,也就沒多大的討論必要了。用就行了,有啥好瞎bb的。。。。。。
謝邀,
會一直火下去了,當然,名詞可能會換,比如今年,人工智慧這個概念,就差不多有點取代大數據這個概念了。概念可以不斷更換,但是技術就是解決人們需求的。
大數據能讓生活更便利,能讓機器更懂你。滿足了這兩點,這項技術就不會被消亡,只會不斷更新,滿足更多的需求。關注大數據的朋友,歡迎加我微信公眾號:大數據二三事。人工智慧也是要依靠底層數據的啊,這兩個哪裡是替代關係啊
這是趨勢,你這就相當於問「互聯網能火多久」
人工智慧是火 數據是柴 演算法是火柴 你是萌萌
大數據還能火多久?是指在哪裡能「火」呢?如果是在媒體上?那估計火不了多久。因為媒體一向是「人咬狗才是新聞」。如果是指的在用戶中「火」?根據業內專業人士的介紹,C端用戶,其實一直在用或在「被用」,對於那些專業技術的始作俑者,大數據技術就如當年打孔計算機升級至晶體管計算機一樣,不用就是落伍者,尤其是在現在的IT行當,不懂大數據,你都不好意思說自己是IT人士;B端用戶,尤其是國內眾多的工業品製造企業,嗯,想讓那幫工程技術理工男出身多的企業領導為大數據結果買單,需要你能整合經營、管理、工程技術、自動化技術等等多學科的專業和知識(數據),搞出真金白銀的東東,否則,也只有GE的工業大數據平台等幾個宣傳案例,對於中國那麼多的工業品生產企業來講,何足掛齒。
大數據是近幾年的新寵,大數據概念在一些重大會議被頻頻提及。就目前來看大數據正是當紅的時候。
大數據未來四大發展方向
趨勢一數據的資源化何謂資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶佔市場先機。趨勢二:與雲計算的深度結合大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關係將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。趨勢三:科學理論的突破隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智慧等相關技術,可能會改變數據世界裡的很多演算法和基礎理論,實現科學技術上的突破。趨勢四:數據科學和數據聯盟的成立未來,數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基於數據這個基礎平台,也將建立起跨領域的數據共享平台,之後,數據共享將擴展到企業層面,並且成為未來產業的核心一環。另外,大數據作為一種重要的戰略資產,已經不同程度地滲透到每個行業領域和部門,其深度應用不僅有助於企業經營活動,還有利於推動國民經濟發展。它對於推動信息產業創新、大數據存儲管理挑戰、改變經濟社會管理面貌等方面也意義重大。現在,通過數據的力量,用戶希望掌握真正的便捷信息,從而讓生活更有趣。對於企業來說,如何從海量數據中挖掘出可以有效利用的部分,並且用於品牌營銷,才是企業制勝的法寶。微信公眾號:IGNITE,關注了解更多信息。
大數據永遠不會過時,因為通過它能夠宏觀的看待一切事物,然後做出最直觀的分析。未來的IT技術,對大數據的依賴會只增不減。
我覺得想要弄清楚這個問題得先要知道大數據在當前背景下它有什麼樣的特點,它現在為什麼這麼火。
大數據為什麼這幾年火熱情勢不減呢?互聯網行業是大數據的起爆點,除了互聯網/電子商務行業,傳統的諸如計算機服務/軟體、金融/基金/證券/投資、通訊行業以及其他專業服務領域等,都在熱火朝天的搞大數據。
大數據價值的發現與其所處的應用場景密切相關。概括起來,大數據價值發現可以劃分為三大類:數據服務、數據分析和數據探索。
數據服務是面向大規模用戶,提供高性能的數據查詢、檢索、預測等服務,通過直接滿足用戶需求而將數據價值變現的形式;數據分析是分析人員利用經驗,通過對大規模數據使用特定的計算模型進行較為複雜的運算,從而發現易於人們理解的數據模式或規律所進行的數據價值變現的一種運算形式;數據探索是一種利用數據分析和人機交互的結合,通過不斷揭示數據的規律和數據間的關聯,引導分析人員發現並認識其所未知的數據模式或規律,其價值更多地體現在對未知途徑的數據模式和規律的探索。
數據分析是指用適當的統計分析方法對大量數據進行分析或建模,提取有用信息並形成結論,進而輔助人們決策的過程。在這個過程中,用戶會有一個明確的目標,通過「數據清理、轉換、建模、統計」等一系列複雜的操作,獲得對數據的洞察,從而協助用戶進行決策。常見的數據分析任務又可以被進一步劃分為描述型分析、診斷型分析、預測型分析、策略型分析。
數據探索是指針對目標可變、持續、多角度的搜索或分析任務,其搜索過程是有選擇、有策略和反覆進行的。它將以找到信息為目的的傳統信息檢索模式變為以發現、學習和決策為目的的信息搜尋模式。這樣的搜索模式結合了大量的數據分析與人機交互過程,適合於人們從數據中發現和學習更多的內容和價值。
大數據蘊含大價值,數據服務、數據分析和數據探索是3個層次的數據價值發現方法。在很多應用下,這3類方法需要混合使用,才能更好地發現大數據的價值。
由於當前互聯網高速發展,社會正在邁入智能時代,使得市場需要這樣一個手段來發展,有市場當然它就會火爆,只要在這樣一個智能高效信息的時代,我個人覺得它不會熄火。雲計算:計算能力的大規模集中
大數據:海量數據的大規模集中
都是為了人工智慧開道的。各位看著辦吧。
大數據相關從業者。其實我覺得問這個問題的人應該不是太了解什麼是大數據,大數據能做什麼。大數據漸漸淡出出新聞的版面,並不是它不火了,而是之前被不懂的媒體企業把它炒的過分火熱,現在它只是走下「神壇」,回歸本質而已。其實,個人理解是,最近炒的比較火熱(深度學習,人工智慧等)的技術,並沒有那麼玄乎,沉下心來去理解,你會發現整天把那些名詞掛在嘴上的人有多low。(我很討厭這些人,過分的炒一些新技術,對新技術本身而言就是一次信用透支,很多新人選擇這些技術很容易被這些信息誤導)
別想那麼多了,國內的大數據技術才剛剛起步,根本談不上整整意義上的大數據,國內大數據還有一大段路要走呢
從曝光率來說,大數據作為一個名詞的確已經被人工智慧(AI)所秒殺。但我想說的是,如果是從業選擇,雖然大數據貌似已經被不那麼熱門了,但數據行業依然是最有生命力和發展前景行業之一。1,數據是剛需,在大數據這個詞出來之前,數據行業其實已經發展了幾十年,無論是企業還是政府,在這塊都有持續投入,只是以前沒這麼引人注意而已。2,大數據和AI其實二者之間有著互為表裡的關係,AI的落地需要大數據,脫離了大數據的AI就是耍流氓,所以如果AI能一直火下去,大數據人才也一樣會在職場上火下去。3,AI雖然火,但進入門檻很高,而數據行業的門檻相對來說要低的多,並且相關職位要遠遠多於AI
大數據是工具,是「經濟基礎」。「上層建築」可能會不斷發展進步,但是這種基礎是必不可少的。唯一不同的只是大數據產業越來越成熟而已,被取代的概率很小。
火到最後發現可以利用大數據來分析大數據火熱程度以及可以摸到大數據這雙無形的手為止。
大數據的"火"不依賴於任何新技術. 人工智慧也不一定需要海量數據訓練.
大數據應用的主要局限性在於不對稱. 企業搜集用戶數據,企業利用分析數據改進產品,而普通用戶不能接觸到任何自己的用戶數據,別提企業自身的運營數據了.
大數據如果不能被全社會使用(而不是通過產品"間接"獲益),那麼用戶和企業的隔閡只會變大.
理想中的數據商業化模式詳見: 共享時代的終極挑戰 - 共享商業秘密 - 知乎專欄
技術會基於數據層,不斷演進。演進的方向,歸納為獲取預期結果的能力更強。
推薦閱讀:
※在做特徵工程時,什麼時候需要對連續型的特徵做取對數操作?
※在Kaggle比賽中獲得好成績甚至拿到獎金的data scientist都經歷了什麼?