制約大數據發展的核心因素是什麼?
大數據要繼續發展,最急需解決的究竟是什麼?是演算法,還是數據本身,或是其他的什麼因素?
————————————————————————————————————————————
————————————————————————————————————————————
關鍵詞:利益驅動 法律 技術 人才 數據量
1.感謝各位的回答,縱觀各種答案,我感覺有一個很重要的信息透露來,那就是大數據技術一定要能跟實際的業務結合,有足夠的利益驅動,就好比歐洲人相信新大陸有黃金才會冒著生命危險開闢新航路一樣。如果能從數據挖掘中得到實在的足夠大的利益,那麼大數據的發展一定會更加迅猛。大數據應用方面,有沒有什麼創造了巨大價值的實際例子而不僅僅是理論上的用途可以提供佐證的?2.大家也提到了大數據發展的法律風險,對於數據的所有權問題,數據隱私和安全問題需要相關立法解決。立法方面國內外的進展如何希望能有進一步的介紹。
3.技術和人才方面,雖然現在還存在這這樣或那樣的問題,但是從各位的回答中發現這些問題還是有望獲得大的進展。希望有朋友能夠較為通俗地對大數據的技術平台和發展方向進行說明。另外大數據的人才培養模式和優缺點也希望能有知友提供相關信息。如果能介紹一下跟大數據發展有關的科研或產業組織的情況就更好了。
4.數據量的爆炸式發展對數據挖掘技術提出了更高的要求,而要想獲得有價值的信息,那麼也必須積累足夠的數據量作為基礎。可以看出隨著移動互聯網以及物聯網的發展,由之而來的數據量也會有很大增長,這一龐大的數據量能否被數據處理技術所消化呢?
-
謝邀。
2014年這個問題出現的時候,大數據的核心問題還沒真正體現,所以一些答案基本上都是泛泛而談。這裡我來嘗試總結一下。
眾所周知,大數據按照處理環節可以分為三步:- 大數據採集和清洗
- 大數據存儲和分析
- 大數據展現和應用
從以上這三個方面,我想談談制約大數據發展的幾個核心問題。
一、大數據採集和清洗- 1.1 數據法規:用戶隱私如何保護、商業規則如何制定、法律規範如何制定等等一系列法律法規都大大滯後於大數據科學的發展速度。由於技術EXE所限,紙上談兵TXT成為常態。當前數據法律法規未明,採集方式八仙過海,預計未來很多大數據業務都將會繼續遊走在灰色地帶,只有當商業運作初具規模並開始對消費者和企業產生影響之後,相關的法律法規才會被迫加速制定出來。(法律大數據研究與應用)
- 1.2 數據質量:由於大數據產業剛剛起步不久,目前在具體的某一領域或行業內,尚未有成型的數據採集、加工、分析和應用鏈條,大量數據源未被激活,包括政府在內的很多權威數據機構,普遍存在數據缺失、噪音多各方面的問題。舉個栗子,如果一個電商網站銷售額的20%是與推薦系統相關的時候(亞馬遜是35%Was Amazon"s recommendation engine crucial to the company"s success?),投入和產出是不成比例的,這也是很多小微企業難以為繼的原因,技術上每1%的進步都需要100%的汗水和努力,1%的誤差都會極大地影響企業的市場份額。
- 1.3 數據人才:去年我參加了「2016年中國大數據產業峰會」,當時清華大學的一名教授預言:
未來 3 年,中國需要 大約 180萬大數據人才,但目前只有約 30萬人。
作為國內TOP2的知名學府Tsinghua當然不會落後,2014年就開始了動作( 清華大學培養跨學科交叉融合數據科學研究生),雖有些跟風的嫌疑,但至少是順應發展。由於數據人才稀缺,大多數數據企業沒有數據價值外化、將數據變現的有效路徑,只能躺在金礦上睡覺。而在實際項目實施過程中,數據專家們不得不花費大量時間在數據清洗上,對原本就稀缺的數據人才其實是一種資源浪費。另一方面,數據專家們不但需要解讀大數據,同時還需深諳某行業發展各個要素之間的關聯,甚至包括策劃、管理、執行等許多具體要素,這裡就不贅述了。
(圖 1.1 清華大學互聯網大數據研究中心)
二、大數據存儲和分析
- 2.1 數據隱私:理論上,用戶和企業的原始數據沉澱在數據平台上(如BAT),數據平台在未獲授權的情況下不能提供給第三方,但實際情況是用戶對原始數據的佔有獲取權及公開權基本取決於用戶與平台達成的協議「用戶須知」,加上互聯網本身的開放性和某些企業故意作惡,用戶基本無法捍衛自己的數據財產所有權。
(圖 2.1 某網站的免責聲明)
- 2.2 數據安全:稜鏡計劃(PRISM)曝光,我們知道美國政府已可以從電郵、簡訊、視頻、照片、存儲數據、甚至語音聊天等全方位對人進行監控,大數據挖掘讓互聯網世界已無死角可言。這同時證明黑客攻擊方的能力和範圍已無限升級。中國最頂尖白帽團隊Keen的創始人王琦說:
大數據時代,數據就是錢。
數據黑客可以從互聯網中盜取各種數據,互聯網地下社工庫(互聯網社工庫的傳說,這個是真的存在嗎?)就是最好的證明。
三、大數據展現和應用
- 3.1 數據展現:眾所周知,數據的價值無法估量,但只有在被展現時才能發揮出來。高維數據可視化目前仍是一個棘手的問題,比如如何判斷當前降維演算法是否是合適?如何選擇合適的數據展現方法?仍然拿推薦系統來舉栗子,推薦的準確率、覆蓋率、多樣性、驚喜度等應該如何取捨才能提高用戶滿意度?這些都需要數據分析師對業務和技術都有相當程度的了解,因為數據科學本身是一個交叉學科,涉及統計學、計算機科學、商業領域經驗等多種知識。
- 3.2 數據產業鏈:如果沒有對某個行業整體產業鏈的宏觀把握,單個企業僅僅基於自己掌握的獨立數據,就無法建立產業鏈各個環節數據之間的關係,也就無法對業務發展和應用做出精準的判斷(通俗說就是難以將數據變現)。數據分析師如何將大數據層面上的關聯具象到行業實踐中?如何如何制定可執行方案應用數據挖掘的結論?當前的現時情況需要處於大數據生態圈中的企業需要進行合作,方能實現共贏。
(圖 3.1 大數據產業圖譜)
- 3.3 數據獨佔性:合則兩利,斗則俱傷。正因如此,國家為了促進大數據產業的發展以及小微企業創業,提出建立數據交易所的概念。然而另一方面,除了少數大企業如BAT自成體系外,這些需要共享信息的小微企業之間往往存在競爭關係,數據作為一種排他性的資源,越是稀缺的數據才越具有價值。所以共享數據時需要權衡利弊,這也在一定程度上限制了大數據企業的合作。
四、總結
大數據不是萬能的,但沒有數據是萬萬不能的。
當前大多數企業的信息化程度不高,管理層尚未形成相應的數據思維。換言之,大數據產業還有很長的路要走,在摸著石頭過河的時候,探索出獨特的數據之道也許更為重要。
PS.其他技術層面問題,如大數據相關的軟硬體成熟度、成本,大數據應用的普及率、計算實時性等,鄙人以為在不遠的將會都會一一攻克,至少目前不會成為制約大數據發展核心的問題,所以在這裡就不作討論了,其他有時間再補充。
以上。
-
是數據本身。或者詳細說:我們還不知道什麼樣的數據有價值。
假定我們現在有了一種方法,可以精確地監測一杯水裡每個分子的運動狀況。
每個監測裝置秒鐘產生一個位元組的數據,那麼一分鐘下來,大約會產生個位元組(大約400YB)的數據。這數據量夠大吧?(參考:谷歌目前所有的存儲器加起來也只是在EB和ZB之間,YB是ZB的1000倍,也就是說相當於一百萬個谷歌所存儲數據總量。)
然後,這麼大的大數據有什麼用呢?先假定我們的計算、存儲、演算法能力都足夠,然後呢?如果現在的物理學理論沒錯的話,這麼大的數據量應該是P用都沒有的。
或者更簡單一些,隨便生成幾百個ZB的隨機數,用各種大數據演算法來算算,能不能算出什麼東西來?估計肯定可以,只是這些結果依然是P意義都沒有。
(記得在一本股票分析的書里看到過:讓讀者試著用學過的其他分析法來分析一個為期六個月的股價圖然後看看什麼結果。最後又告訴讀者這不過是某一地六個月之內氣溫的變化圖而已。)
再來看一個大數據的經典例子:
某比薩店的電話鈴響了,客服人員拿起電話。
客服:**比薩店,您好,請問有什麼需要我為您服務?
顧客:你好,我想要......
客服:先生,請把您的AIC 會員卡號碼告訴我。
顧客:135259XXXXXX 。
客服:陳先生,您好,您是住在 XX 街一號12 樓 1205室,您家電話是209XXXX 。對嗎?
顧客:為什麼你知道我的電話號碼?
客服:陳先生,因為我們有 AIC 會員系統。
顧客:我想要海鮮比薩......
客服:陳先生,海鮮比薩不適合您。
顧客:為什麼?
客服:根據您的醫療記錄,您有高血壓和膽固醇偏高。
顧客:那...... 你們有什麼可以推薦的?
客服:您可以試試我們的低脂健康比薩
顧客:你怎麼知道我會喜歡吃這種的?
客服:您上星期一在中央圖書館借了一本《低脂健康食譜》。
顧客:好...... 那我要一個家庭號特大比薩,要付多少錢?
客服:99元,這個足夠您一家六口吃了,但是您母親應該少吃,因為她上個月剛做了心臟搭橋手術,處在恢復期。
顧客:可以刷卡嗎?
客服:陳先生,對不起,請您付現款,因為您的信用卡已經刷爆了,您現在還欠銀行4807元,而且還不包括房貸利息。
顧客:算了。你們直接把比薩送到我家吧,家裡有現金。你們多久會送到?
客服:大約三十分鐘,如果您不想等,可以自己騎車來?
顧客:什麼?
客服:根據AICCRM 系統全球定位系統的實時自動跟蹤系統的記錄,目前您正騎著這輛車,離我們店並不遠。
顧客:XXX......
客服:陳先生,請您說話小心點兒,您曾在 2004年4 月 1日用髒話侮辱警察,被判了10天拘役,罰款200 元。如果您不想重蹈覆轍,就請您禮貌回復。
顧客:那...... 算了,我什麼都不要了,那份比薩也不要了!
客服:謝謝您的電話光臨,下星期三是您太太的生日,你不想預訂一份生日比薩嗎?提前一周預訂可以享受8 折優惠。
顧客:......
這裡面的例子看似合理,其實仔細想一想就知道大多數都是扯淡:
客服:陳先生,海鮮比薩不適合您。
顧客:為什麼?
客服:根據您的醫療記錄,您有高血壓和膽固醇偏高。
有高血壓和膽固醇偏高的人我們都見過很多,因此不吃海鮮的有幾個?
客服:您可以試試我們的低脂健康比薩
顧客:你怎麼知道我會喜歡吃這種的?
客服:您上星期一在中央圖書館借了一本《低脂健康食譜》。
借過《運動減肥指南》然後很少去運動的人您見過好多,對吧?
顧客:可以刷卡嗎?
客服:陳先生,對不起,請您付現款,因為您的信用卡已經刷爆了,您現在還欠銀行4807元,而且還不包括房貸利息。
顧客:算了。你們直接把比薩送到我家吧,家裡有現金。你們多久會送到?
就算信用卡刷爆了,難道不可以刷銀聯卡或者刷老婆的卡?
客服:大約三十分鐘,如果您不想等,可以自己騎車來?
顧客:什麼?
客服:根據AICCRM 系統全球定位系統的實時自動跟蹤系統的記錄,目前您正騎著這輛車,離我們店並不遠。
有了這麼牛B的大數據系統,您怎麼卻算不准我騎著自行車是因為我家門口嚴重堵車,而我要儘快趕到客戶那裡去給他們解決故障?而訂比薩的目的是因為我老婆病了沒法做飯?
客服:謝謝您的電話光臨,下星期三是您太太的生日,你不想預訂一份生日比薩嗎?提前一周預訂可以享受8 折優惠。
顧客:......
顧客大約會說:「根據我們的BDPIM系統,您是本周第三千六百八十個以下周我太太生日為由向我推銷東西的商家了,很遺憾我老婆既不喜歡吃比薩,也不喜歡喝咖啡,更不喜歡什麼小玩具,她最愛吃的是我家門口的牛肉拉麵。」
這個例子中堆砌了許多一廂情願的「只要我知道了甲信息,馬上就可以推斷出乙行為」的想法,而實際上,人的行為是為很多因素所左右的,心理學試驗了這麼多年,越來越說明了人的決策和行為是複雜的,帶有很強概率性的。指望做幾個大數據分析就能左右人的行為,真的太拿衣服。
用數據挖掘來類比的話,就是你一定要知道哪裡可能有礦,哪裡可能有富礦,然後再談怎麼挖才有意義。而現在人們對於「哪裡有礦」的問題還知之甚少,之所以全世界都在大數據里瘋狂挖掘的原因只有一個:計算、存儲、研究資源都過剩了,人們不知道該干點什麼好,只好在一對對價值不大的垃圾堆中試圖看看能不能翻出金戒指來。如果我們知道了三體人真的正在殺過來的話,估計所有不出幾個月所有的計算、存儲、研究等資源都會被抽調去設計新武器什麼的,而再不會有人搞什麼「大數據」。其他因素啊,吐糟一下。
大部分人壓根就沒想明白數據怎麼和業務銜接,不懂業務,光談大數據,很多都是忽悠或者炒概念。
比如我是學投資的,有個職能是帶隊做財務數據、稅務數據、銀行流水、不同行業平均值的的交叉比對,公司累積有大批量的企業數據,持續更新的。好多人跟我說,我們有數據啊,你直接幫我分析財務報表的真和假,數據展示層包裝一下,和金融機構合作推薦項目。財務報表這一個維度的數據判斷真和假?我現在都懶得解釋了。
這行當,難得的是懂業務又懂技術的人。
目前成功的大數據商業模式其實只有兩種:搜索、推薦。
搜索雖然是最古老的互聯網商業產品,但是是實實在在的通過大數據創造看得見的價值的例子。他具有以下這3個特性:
1. 需求高度一致,可以通過產品化的方式抽象、易於被用戶學習
2. 效果好衡量和評估,易於快速迭代
3. 可以服務的客戶群非常大,即使本身不收費也可以衍生出其他的商業模式
所以現在大數據遇到的問題也很簡單:
1. 需求高度不一致,用戶對數據的處理、解讀能力差距巨大。
即使一家公司(比如淘寶)內部的不同部門甚至不同業務人員,對數據的需求也高度地碎片化。而且人和人、公司和公司之間對數據的解讀、處理能力差距很大。比如一個麥當勞的巨無霸,或者一噸鐵礦石,賣出去需要用戶對他再進行處理才可以產生用戶價值(比如吃掉巨無霸,把鐵礦石練成鋼),一般來說這種產品的用戶群之間對產品的消化處理能力即使不相同也是很相近的。即使搜索這種確實存在用戶個人能力差距不小的產品,學習成本也很小,是人就能學會,而且就算你學不會,入門級別的能力也可以獲得很多用戶價值。
但是數據不同,比如假設我把淘寶一月內所有的訂單明細拿出來賣:有的人可以看到淘寶哪些類目上有機會,這個數據可以幫他確定下一步淘寶創業的方向;有的人可以看到淘寶發展的趨勢和機會、不足,從而操縱巨額資本炒作阿里巴巴股票賺取數十億的利潤;對於有的人這就是特么一堆看不懂的表格。
我見過對著數據講不清楚業務有什麼問題和機會的分析師,也見過對著一個excel表就把淘寶下半年的發展趨勢講得一清二楚的產品經理。總之這個差距非常大。
2. 難以衡量數據的效果,觀測的周期很長,甚至觀測本身都很困難。
比如說唯品會今天請你利用數據幫他們看一下女裝這個類目他們經營有什麼問題,哪裡還有新的業務機會,應該怎麼做?
等等。。。。這個不是特么諮詢公司乾的活么。請問如何衡量你的產出,你應該向唯品會charge一個什麼價格呢?你怎麼能說明你的建議起到了效果?給唯品會帶來一個什麼樣的增長?這個增長是你帶來的還是他們自己做出來的?說句不好聽的,可能唯品會自己的數據分析團隊都講不清自己的價值是什麼(只是舉個例子),你覺得你一個第三方能講的多清楚。
那好吧,你就變成了一個諮詢公司,你能賺的無非是人力費用。而且這裡還存在一個巨大的風險,如果你真的能給唯品會提供很有價值的建議的話,你掌握的他的內部數據一定值更多的錢,前提是你有足夠的解讀能力。
最重要的是,數據能力和業務能力不是對等的。數據只是客觀的實在,業務能力是基於這個客觀的實在做出判斷的能力。值錢和能夠變現的是業務能力。如果你真的有這樣的業務能力,毫無疑問你應該去電商創業,也許可以賺更多的錢。
當然不是說這種第三方模式沒有商業模式,還是有的,比如友盟、appannie。我不提供垂直化的服務,而是提供第三方監測數據。但是本質還是to B的business,沒有很大的想像空間。
3. 可以服務的客戶群很小,基本是to B的範疇
其實這一點是1和2的自然推論。真的掌握足夠的把數據轉變成money的一定是體量足夠大的公司、組織,而不是個人。所以大數據這門生意天生就是to B的。
to B的生意,如果你能找到一個需求有高度一致性、定價和效果容易衡量的垂直領域。還是有那麼一些機會的。比如Appannie、比如一些我一下記不起名字的給電商搭建推薦系統的公司。但是這歸根結底是2B的生意,賺不到大錢。
當然to C端還有什麼機會呢?其實是有的,歡迎私信。。。。謝謝
對於結構化數據重點在於大數據速度這個V的解決,對於非結構數據重點在於語義分析,特別是在各種相關性下通過模型的語義分析,對於語音和圖像相關的識別的精確度和速度也需要提高。
看類似《諜影重重》這些電影你可以看到,城市裡面到處都有攝像頭,如果有一個逃犯,能否快速的通過各個攝像頭實時圖像採集,人臉或圖像的比對,分析出逃犯的移動路徑或軌跡。這裡面就涉及到解決以上幾個關鍵問題。
另外再次強調下真正制約大數據發展的核心一定不是在技術層面,而是在大數據的價值本身需要體現在多個數據提供源,多個點採集後的海量數據的相關性分析才得出結論。但是這個涉及到數據源提供組織或部門的利益問題,涉及到數據和個人隱私,這些在短時間很難真正解決。首先,絕對不是技術層面的限制。
言簡意賅,3 點:
1. 公司管理層的mind-set,是data-driven還是experience driven etc. 這應該是決策層最大的限制。
2. 公司IT系統的integration,這個是執行層面最大的限制。
3. 法律法規,這個宏觀上影響最大的因素。而這個因素對公司的發展是致命的。香港因為之前八達通事件(有人去舉報說八達通公司濫用用戶資料),修改了法律法規(Direct Marketing and data privacy),直接導致幾家公司業績急速下滑(我之前在其中一家)。
謝謝邀請,我是做平台的小兵。。只能隨口說說。
我覺得有幾個不同部分。
首先是平台。Map/Reduce和Hadoop出現後數據挖掘變得簡單,用戶井噴。但是Hadoop和周邊系統還是很粗糙的,有很多限制,用法也很粗放。對不少公司來說,這個離架起來就能用還是有距離,有些案例也無法適用,比如實時計算,交互查詢。在平台端要發展,需要更豐富的產品適用更多不同的案例,好在現在市場已經夠大,足夠發展出更多類似Storm/Spark/Presto等等不同工具。期待更多更優秀的項目被孵化。而現有系統也在演進,比如Hadoop 2.0算是一個很大的改進。等這些完善了,大數據的用法將會更豐富,就好比冶煉設備進步你能從礦里提煉更多東西。
然後是演算法,小方面來說,我覺得演算法對大多數公司很多是特製的,有些是做用廣告投放,有些是用戶推薦。用的演算法未必是很先進深奧的,但對自己拿到的數據肯定要做特定過濾和處理,結果也需要不斷改進。似乎不是一個技術突破的問題,而是不斷打磨的功夫。大方面來說,現在的技術很難深挖多媒體數據,聲音圖像之類的,如果這方面有所突破,那會變得很可觀,因為圖像和音頻數據早已存在,只是無法利用。再妄想一下語言識別如果有突破,那。。。簡直無法想像了。比如Google這種手握數據的公司如果真能分析音頻視頻自然語言,那它就會變得像神一樣無所不知,洞悉一切。
至於數據本身,可以預見的是,如果穿戴設備或者物聯網有所發展,那數據將會更多更豐富,能挖的東西也將非常不同,將會有更多神奇的商業模式誕生。如果眼鏡和只能汽車之類的興盛起來,你可以想像,基本一個人一天內的所有概要信息都將被捕獲:你去了哪兒,呆了多久,看見了誰。這是很客觀的數據,肯定能產生除了廣告投放這種(無聊?)用途之外的其他神奇應用。
通過對大數據產業鏈的分析,我們可以看到,在大數據產業鏈的各個生產環節中,各大公司都已開佔位,隨著高性能計算機、海量數據的存儲和管理的流程的不斷優化,技術能夠解決的問題終將不會成為問題。我們認為,真正會制約或者成為大數據發展和應用瓶頸的有三個環節:
第一、數據收集和提取的合法性,數據隱私的保護和數據隱私應用之間的權衡。
任何企業或機構從人群中提取私人數據,用戶都有知情權,將用戶的隱私數據用於商業行為時,都需要得到用戶的認可。然而,目前,中國乃至全世界對於用戶隱私應當如何保護、商業規則應當如何制定、觸犯用戶的隱私權應當如何懲治、法律規範應當如何制定等等一系列管理問題都大大滯後於大數據的發展速度。
德勤認為,未來很多大數據業務在最初發展階段將會遊走在灰色地帶,當商業運作初具規模並開始對大批消費者和公司都產生影響之後,相關的法律法規以及市場規範才會被迫加速制定出來。可以預計的是,儘管大數據技術層面的應用可以無限廣闊,但是由於受到數據採集的限制,能夠用於商業應用、服務於人們的數據要遠遠小於理論上大數據能夠採集和處理的數據。數據源頭的採集受限將大大限制大數據的商業應用。
第二、大數據發揮協同效應需要產業鏈各個環節的企業達成競爭與合作的平衡。
大數據對基於其生態圈中的企業提出了更多的合作要求。如果沒有對整體產業鏈的宏觀把握,單個企業僅僅基於自己掌握的獨立數據,無法了解產業鏈各個環節數據之間的關係,對消費者做出的判斷和影響也十分有限。
在一些信息不對稱比較明顯的行業,例如銀行業以及保險業,企業之間數據共享的需求更為迫切。例如,銀行業和保險業通常都需要建立一個行業共享的資料庫,讓其成員能夠了解到單個用戶的信用記錄,消除擔保方和消費者之間的信息不對稱,讓交易進行的更為順利。然而,在很多情況下,這些需要共享信息的企業之間競爭和合作的關係同時存在,企業在共享數據之前,需要權衡利弊、避免在共享數據的同時喪失了其競爭優勢。此外,當很多商家合作起來,很容易形成賣家同盟而導致消費者利益受到損失,影響到競爭的公平性。
大數據最具有想像力的發展方向是將不同的行業的數據整合起來,提供全方位立體的數據繪圖,力圖從系統的角度了解並重塑用戶需求。然而,交叉行業數據共享需要平衡太多企業的利益關係,如果沒有中立的第三方機構出面,協調所有參與企業之間的關係、制定數據共性及應用的規則,將大大限制大數據的用武之地。權威第三方中立機構的缺乏將制約大數據發揮出其最大的潛力。
第三、大數據結論的解讀和應用。大數據可以從數據分析的層面上揭示各個變數之間可能的關聯,但是數據層面上的關聯如何具象到行業實踐中?如何制定可執行方案應用大數據的結論?這些問題要求執行者不但能夠解讀大數據,同時還需深諳行業發展各個要素之間的關聯。這一環節基於大數據技術的發展但又涉及到管理和執行等各方面因素。
在這一環節中,人的因素成為制勝關鍵。從技術角度,執行人需要理解大數據技術,能夠解讀大數據分析的結論;從行業角度,執行人要非常了解行業各個生產環節的流程的關係、各要素之間的可能關聯,並且將大數據得到的結論和行業的具體執行環節一一對應起來;從管理的角度,執行人需要制定出可執行的解決問題的方案,並且確保這一方案和管理流程沒有衝突,在解決問題的同時,沒有製造出新的問題。這些需求,不但要求執行人深諳技術,同時應當是一個卓越的管理者,有系統論的思維,能夠從複雜系統的角度關聯地看待大數據與行業的關係。此類人才的稀缺性將制約大數據的發展。
更多大數據資訊,歡迎訪問中國大數據產業觀察網:數據觀 | 中國大數據產業觀察
機器學習菜鳥,我來說說我的看法。
在我看來現在制約大數據發展的是模型(題主稱為演算法)。是機器可以像人類一樣思考、抽象的能力,有了這種能力,機器將不僅僅是一個機器,而是一種新的生物。
機器越來越生物化,生物越來越工程化 《失控》
在工業界,對自然語言來說,現在語料肯定是足夠的,在分詞/topic model/w2v方面有一些成就,而現在在語義理解/邏輯抽象幾乎是零進展,人類通過圖靈測試還是遙遙無期的。 說數據制約的我只能呵呵了。
平時我們訓練模型說數據最重要、特徵最重要,是有前提的,那就是模型是確定的。
最近深度學習很火,其中一個原因就是深度學習可能是解決上述問題的「奇點」。因為自己研發的項目,對此話題有頗深入的思考角度,淺談我對大數據一點看法:
目前互聯網行業對於信息、內容、數據的生產方式,還處於原始社會食物採集者靠天吃飯階段向農業文明圈地生產階段轉化的過程中。
這個階段其實是談不上真正的大數據應用的。
因為信息、內容、數據本身,其生產資料,生產者,以及生產力,還沒有達到工業化生產的階段,尚處於初級農業化生產層次,大數據能夠應用所需要的生產關係尚未出現。
從經濟學的角度,我認為大數據要在具有了商品價值和交換價值後,才具有大規模的應用價值。是那些把大數據隨時掛在嘴上的忽悠型創業者
一個問題在於:
很難獲取大數據集
我是普通技術人員,自然接觸不到大數據集,不過問過很多業內人士,從學術界到產業界,大家都非常難獲取數據。
或許數據本身涉及到保密信息,隨意獲取會有安全隱患,不過沒有數據,怎麼做研究呢?
建議推進數據匿名化處理技術,並且構建數據公開平台。當數據緯度足夠廣,足夠大,足夠多的時候,機器的處理速度也越來越快,但是,每個人對數據如何用都有自己的看法,該聽誰的意見變成了新的抉擇。
跟現在上學選擇專業,畢業選擇工作一樣,選擇越來越多,「專家」給的意見越來越多,不知道該聽誰的好。
低迷的時候,有人看衰有人看漲,火熱的時候有人觀望有人追漲,沒有一種演算法可以完全絕對的做出最正確的篩選。隨著大數據的發展,大數據價值已經在各個行業凸顯,大數據在帶來機遇的同時,也帶來了不可忽視的一系列挑戰。
「存不下」和「查不快」,是我們面臨的兩大難題。現在數據源源不斷地產生,除非增加存儲設備,但如此一來勢必會增加存儲成本。目前,街頭攝像頭拍攝的視頻數據,通常只會存一段時間,有的保存三個月,有的保存一個月,就被覆蓋掉,為什麼會這樣?就是因為存不起,費用太高。提高視頻的壓縮效率是解決存儲問題的途徑之一,目前科研人員正在從事第三代編碼技術的研究,以減少空間佔用。
在數據處理上,由於大數據中大部分都是非結構化的數據,現有的軟體和工具主要適用於以結構化數據為主的傳統數據,要想及時捕捉、存儲、聚合和管理這些大數據,以及對數據進行深度分析和挖掘,需要新的技術和能力。而我國數據存儲、處理技術基礎薄弱,總體上以跟隨為主,難以滿足大數據大規模應用的需求。
此外,掌握非結構化數據或流數據的分析技能,對大多數企業來說是一個持續的挑戰。在這些領域中,儘管硬體和軟體已經成熟,但技能仍然缺乏。在美國,對高技能數據分析人才的需求,可能超出目前預測供應量的50%至60%。到2018年,美國需要新增多達14萬至19萬名專家。人才緊缺的狀況如果不解決將嚴重影響大數據應用。
「大數據」對個人信息獲取渠道拓寬的需求引發了另一個重要問題:隱私和便利性之間的衝突。一方面,大數據需要共享、數據開放、平台利用,而目前我國一些部門和機構擁有大量數據但受行政壟斷和商業利益所限,數據開放程度也較低,有些部門把一些數據當成自己的,放那裡既不使用,也不提供給研究者。專家指出,這是我國大數據研究的軟肋和需要解決的大問題。
另一方面,消費者在享受大數據帶來好處的同時,個人購買偏好、健康和財務情況的海量數據被收集,對隱私的擔憂也在增大。從純技術角度來說,美國的「稜鏡」項目是一個典型的通過分析海量通訊數據獲取安全情報的大數據案例,但嚴重侵犯了個人隱私。
D1Net評論:
大數據發展中面臨的瓶頸和挑戰是很常見的,也是國內外大數據發展當中都面臨的問題,只是我國在某些方面表現得更為突出。因此,作為大數據後起之秀的發展國家,我們應該下定決心迎頭趕上,在徹底解決這些問題之後,釋放大數據發展空間。
文章來自:企業網D1net
轉載來自:大數據發展存在制約因素 打破瓶頸勢在必行
人才培養質量低,數據過於封閉,法律的制約
就是技術太渣,而且靠譜的人很少,需求和數據都很充足。
是對人類行為的本質的理解。比如說心理學,社會學,倫理學,甚至new age文化和背後的精神一類。這些人文學方向的理解是所有數據研究的基礎。你可以談演算法,但是演算法背後的意義是什麼?為什麼信息這麼分類?為什麼結構是這麼設計的?沒有對這些看起來不沾邊的東西的理解,技術上的發展會非常緩慢,很可能是閉門造車。當然,這些更多是針對一線研究人員,對於產業鏈上的其他的點關係不大。
個人觀點:
一、數據的整合:以現在的狀況還只能說是小數據,各個擁有各種數據的公司都是在他們自己的業務上產生的數據,短時間內互相無法建立關聯關係,數據都是碎片化的,無法整合。
二、數據的處理演算法,如果數據最終關聯了,如何從數據中獲得信息,產生對應的應用又會對演算法是一個考驗。
結果就是短時間內大數據和 AI一樣都是概念,這上面產生實質的顛覆性的應用還有很長的路要走。個人觀點,僅供參考。
My philosophy is don"t treat myself as a developer, but a hacker, a business solution provider.
So it"s more important about the business itself, not the techniques. Lots of companies talks about big data without analyzing their business reality.
My scenario:
A project with small high-end clients portfolio. Use small dataset to build a recommender system from scratch. Only 30K users in Asia, US, Euro market.
Facing problem majorly from:
- Dirty and highly biased data. E.g. 30% data from top 1 user. 50% from top 10 users. Columns on time from last year missed. Time series can"t come true before the this year. Cleaning the data can"t be based on dogmatic methods but you need to understand why the data comes from, and treat them accordingly.
- Data insufficiency. Don"t have too much useful data at current stage, need cooperate with product team to collect more data. Also some data been kept with no access from the team. Basically lots of infrastructure work to be done if you are the first data scientist.
- Lack of talent. It"s not easy to find true data scientist in China market. At least from job market. So you can"t get enough support from a data engineer team. You are on your own to let your colleague help you.
首先我們要知道現在越來越多的國家開始從戰略層面認識大數據,中國亦如此。那麼,制約我國大數據發展的因素有哪些呢?
1.很少有優質可用的數據
這幾年數據交易機構如雨後春筍,「數據變現」成為很多擁有數據積累的傳統企業的新的生財法。目前,我國大數據需求端以互聯網企業為主,覆蓋面不廣,在O2O趨勢下,大型互聯網廠商嘗試引入外部數據支撐金融、生活、語音、旅遊、健康和教育等多種服務。
然而在具體的領域或行業內,我國普遍未形成成型的數據採集、加工、分析和應用鏈條,大量數據源未被激活,大多數數據擁有者沒有數據價值外化的路徑。比如,各醫療健康類應用收集了大量的數據,但沒有像http://Sermo.com那樣面向醫藥公司售賣數據。與國外相比我國的政府、公共服務、農業應用基本缺位,電信和銀行業更缺少與外部數據的碰撞。
另外,其實數據交易這件事本身就是一個悖論。數據作為一種商品有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,你這個數據到市場賣,根據經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數據交易理論上來說也是不可行的。
大數據概念火了以後,很多機構覺得數據存起來就是寶,於是積攢了大量零碎數據放在那裡,到底能發揮什麼作用也未可知。而在和許多真正想用數據做些事情的機構的合作中我們發現,即便是政府機構這樣的權威數據持有方,也存在很多數據缺失、數據錯誤、噪音多各方面的問題。
我們常常在講大數據就用大數據方法,小數據就用小數據方法,完美的數據是永遠等不來的。但這樣會導致什麼問題呢?在實際項目實施過程中,我們的數據科學家們不得不花費大量時間在數據清洗上,這其實是對本來就緊缺的數據人員的一種浪費。
理論上我們中國有很多數據,但不同部門數據存在在不同的地方,格式也不一樣。政府內部本身整合各部門的數據就已經是一件很頭大的事情,更不要提大規模的數據開放。同時數據開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。比如我們把一個人的支付寶3個月數據拿過來,就可以很輕易的知道這個人今天在門口便利店買了一瓶水,昨天在淘寶買了沙發,每隔三個月會有一筆萬元的支出。那我們就可以很容易推斷這個人剛換了一個租房子的地方,就能了解他的消費習慣。這個數據其實完全是脫敏的,沒有名字、沒有號碼,但絲毫不妨礙我們通過演算法完全的勾勒出這個人的畫像。
2.實際技術與業務之間還有很大距離
大數據行業發展至今,技術與業務之間依然存在巨大著鴻溝。首先,就是數據分析技術本身。數據源企業為實現數據價值變現,嘗試多種方法,甚至自己組建數據分析團隊,可是數據分析是個技術活,1%的誤差都會極大地影響市場份額,術業有專攻,數據變現還是需要專業的數據分析人才來實現。
大數據概念的火熱,做大數據的公司越來越多,產品做得五花八門,數據建模看似誰都可以涉足,但現在數據分析的技術,方法,模型,演算法都有了非常大的改進,跟過去六七十年代完全不一樣,不是說做幾個SAAS軟體或者RAAS軟體就是大數據了,雖然短期看市場火熱,但長遠來說這條路是走不通的,大數據行業發展,技術才是真正的發力點,提高行業准入門檻尤為重要。 基於此,鄂維南院士將海外成熟的大數據建模分析技術帶回國內,並組織成立了北京大數據研究院和普林科技,北京大數據研究院專註於頂層設計,探索大數據行業產學研相結的發展模式,普林科技負責落地實施,從業務層面推動大數據行業發展。
其次中國的數據有它的特色,例如在金融行業,目前大部分銀行採用的是風險評分卡,運用專家經驗定義風險變數,基於定性認識進行評分,通過事後風險回檢優化評分卡,風險預警功能較差。雖然央行徵信中心與國內少數技術領先銀行使用的是風險評分模型,但模型方法相對陳舊,如央行所用FICO評分模型為上世紀80年代基於邏輯回歸演算法構建的評分體系,邏輯回歸演算法適合處理線性數據,但實際問題往往是非線性的,特別是信用風險評估場景下。此外,FICO模型沒有針對我國具體業務進行場景細分,建模邏輯並不完全符合我國實際情況,因此導致準確率不足,風險預警能力差。
基於此,中國人民銀行徵信中心首次與國內大數據公司合作,這次合作中普林科技應用國際領先的大數據建模分析技術,運用決策樹,隨機森林,AdaBOOST,GBDT,SVM等演算法,通過對信用報告的數字化解讀與深入洞察,準確預測了違約風險,對貸款審批、貸中管理形成指導,新模型對好壞賬戶的區分度遠高於行業平均水平。此次合作表明我國的大數據難題更需要適應國情的解決方案與本土的技術人才,這對我們的市場提出了一個新問題。
3.人才稀缺
我們國家大數據發展最大的優勢就是市場大,最大的劣勢恰巧就是缺乏相應人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數據行業同樣十分火熱。而不論在國內還是國外,跟企業競爭人才都是一項艱巨的事業,比如在世界上最好的大學之一的美國普林斯頓大學,想找數學家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數據分析人才被企業挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題 大數據是一個交叉學科,涉及統計學,管理,編程等多學科,知識點複雜,缺乏系統的學習教程。
推薦閱讀:
※使用爬蟲抓投資數據是否是一個高效的方式?
※如何分析找出知乎的潛在的熱門問題?
※如何用爬蟲抓取股市數據並生成分析報表 ?
※一個人一生要在紅燈前停留多久?
※演算法之路該如何學習?