大數據真的有意義么?

現在假設,一切理想狀態全都達到了,然後早起我醒了,數據告訴我今天我要吃什麼機器幫我做好了,數據告訴我要去哪場聚會和誰約會,然後數據告訴我我該做哪些哪些事兒,最後數據告我我今天晚上做愛要做幾個小時?意義在哪?數據把一切都算好了,機器都幫我做好了?意義在哪?????

然後結局大概是這樣:吃了會鬧肚子的飯菜我可以不吃,看了沒意義的書我可以不看,勝率不是50的比賽我可以不打,上不了的妞我可以不理,然後的然後,人類大多是懶惰的對吧,然後的然後呢。


每次想要好好回答這樣的問題,但總覺得怎麼回答都不夠完善,世界上有很多東西難以用一兩句話表達清楚,大數據就是這樣一個東西。

你說大數據有價值。

現在各行各業都在做數據或者準備做(很多公司口號喊的不是一般響),它的價值好像毋庸置疑,每個人都想用數據說話,擺事實說「數」話,用了什麼高逼格演算法,做了怎麼樣訓練,得出了前所未有的「驚天」結論。

但又感覺然並卵?

說的那麼厲害,你牛逼你上,用你的數據來做個東西,帶我們的業績裝逼帶我們飛,你的數據說啤酒和紙尿布好大關係,好,那你來擺,啤酒真的要跟紙尿布擺一起嗎(你去國外超市看看)?還是把紙尿布擺收銀台旁邊?還是在啤酒旁邊放紙尿布廣告(今天你買尿布了嗎?),時刻提醒?然而問題的問題我們只知道問題,並不知道改變後怎麼樣?

好吧,大數據真TM沒價值。

只能告訴我發神經是為什麼?但是不能告訴我以後什麼時候發神經(或許是準確的不知道)?還是乖乖做點實在的果斷先吃藥。

數據「落淚」了。

1.你可知道,你想聽一首好聽的歌,雜亂無章的音樂海洋,推薦音樂常常挺準的。

2.你可知道,你想出行看天氣,天氣預報不知道計算了多少數據才幫你總結明天或將來一周的天氣情況,雖然總會把大太陽的日子預測成大暴雨,別太認真嘛,神也會犯錯。

3.你可知道,當你在為你的約會吃飯發愁時,某應用為你推薦XX餐館有百分之幾的人吃了給好評。

見與不見,數據就在那,或許數據是死的,但它也會活過來。

大數據不想規劃你幹嘛(多久?)?而是以你現在的情況能做什麼?應該準備些什麼(葯?)?有些東西只有你遇到問題才想到它,而沒問題的時候就忽視它,數據就是這樣一個孤獨的東西,那麼假如你沒有存數據,想要也就沒有了哦。。

所以請不要忽視數據的價值,也請不要把數據當成神。

話說數據人也挺孤獨的。


從小到大讀了那麼多書,對我們而言,課本沒啥意義,學到的知識很有意義。同理,數據本身沒意義,從數據里獲取到的知識有意義。數據處理只是手段和工具,不是目的。真正的價值是有效的知識。書到用時方恨少,說的是知識不夠用。現在大數據還只停留在處理層面,學習中,等到學習到知識了,就有意義了。


維克托?邁爾?舍恩伯格《大數據時代》

在越來越多的情況下,使用所有可獲取的數據變得更為可能,但為此也要付出一定的代價。數據量的大幅增加會造成結果的不準確,與此同時,一些錯誤的數據也會混進資料庫。然而,重點是我們能夠努力避免這些問題。我們從不認為這些問題是無法避免的,而且也正在學會接受它們。這就是由「小數據」到「大數據」的重要轉變之一。

對「小數據」而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據盡量精確。無論是觀察天體的位置還是觀測顯微鏡下物體的大小,為了使結果更加準確,很多科學家都致力於優化測量的工具。在採樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。

......

然而,在不斷湧現的新情況里,允許不精確的出現已經成為一個新的亮點,而非缺點。因為放鬆了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優於少量數據那麼簡單了,而是大量數據創造了更好的結果。

同時,我們需要與各種各樣的混亂做鬥爭。混亂,簡單地說就是隨著數據的增加,錯誤率也會相應增加。所以,如果橋樑的壓力數據量增加1000倍的話,其中的部分讀數就可能是錯誤的,而且隨著讀數量的增加,錯誤率可能也會繼續增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混亂程度。例如,與伺服器處理投訴時的數據進行比較,用語音識別系統識別某個呼叫中心接到的投訴會產生一個不太準確的結果,但也是有助於我們把握整個事情的大致情況的。

假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測試儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,也可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這裡面包含了更多的數據,而它提供的價值不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。

......

現在想想增加讀數頻率的這個事情。如果每隔一分鐘就測量一下溫度,我們至少還能夠保證測量結果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀數可能出錯,連時間先後都可能搞混掉。試想,如果信息在網路中流動,那麼一條記錄很可能在傳輸過程中被延遲,在其到達的時候已經沒有意義了,甚至乾脆在奔涌的信息洪流中徹底迷失。雖然我們得到的信息不再那麼準確,但收集到的數量龐大的信息讓我們放棄嚴格精確的選擇變得更為划算。

在第一個例子里,我們為了獲得更廣泛的數據而犧牲了精確性,也因此看到了很多如若不然無法被關注到的細節。在第二個例子里,我們為了高頻率而放棄了精確性,結果觀察到了一些本可能被錯過的變化。雖然如果我們能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力於避免錯誤相比,對錯誤的包容會帶給我們更多好處。

為了規模的擴大,我們接受適量錯誤的存在。正如技術諮詢顧問福瑞斯特(Forrester)說的,有時得到2加2約等於3.9的結果,也很不錯了。當然,數據不可能完全錯誤,但為了了解大致的發展趨勢,我們願意對精確性做出一些讓步。

「大數據」通常用概率說話,而不是板著「確鑿無疑」的面孔。整個社會要習慣這種思維需要很長的時間,其中也會出現一些問題。但現在,有必要指出的是,當我們試圖擴大數據規模的時候,要學會擁抱混亂。


看你怎麼看待這個問題,作為一個程序員,我覺得大數據(Big Data)很有用,我可以用它實現很多工業實踐!技術進步的一大好處就是節省人力成本,當人從重複性體力勞動中解放出來了,才有更多的時間用在思考問題、開拓新的技術上面。

說一說現實中幫助人們解放勞動力的幾個big data工業實戰項目,比如:

1.Google搜索引擎自動補全

通過Wiki 數據集中構建 N-Gram Library實現搜索引擎的自動補全功能。幫助你從巨大的搜索庫中快速搜索你想要的東西。使人們告別圖書館檢索卡片、進入機器檢索時代。

2.通過統計文章情感關鍵詞分析文章所表達的情緒

3. Google 搜索引擎排名

將通過wiki數據進行頁面權重的計算,實現Page Rank這一重要演算法

4.電影推薦系統

將應用 Netflix 的數據,給用戶推薦他們之前喜歡的電影的相似電影

總之,見仁見智吧!


針對樓主描述的場景,我按我理解的大數據做些調整:早上起床的時候,根據我的身體狀況(眼睛有點乾澀),建議我補充點維生素A,可以選擇藥片,胡蘿蔔等包含的食品,我選擇吃藥片補充。

根據日程計劃,分析今晚的三個聚會的主題及出席人員,一個有我喜歡的女孩子出席,一個是有幾個和我最近研究課題相關的幾個專業人士參加的沙龍,可能會讓我得到一些啟發,最後一個是幾個死黨的啤酒宵夜,會比較放鬆。 根據我精神壓力比較大的現狀,建議我出席第三個。 但我最終選擇第一個。

最後,晚上我測過身體狀態後,顯示今天身體活力比較好,體力比較充沛,如果來一炮會比平時持久長很多時間,提示可以考慮和愛侶一起度過。

綜合上面,大數據是提供建議,讓你更明白你的身體狀況,以及提供較優選擇(以及不同選擇的利弊),但並沒有強制性執行,更沒有進行控制。

理想的狀況是這樣的。


想不到竟然有推測你那個可以多少小時的演算法, 感覺自己的工作瞬間高大上了


樓主你理解錯了,大數據不是這樣的,可以看出,由於人們對某件事情理解錯誤,造成人們主觀上認為某些東西不合適就完全不用才是最大的錯誤……

教條說完,接下來說大數據

大數據我換通俗點說就是數據分析,而數據分析給你的只是參考,真正做決定的是你,沒錯,你知道今天應該吃綠葉菜,但沒人逼著你吃,你仍然可以吃肉,而且明天也一樣,而且短時間不會有任何問題,任何事情都是你自己做主,數據和別人一樣,都是給你個參考而已,就是說數據會告訴你怎麼客觀評價一個事物,然後捎帶著能預測未來,決定下一步棋怎麼走,才能得到成功,讓你得到快樂、財富、金錢...

在舉個實際當中的例子,不知道你看不看nba,nba有一句經典(又誤導人)話,數據不能說明一切

例如某天你看到一個球員發揮超常,一場得到30分,在關鍵時刻拯救了球隊,這時候你主觀認為這球員太偉大了,比肩喬丹,如果你是球隊經理,你一定給他2000w美金一年請過來……

但是啊,注意啊,你查了一下他的數據,他是個場均8分的主,也就是說你看那一次正好趕上他爆發了,但是這樣得到主如果你給2000w年薪……你等著挨罵吧

還有人說有些球員的作用數據體現不出來,要我說,其實那是數據不全面罷了,以前的數據一般只統計得分、籃板、助攻什麼的,後來發現球員在季後賽的數據更能說明球員能力,就開始統計季後賽數據,現在又有統計最後5分鐘(關鍵時刻的)能力了,一切都是統計,而且你發現沒有,馬刺和小牛這些老將這個賽季打的相當好,為什麼?因為他們現在在用一種儀器,來統計球員心臟負擔、血壓、疲勞程度什麼的,好讓一個老將在關鍵時候發揮作用,其他時候休息,你可以百度下著東西……

如果你不懂nba,我跟你說樓市,當你04年的時候看著帝都的房價那麼高,沒看數據,沒有參照歐美髮達國家的經濟規律,就主觀認為zf不會不管房價的,一定會降,然後一直不買,到了14年……哎,也許很多人一輩子就輸在這個事上了


這個問題我想了三個月。

想三個月沒想通的問題不多,這是一個。

後來想通了。

信息,或者說數據的作用是什麼?根據香農的定義,信息是減少事物不確定性的量度。

數據的根本用途就是提供決策依據,減少不確定性

對未來、對未知領域,每個人、每個組織都會面臨不確定。然而,儘管有各種不確定,每個人、每個組織、在每天都會作出決策;很多決策是明顯錯誤的。

現有人類的決策,大多數是靠感覺,靠跟風,靠個人經驗,只有很少部分是客觀數據分析。海量數據,提供了一種更為可靠的決策依據。

如果有一個神器,可以顯著消除不確定性,顯著提高決策正確率,它有多大價值?

想想,全球有幾千萬家公司、有70億人,這幾千萬公司、這70億人每天都會決策。每天都會決策。

--------------------------------------------------------------

關注公眾號並回復「一句話自我介紹+你的常用郵箱」,將有65%的機會獲得:

1.五本推薦電子書《思考的技術》《通向財務自由之路》《禪與摩托車維修技術》《與機器賽跑》《失控》;2.《未來知識圖譜》1~19期;3.紅包50~500;


大數據是發現相關關係,然後利用相關關係作出預測。但這個相關關係不是因果關係,內在邏輯不強,不能確定在什麼情況、條件下適用,所以如果某些關鍵的外部條件變化了,很可能大數據會得出偏誤的結論。

而你說的「早起我醒了,數據告訴我今天我要吃什麼機器幫我做好了,數據告訴我要去哪場聚會和誰約會,然後數據告訴我我該做哪些哪些事兒,最後數據告我我今天晚上做愛要做幾個小時」 這些是可能的,前提是你要設定每件事目的。比如你要吃什麼的問題,你的目的其實是美味、營養、價格等多個約束條件下的最優解,你如果能精確設定這個目標,數據當然能幫你計算出食物組合。如果你自己也不能精確知道你的目標(事實上大多數情況下你確實不知道),數據當然也沒辦法給你你最想要的。

你所講的「意義」其實很大部分就是對於目標的設定,「意義」的意思就是人可以為自己設定很多目標,而且可以對這些目標進行實時修正並不覺得麻煩。但要把設定的目標精確的告訴機器,這就是一件非常複雜的事,所以我們往往簡化數據處理的目標,而且不會隨時對目標進行調整,目標就會變得不切合實際,而且過於簡單,當目標簡化到一定程度(比如說只有一個,eg活著)這一事實本身就已經能夠定義為「無意義」了。


我初次聽說大數據,是來自一位叫做車品覺的阿里巴巴副總裁講座,他講了了一個有意思而生動的例子。他問了一個問題:當我們想要了解一枚1960年的1元真幣到底價值多少,怎麼評估。在聽的人有人舉手說上網查新聞,聽有專家估價、心理估值。另一些人說貨幣的價值不變,1元就是1元啊。車大師笑了,說如果是他,他會上淘寶搜索一下,在大數據的情況下,供需平衡,價格的總是不斷地趨近於價值。我覺得這個理念蠻有意思,於是便記下來。

我也想結合我所在的行業談談大數據安全領域。在此前我和一些國企、央企的技術同學聊過,在他們口中似乎大數據就是使用spark、mapReduce、noSQL;對於一些乙方公司而言,大數據就是各種複雜的解決方案和威脅情報,那是在非常偏技術領域。而在數據運用上,談得並不多。

車大師在分享時也提到,原先他只是跟別人談數據,但是後來發現太普通,於是他乾脆在數據前面加了一個大字稱作大數據,後來這個名詞竟然火了。其實大數據與傳統BI的活沒什麼兩樣,大數據並不意味著一定是PB數量級別的數據在一起計算,也不一定涉及到複雜演算法。在我的理解中,大數據就是全量、全景、全行業、所有情況。這裡所謂的大是相對於統計學的抽樣而言的。在計算機能力越來越強的大背景下,我們可以拿全量的樣本來進行計算,對多維度數據進行串並,從而拿到更準確的結果。

當計算能力不再是主要矛盾,我們改變自己原先固有的思維模式,需要對數據有一定敏感,能夠了解到數據與數據之間的關係,理解黑產對於大數據的利用現狀。在從前,黑產的主要困難在於如何獲取數據,於是通常採用釣魚、入侵等方式。而現在隨著大數據的興起,現在很多公司,都是為了獲取他人數據而"免費"提供API服務。由於有了強烈的需求和充足的供應,對於數據的定價和流通其實在網上非常方便。譬如到農村送洗衣粉換手持身份證號都可以收繳很多老人用戶敏感信息。相比於傳統,並不需要複雜的技術都可以實現。

在2011年之前,xss釣魚、黑鏈SEO、垃圾廣告是主要威脅。而近年我們發現黑產人們都不這麼玩。從前搞xss釣魚的那撥黑產,單點對單點地欺詐。近年開始紛紛採用CSRF實施水坑攻擊。1個人,一台伺服器即可影響千萬人;從前全網掃弱口令的,近年開始紛紛採用撞庫方式。黑客手上有全行業幾十億的社工庫,把帳號輸入庫中,直接就能查出對應的明文密碼。一個人一輩子所使用的3~4個密碼,都在社工庫里,不論怎麼改終究逃脫不了黑客的掌控;從前發垃圾廣告的,現在利用行業數據、越權漏洞行為數據進行精準營銷。現在每天都有詐騙新聞發生,其實都是黑產對大數據的利用。

在大數據攻擊方面安全攻擊方面已出現新的形式,也對防守方有了數據應用要求。防守方需要數據,來說明事情的重要性,以及自身優化程度。無法衡量就無法改進。如果沒有數據,一個團隊最基本的評估自身好壞的能力都沒有,也就只能像無頭蒼蠅一樣到處亂撞。安全團隊會陷入「沒有發生安全事件的時候,安全相比業務成長成為最低優先順序;出現安全事件後,安全就是背黑鍋的時候」的窘迫。安全團隊如果不知道全量域名、全量IP、全量應用的話,受攻擊面無限大,也很難做好安全防護工作。在公司中也不好衡量安全團隊的價值。

反而言之,如果數據充足,安全團隊可以準確刻畫價值。隨著安全基礎數據的完善,如果我們有全量的行為日誌監控,我們可以利用日誌重放功能還原出歷史安全事件每一個細節,我們可以超越時空,身臨其境地感受。我們可以穿越歷史與未來,跨部門、跨事業部、跨行業地還原事實,將業務與技術深度串聯,回溯。

安全體驗會成為未來三年的重點需求,能夠刻畫抽象的安全感。此前安全事件通常會被人理解小概率事件,黑天鵝事件。但是如果我們的數據足夠全面,即使是十萬分之一的概率。放眼世界全量樣本,安全事件其實天天都在海量地發生,"小概率事件"即"必然事件"。

利用全量數據,我們可以將一些人們之前認為「虛」、"不確定"、"不可控"的東西準確刻畫,進而更好地改進程度與重點方向。如果數據及維度充足,我們可以以更高的維度衡量一個公司的風險率與資損率,數據從十萬級到百萬級的細微差別可以凸顯。


煙盒上寫著吸煙有害健康,你就不抽了?


寫之前----

感覺樓主的問題肯定不會有多少人來回答的,現在公認是有意義的。當然,目前我也這麼認為。但是,我與樓主有同樣的擔心,且看下文:

  • 基於當前:

大數據只能讓社會更高效。然而對於數據智能及推薦,如果每個人都按照數據所提示而產生行為,其實就沒有任何意義了。就像若每個人都不做壞事,而你也不做壞事,根本顯示不出你是好人一樣。大數據的效果只能在一部分人身上得到體現,但總體上他會潛移默化提高我們的效率,變得更加科學和有規律,節奏更快。

大數據沒有那麼神奇,他的基礎就是人類從古至今所有被記錄的行為與知識。之前,大家也在使用這些知識、合理維持自己的習慣(生物規律)。在歷史發展的長河中,如果以前是「有人在跑,有人在走」的話,那現在大數據就是逼「逼你們全部跑起來」。

  • 基於未來:

大數據對於創新是制約的,因為他本身基於歷史(發現歷史規律不算創新)。

因為大數據的方法基於科學計算,大部分人只會享受「溫水煮青蛙的快感」(把機器訓練的越來越聰明,把人腦「享受」的越來越遲鈍)。

大數據是引領人類走向滅絕的最快途徑!

大數據是引領人類走向滅絕的最快途徑!

大數據是引領人類走向滅絕的最快途徑!

滅絕的外因:

1、基於大數據的機器(人)「吃進」大量人類秘密,再加上本身或者外界給予的「圖靈效應」,那時的機器(人)得有多恐怖;

2、當基於大數據的機器(人)反應速度是人類大腦反應速度的幾百、或上萬倍後,人類如何掌控世界?

滅絕的內因:

1、大數據最重要的是,影響人類自己正常的心智走向僵化,而人類活躍的思維必然與「已然成功」的大數據機器思維會產生矛盾,進而引起人類社會群體精神錯亂、分裂及奔潰。

2、大數據本身就是資源,作為今後的網路戰是必搶資源。人類本身的戰爭。

解決方法:

如果人類沒有滅絕,我相信那時候基於對「大數據」這種「偽科學」的認知會更加清晰,並且人類發現了真正的「(東方)科學」並挽救了自己(避免意識、認知及思維的混亂)。為什麼稱之為「偽科學」是因為當今人類只相信一種名叫「科學」的科學,這種科學有一定的解釋性,但不能完全解釋所有的現象。不一定是人腦不夠,而是要從另一個角度去探索解釋,而不一定是名叫「科學」的方法。「科學」的方法解釋物質還行,對於意識、情感、魂魄、中醫等解釋的含糊不清或者直接無法解釋,已不能讓人信服。所以,人類有必要發掘和創造新的解釋方法,而非僅僅一種「科學」,一般意義上來講還是「西方科學」。而這邊只有「東方神話」的尷尬境地亟待解除。

基於歷史(大數據),真正的解釋方法應該在東方,真正的科學(或者叫做另一種科學)應該在這裡發掘。

並且答案里最重要的應該是「意識」,而不是沒有意義的「物質」。

作者微博:x挾脅輿論x


我認為這個問題可以更精細的問,什麼數量級的大數據是有效的?就單一的一個問題,從互聯網獲得數據並據此分析模型需找特徵的來適應生產發現需求是可行的,但我沒見到實用到收集數據有效建模在需求或者特徵沒有改變之前就實用化的例子,而且,雖然我不懂運算,就特徵關聯其他可能這種近似np問題加智能運算肯定也做不到。

作為大數據,面向對象必然是有廣泛存在價值的東西,然後設立標準尋求滿足這一標準的人,然後抽樣調查看下這一模型的命中概率,然後呢?並沒卵用,如果數據非常符合其很大概率就是這樣的人,那你算出來的和社會選擇得出的也很近似,然後是那些比較符合的,大部分分布其實都不是符合條件的,別說我沒算,真的是這樣的,數據根本區分不出來,就算命中率大於50,那就產業化的利潤,承擔的未知風險一樣可以阻撓哪怕是正確的事情。人類有適應性也有為了保護自己的偽裝本能,心理特徵更不會有具體的指向,比較玩數據的互聯網金融其實各種特徵也完全可以為利益改變預估模型,信用評估。現階段的數據分析似乎還是會計的延伸和發展,計算的多少需要很多主觀評估加上很少的運算,我想這肯定不滿足大數據的定義吧,但實際情況確實如此。主觀意識不是線性的,應激性存在但容易被干擾,一個簡單的例子,紅綠燈的時間每個路口其實是經過計算的,而且日復一日,數據其實也很充分的,為什麼我還是堵車呢?車太多了?說明數據改變不了現實

遇到一些路況?變數不可控而且隨時產生,堵車通知的不及時?信息的傳遞會有隨機的延誤。大數據一個公式要是真的准,先告訴我未來的首富在哪,讓我跟著干就好了嘛


大數據是要跟統計學區分開的。多數情況下,大數據是一個賣弄概念的騙局。


怎麼說呢,DD-4覺得在某種程度上是有意義的。

比如對內容生產來說,流量是對文章綜合能力高低的最直接反應,可以為編輯在選題包裝上提供相應的指導作用。但在某些特定的情況下,可能不行,這個原因也要具體問題具體分析。

上周,在第一財經數據盛典上,《白夜追兇》出品人馬李靈珊就有提到過一個特殊案例——為什麼數據無法指導內容創作?

談及數據能夠輔助生產內容時,馬李靈珊認為,用數據指導內容,仍然不太現實。目前存在兩個問題,一個是抽樣數據樣本不夠大,另外一個是內容有隨機性。馬李靈珊稱,「如果用數據看,《白夜追兇》一定火不了,因為不是有流量明星和流量IP的項目,現在對我們來說,數據更多的是參考價值。」

馬李靈珊還舉到了《紙牌屋》的例子,那時大家想依據大數據來做《紙牌屋》,然後拿到比較高的點擊率,但最後證明所有數據只是美好的願景。

馬李靈珊認為,中國的一些數據水分比較大,一個是視頻網站的點擊量,另外一個是所有數據都是被污染過的。

因此,針對如何選擇IP的問題,馬李靈珊稱,我們會去參考很多比較小眾的APP或者論壇上面的數據,比如它是一個動漫,或者二次元,還有相對小眾的內容,數據會相對真實一些,能夠幫助我們選擇。今天中國有沒有特別好的排行榜,現在用排行榜來指導我們做事情,可能還有點距離。

對於《白夜追兇》這部劇在網路上獲得相當高熱度的情況,馬李靈珊表示,既意外又不意外。意外的點是劇情從一開始不是所有人都看好的劇,潘粵明也不是說是一個當紅的流量或者說頭部明星。又在情理之中則是因為這部劇在圈內的影評極好,另外追案的題材在全世界都很受歡迎,所以有一定的心理準備。

歡迎登陸CBNData官網觀看更多有趣的數據報告。


我個人覺得,大數據的意義在於你怎樣去運用。你可以參考借鑒它所得出的結果,但是下決定的是人。數據為什麼會有價值,不是說它能告訴你要做什麼,而是給了你一個參考的方向,讓你去做的事情有一個依據。每個人看事情都有不同的角度,所以從不同的角度去看大數據,或許就可以發現它的獨特之處了。


大數據帶來的改變,更多的是對企業而言的,尤其是宣傳面上的

我的理解比較片面:利用大數據(如搜索結果)來探尋用戶喜好

從而開發或是發布投其所好的產品。


大數據,所謂的全採樣統計,但是實際上首先它並不一定全,其次他不能代表邏輯關係。

統計數據在於幫助找出原因,但並不代表了了任何因果關係。

舉個例子,大數據統計出,某一個時間段交通特別擁堵,某一個路段某一個時段交通特別擁堵,那麼你就可以去找,為什麼那裡這個時段地段擁堵,然後解決它。

反過來,如果你只是告訴別人,那裡這個時候會堵路,那麼所有司機都這麼想了,都換了另一條路走,結果這條路沒堵,或者這個時間段沒堵,但是隔壁一條路堵了,或者這條路提前一個小時堵了。

統計數據只能幫助你鎖定到原因可能存在的區域,縮小分析範圍,但是不能代替因果關係,只能幫助你找到原因。

不過在全自動化的信息時代,大數據統計結果,可以用同樣的模糊而非精確的手段,來實現目的。最明顯的結果就是廣告。比起漫無目的的播放廣告,不如根據客戶的行為數據,推出相關的廣告信息。反正這一切都是自動的,同時就算不準也沒關係。

但是對於未來的預測,同樣的數據可能會得出完全相反的結論,可能毫無幫助。比如說,一個東西的市場上的歷來銷量都一般不大不小,產品線和品牌數量不多不少,如果你面臨要在這個市場上推出新產品,你就面臨兩種可能,一種是這個市場的需求沒那麼大,另一種可能就是這個市場的上升空間巨大遠未飽和,這就是兩個極端相反的結論,那麼你之前的那段大數據幾乎就是個屁,需要其他數據來幫助分析。


題主犯了一個邏輯性的錯誤,大數據本身是個抽象的概念,但是你舉了一個的例子,你可以用實際的例子去驗證抽象的概念,但是不能去推導這個概念是否成立。(比如內積空間是空間的一種,但是內積空間是有夾角的,是具象化的,我不能說因為內積空間有夾角就說空間的概念是錯的)

是這樣的,目前大數據本身其實只是拋出了一個問題(這個問題是有依據的,很簡單,大數定理),就是當數據量大到一個程度的時候,我們就能觀察到以前無法觀察的規律,同時考慮到計算機的計算能力,我們是有可能捕捉到非常複雜的規律的,而這些規律是有可能可以被利用的(什麼預測,識別這些都是利用的方法而已)。但是現在很多時候很多人把這個概念過於具象化了,就容易使得大家有這個思維,大數據可能完全沒有用嘛。

有可能確實也沒有用,但是也有可能是我們沒有找到的利用的方法。目前,為了去處理或者尋找一些規律是需要依賴於學習方法的,但是關鍵在於學習方法是針對性的,並不能完全自主的發現規律。簡單來說,你得先確定規律大致是怎麼回事,然後用設計學習方法去驗證他,否則是沒有意義的。這樣就限制了大數據這個概念本身的結果,因為有可能這個規律是人完全無法想像到的,而設計的方法也完全不可能發現這個規律。

總的來說,受限於目前的理論水平,大數據現在還處在一個比較初級的階段,但是很多人把最終那個大願景用來忽悠了,而那個大願景目前看來還是很遙遠的。


個人感覺,大數據的功能被誇大了。

從我的學習經歷來看,大數據的作用在於統計分析,就好像初中高中做找規律一樣,在數據量足夠龐大的時候,找到的規律一般比較接近「真規律」。

現在很多提到大數據的地方,都跟智能家居這些東西相聯繫,雖然不能說沒有聯繫,不過,總是感覺,大數據不適合用來預測個體的行為,而適用於群體的傾向預測。


推薦閱讀:

如何評價文章《為什麼用蘋果手機的人去莆田系醫院治不好病》?
如何學習特徵工程?
如何研究inferring networks和mining RNA seq network?
2013年是否有可用的「基於互聯網大數據的風險評估模型」?

TAG:數據挖掘 | 數據分析 | 行為學 | 大數據 |