如何評價《Big Data:大數據時代》這本書?


1.關於隨機抽樣和整體數據

隨機抽樣(Random Sampling),是我們日常分析數據一個很重要的步驟。為什麼呢?因為隨機是消除主觀偏倚(subjective bias)的一個好方法。有很多朋友認為,隨著樣本的增多,數據的精確性(accuracy)會增高,其實不然。因為選擇數據有主觀成分在內,舉例吧,假如您想做一個關於所有人群中乳腺癌的研究,有10億個樣本,但都是男性,得出的結論無疑很有問題,所謂缺乏代表性(representative)。隨機抽樣,則在基於一個隨機的機制上,希望最小化抽樣的主觀成分,以達到研究的相對客觀。

當然,現今在研究上,有會出現全體取樣的情況,即是(population based survey)。比較準確的定義以及詳情可見 Moyses Szklo et al. "Population-based Cohort Studies" , Johns Hopkins University School of Hygiene and Public Health, Vol. 20, No. 1, 1998.

全體取樣,是Big Data 的一個核心內容,在分析數據上,無疑,用全體數據分析,比用部分數據分析要來得更加有說服力,也是此書力推的一種研究方法。

2. 關於因果關係和相關關係

因果關係(causal relationship)關於因果關係,早在亞里士多德時代,就有關於因果的4種分類(source from wikipedia):To answer various Why? questions, Aristotle identified four types of causation, the four causes:

  • Material cause, whereby the material composing a thing determines its behaviors, as a rock falls by its heaviness.
  • Formal cause, whereby a thing"s form determines the thing"s nature or role, as a human differs from a statue of a human.
  • Efficient cause, which imparts the first notable change, as a human lifts a rock or raises a statue.
  • Final cause, the ultimate end for which a thing exists, although the thing, even a human, might not know that end.
  • 至今,較準確的關於因果的定義為(also from wikipedia lol):causality is also the relation between a set of factors (causes) and a phenomenon (the effect). Anything that affects an effect is a factor of that effect. A direct factor is a factor that affects an effect directly, that is, without any intervening factors. (Intervening factors are sometimes called "intermediate factors".) The connection between a cause(s) and an effect in this way can also be referred to as a causal nexus.
  • 所以,在研究影響因素和結果之間的關係時,因果是他們之間一個可以證明的最強烈的聯繫。
  • 但是,相對來說,能過接近證明因果關係的研究,都是前瞻性研究(prospective study),因為通過時間的推移,影響因素和結果之間的前後聯繫可以更客觀地反映出來。例如:在作因果分析時,回顧性研究(retrospective study):一般採取把影響因素和最終的結果數據收集回來,再分析影響因素和要觀察的結果是否有相關,因這樣分析的結論只能是發現兩者之間有無相關,不能得出因果關係(因缺乏時效性)。而前瞻性研究,可以從一開始的影響因素入手,觀察一段足夠長的時間,看最終的結果,從而得出的關係即具有一定的因果性。因為先有影響因素,繼而發生了以後的結果。

所以,對於大數據(Big Data)的應用,並不是他不想證明因果關係,而是並不能證明因果關係。由於大數據的收集方法和分析方法,在於把所有能收集的數據都收集,再集中分析,這種研究方法是缺乏時效性(temporality)的,所以,他並不能證明因果關係,只可以說明兩者的相關關係。

可是,對於事物發展的預測,有時,影響因素成千上萬,解釋的理論更加是多如牛毛,強找因果關係,對要求快速反應的事件(如股票預測和流感趨勢),我們更迫切的是想知道接下來要怎麼做,而並非要找因果關係。

從這個角度來說,大數據確有其實用的地方,從09,10年流感危機的應對(應用Google Flu Trend分析),大數據的分析,得出結論、預測趨勢的速度確實比以前快多了,在嚴重的傳染病面前,早一天應對,可以挽救數以百萬計的人命啊。


花了三天的零碎時間大致看完了舍恩伯格的《大數據時代:生活、工作、思維的大變革》。我看推薦說這是「迄今為止最好的一本大數據專著」。目前公司在搞Hadoop、大數據應用,外面各類零碎的資料也非常多,那麼想我應該去看一下這「最好」的專著吧。

買回來看完的感覺是平平而已。個人看法,在五分制下,大概也就是最多打三分。這本書可以買來看看,寫得比較完整全面,案例比較多,有一定的參考意義,寫PPT吹牛用得上,但是有什麼巨大的意義就談不上了。很多觀點不能同意。

一、主要觀點上可以探討的地方

作者提出了關於大數據的「擲地有聲」的三個原則。這三個原則凡講大數據必被提及,很多人奉為圭臬。但是我覺得每一點都值得探討。這三點分別是:不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關係,而是相關關係

看完之後感覺都有點不是那麼回事。

1.不是隨機樣本,而是全體數據

這個說得好像人類從來就不知道使用全體數據可以得到更全面的結論,而非要去煞費苦心發展出一套抽樣技術一樣。人類早就知道處理全量數據的好處,而之所以要進行抽樣分析,原因不外乎兩點:一是處理能力跟不上,二是數據收集能力跟不上。作者認為人類之前主要受限於數據的處理能力而不去處理全量數據,但在目前機器處理能力有了巨大的提升的時代,限制絕大多數應用的瓶頸不是計算能力而是數據採集能力(不要去提那些極少數需要超級計算機的場合,那個和多數人無關、和本書的商業主題也無關)。但是即便如此,抽樣所要針對的很多應用場景是不太可能收集全量數據的情況。比如人口普查,無論計算機力量如何強大,當前很多數據還是要人工去收集,所以這個普查還是要用抽樣的方式。有意思的是,作者用人口普查是抽樣分析來說明非「全量」時代我們被迫採用了抽樣,而最終也沒法說我們是否已經可以用全量數據來做人口普查了。實際上至少在目前,對於人口普查,抽樣還是必然的選擇(嗯,你可以設想,以後人人都裝一塊晶元,你可以在你的PPT里講給你的客戶和老闆聽)。再比如我們統計里的經典問題:怎麼估算一批零件的使用壽命?怎麼去分析一批奶品里的三聚氰胺?以前我們不可能去做全量測試,因為這意味著這批零件就廢了,這批奶也全部用於測試了,這樣測出結果也沒啥意義了(嗯,你也可以說:我我們去收集歷史上所有此類零件的使用情況來進行分析吧.....嗯,加油吧,雄心勃勃的騷年)。現在 ?我們還是必須依賴抽樣,是必須。

即便不提這些例子,僅從邏輯而言:收集、處理數據的行為本身也在不斷產生著新的數據。我們又怎麼證明這些數據不是你需要的「全量」的一部分呢?

作者的行文中,關於什麼是「全量」,處於不斷的搖擺之中。有時指「我們需要的所有數據」,有時指「我們能收集到的所有數據」。作者舉了人口普查的例子,這個全量顯然指前者。而在很多商業案例中,又顯然指後者。我們有能力處理越來越多的、在以前不敢想像的大量數據,但是至少目前看,我們還沒可能說我們處理了「全量」。我們最多可以說我們能處理我們能搜集到的「全量」,但如果據此產生了我們已經沒有遺漏數據了的感覺,認為所有數據盡在掌握了,那我認為是一種很可能導致錯誤的錯覺。

2.不是精確性,而是混雜性

這個么,說得好像以前的人類在使用「抽樣」數據時竟然都認為取到的數據是「精確」的一樣。在使用抽樣數據的時候,我們就知道要容忍一定的誤差。我們甚至知道在就算取得了「全樣」數據的時候,也可能因為有各種原因而導致的不精確,統計實踐中對此有相當多的案例。人類從未奢望過我們通過數據分析取得的多數結論是精確的。我們從來都要在信息混雜的情況下做出大多數的決策。

3.不是因果關係,而是相關關係

這是很多人(包括作者)認為最有價值、最重大的發現,而實際上卻也是最收到批評的一個觀點。連譯者周濤教授在序言里都表示看不下去了,他至於認為如果放棄對因果關係的分析,是人類的墮落。我不說這麼高的哲學層面,只從邏輯和技術上討論一下。

計算機能夠提供給我們的結論(到目前為止以及在可見的未來),都是相關性。計算機從未提供過明確的因果關係給人類。是否因果關係,是人類在數據基礎上,進行的人為判斷。一直有相當多的應用,也是只考慮相關性,不考慮因果關係的:確定因果關係,是需要更大的精力、更多的投入的。所以只看相關性而不看因果性也不是什麼新的結論(實際上已經是個很舊的結論了)。而這個相關性是不是可以作為決策的基礎呢?這個一樣離不開人的判斷。有一個這樣的故事:通過大量的數據分析,慈善組織得出結論:一個國家、地區的電視機的普及率與發達富裕程度很有關係(冰箱、洗衣機、空調、高跟鞋、牛仔褲,etc.,也會和發達程度有這樣的相關性),於是他們就向貧困國家贈送了很多電視,認為此舉可以促進該國的經濟發展。你可以鬼扯電視的普及與經濟文化的密切相關,但是實際上最終發現更可能是經濟發展導致了電視的普及,而不是反過來。所以,我們真的不需要因果分析嗎?說得玩笑一點:這個世界真的不需要腦子了嗎?

作者舉了一個例子:谷歌分析搜索關鍵字來確定哪裡可能發生了流行病。認為這就是利用了相關性而不是因果性。這是沒有利用因果判斷嗎?現在在投入巨大的機器資源進行分析之前,分析師已經預計了得病的癥狀可能會導致人們去網上進行相關搜索(影響了搜索行為)。谷歌存儲的用戶上網信息肯定遠遠不止一個搜索關鍵字,分析師為何不開足馬力把「全量」數據、各個指標都分析一遍呢?比如用戶上網地點?上網時間?上網頻率?上網語言?瀏覽器版本?客戶端操作系統?etc...為何會像導彈一樣精確地將機器資源投放到了關鍵字上呢?

總之,對於這些原則,作者為了顯出新意,說得過於絕對。而排除掉絕對的成分後,這些觀點也就不顯得是創新了。作者把三個數據分析人員一直秉持的原則,當做全新的東西講了出來。時代在變化,我們或許應該經常重新審視這些原則,來確認自己的思想是不是僵化了、是不是過時了。我贊同作者重新審視這些看法,但是我覺得沒必要講得這麼極端。

二、細節論據上可以探討的地方

除了三個大原則不足以令人完全信服,在一些細節上,作者的引證也不是很嚴謹。

如第51頁,對於拼寫檢查的演算法的優化。作者提到,通過輸入大量的數據,4種常見語法檢查演算法的準確率提高了很多,以此說明大數據發揮了作用。這確實是個很有啟發性的例子,可以去做更深入的分析和研究,但是.....僅僅4個例子,夠得出很有力的結論嗎?4個演算法,作者沒注意到這是一個非常小的樣本嗎?不能因為這是4個用了大數據的採樣,就認為這是一個支持大數據的有力結論了吧。(順便我很想問問他們:為什麼不測試個幾十上百的演算法呢?是不是面對如此「大量」的計算,也只好折中選擇了一個抽樣的小樣本呢?甚至連樣本數量是否合格都顧不上了嗎?)

三、這本書有什麼用處?

對於這樣的一本書,我不明白周濤教授在譯序里為什麼要建議大家(以後)每個版本都應該買一本。為什麼要買?難道作者理清自己腦子的過程很值得我們關注嗎?

譯序里說:「作者渴求立言立說的野心」,但是我恐怕作者是達不到這個目標的。關於作者的簡介為:「《大數據時代》是國外大數據系統研究的先河之作,本書作者維克托·邁爾·舍恩伯格被譽為『大數據商業應用第一人』,....早在2010年就在《經濟學人》上發布了長達14頁對大數據應用的前瞻性研究。」

總體感覺是作者有很多想法,見識過很多案例(這些案例都豐富地體現在書中了,也很有參考價值)。但並非是一個曾經和數據真正絞盡腦汁搏鬥過的人(這是我瞎猜的,沒有考證過他的經歷。考據者請不要告訴他做過什麼諮詢案例,這離真正體會數據的折磨還很遠。)。

第183頁說道:「...執行官們信任自己的直覺,所以由著它做決定。但是,隨著管理決策越來越受預測性分析和大數據分析的影響和控制,依靠直覺做決定的情況將會被徹底改變。..."真的會么?如果你面對某一家企業做諮詢,那可以這樣講。一種新技術的採用很有可能大幅提升企業的戰鬥力,並超越競爭對手。但是作者是期望對行業立言的人,面對整個社會我們這樣講就不嚴謹了。引用一個例子:中國棋院的一次訓練會後,總教頭馬曉春對隔天要去各自的母隊參加圍甲的棋手們說:祝大家周末取勝。棋手們笑了:我們只有一半的人能贏啊。同樣,如果大家都採用了大數據技術,那麼也總有企業要在競爭中落於下風。而既然我們實際上無法真正分析「全量」數據,那CEO們還是會有很大的決策空間,哪怕很多決策實際上「不科學」。最起碼,他們需要決定將有限的企業資源投入到對什麼樣的大數據進行分析,並如何應用分析出來的結果。嗯....我認為,這多少還是要依賴一些直覺的。

那麼大家是否應該看一下這本書呢?我的答案是應該看一看。既然大數據是當前的潮流、相關的研究/商務活動層出不窮,那麼做IT工作、數據工作的人對於「最好的」專著無論如何都必須看一下。書中集中展示了很多案例,值得作為參考和啟發思維。此外,為了作為談資、為了在寫大數據PPT時有所依據,大家也得看看這本書。根據場合不同,可以對裡面的內容複製粘貼、理解重寫。這些內容,我相信買一版也就夠了。需要提醒PPT人員的是,演示前請想清楚如何回答可能被提及的質疑。如果你對這本書的觀點都深信不疑,那麼你將會遇到很多的質疑。

對於下載網路版本擔心沒有圖的朋友,請不用擔心丟失信息:除掉湛廬特別製作的一張本書思維導圖的彩頁。這本書沒有圖。是的,一張都沒有。大數據,大概太大了,大到作者無法用任何圖來闡明了。


一本簡單直接的書,可以作為普及類閱讀。

今天做了這本書的讀書筆記,以下。

前言:最近讀完一本關於大數據的書,書描述的內容簡單直接,有些點我自己也不是完全理解或認同,不過有趣的細節不少,一一記錄下來。:)

書名:

大數據時代:生活、工作與思維的大變革

作者:

Viktor Mayer-Sch?nberger, Kenneth Cukier

1,如今,數據已經成為一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,一旦思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務。數據的奧妙只為謙遜、願意聆聽且掌握了聆聽手段的人所知。

個人認為創新的兩個主要來源,一個是拍腦袋,天才本著自己的熱情和天賦來創造,另一個是講道理,從真實的世界用嚴謹的方法抽離出一絲絲可能來創造。數據在後者的作用不言而喻。

2,大數據的精髓在於我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法。

第一個轉變就是,在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機採樣。

第二個改變就是,研究數據如此之多,以至於我們不再熱衷於追求精確度。

第三個轉變因前兩個轉變而促成,即我們不再熱衷於尋找因果關係。尋找因果關係是人類長久以來的習慣。即使確定因果關係很困難而且用途不大,人類還是習慣性地尋找緣由。相反,在大數據時代,我們無須再緊盯事物之間的因果關係,而應該尋找事物之間的相關關係,這會給我們提供非常新穎且有價值的觀點。相關關係也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。

想了很久這個邏輯,深深的恐懼,來自於其實人類被機器控制是有可能的……回到正題,在我們設計師的設計工作中,尋找因果關係已經成為一種習慣。我覺得書里寫的挺好,很多因果關係是我們人類強加上去的,不一定準確或者釋義。但是完全抽離因果關係只看相關關係,在與用戶強相關的用戶體驗設計領域還是挺困難的。第一,數據要足夠海量;第二,分析方法要足夠完整有效;第三,用戶是會變的,感情和思維很難量化分析。不過現在做互聯網設計,因果關係和相關關係都應該看,並互相結合,感性與理性要兼具,才能體現我們設計師的價值。

3,統計學家們證明:採樣分析的精確性隨著採樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。雖然聽起來很不可思議,但事實上,一個對1100人進行的關於「是否」問題的抽樣調查有著很高的精確性,精確度甚至超過了對所有人進行調查時的97%。這是真的,不管是調查10萬人還是1億人,20次調查里有19次都能猜對。為什麼會這樣?原因很複雜,但是有一個比較簡單的解釋就是,當樣本數量達到了某個值之後,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。

的確,就像我們用戶研究中的用戶測試,一般9到12個樣本就足夠得到信息了。

4,隨機採樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴於採樣的絕對隨機性,但是實現採樣的隨機性非常困難。一旦採樣過程中存在任何偏見,分析結果就會相去甚遠。

5,有時候,當我們掌握了大量新型數據時,精確性就不那麼重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。

6,社會將兩個折中的想法不知不覺地滲入了我們的處事方法中,我們甚至不再把這當成一種折中,而是把它當成了事物的自然狀態。第一個折中是,我們默認自己不能使用更多的數據,所以我們就不會去使用更多的數據。但是,數據量的限制正在逐漸消失,而且通過無限接近「樣本=總體」的方式來處理數據,我們會獲得極大的好處。第二個折中出現在數據的質量上。在小數據時代,追求精確度是合理的。因為當時我們收集的數據很少,所以需要越精確越好。如今這依然適用於一些事情。但是對於其他事情,快速獲得一個大概的輪廓和發展脈絡,就要比嚴格的精確性要重要得多。

7,知道「是什麼」就夠了,沒必要知道「為什麼」。在大數據時代,我們不必非得知道現象背後的原因,而是要讓數據自己「發聲」。

這個點總是有點想不透徹,也許在很多領域可行,在用戶體驗設計領域得好好想想再適配這種思路和方法。

8,除了僅僅依靠相關關係,專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當的關聯物。這些理論就是一些抽象的觀點,關於事物是怎樣運作的。然後收集與關聯物相關的數據來進行相關關係分析,以證明這個關聯物是否真的合適。如果不合適,人們通常會固執地再次嘗試,因為擔心可能是數據收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎都是有缺陷和必須修改的。這種對假想的反覆試驗促進了學科的發展。但是這種發展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導致我們在設立假想、應用假想和選擇關聯物的過程中犯錯誤。總之,這是一個煩瑣的過程,只適用於小數據時代。

大數據時代,也要關注假想,這是很多研究進行的人的基石。

9,大數據的相關關係分析法更準確、更快,而且不易受偏見的影響。建立在相關關係分析法基礎上的預測是大數據的核心。

10,一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數據,我們可以預先捕捉到事物要出故障的信號,比方說發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統把這些異常情況與正常情況進行對比,就會知道什麼地方出了毛病。通過儘早地發現異常,系統可以提醒我們在故障之前更換零件或者修復問題。通過找出一個關聯物並監控它,我們就能預測未來。

有道理,美國很多犯罪區域監控也是這個邏輯。不過真的到警察抓壞人是按照數據分析預測來,世界會怎麼樣……(少數派報告就是這樣,不過他們不是根據數據分析,是根據超能力)

11,在大數據時代,這些新的分析工具和思路為我們提供了一系列新的視野和有用的預測,我們看到了很多以前不曾注意到的聯繫,還掌握了以前無法理解的複雜技術和社會動態。但最重要的是,通過去探求「是什麼」而不是「為什麼」,相關關係幫助我們更好地了解了這個世界。這聽起來似乎有點違背常理。畢竟,人們都希望通過因果關係來了解這個世界。我們也相信,只要仔細觀察,就會發現萬事萬物皆有因緣。了解事情的起因難道不是我們最大的願望嗎?

在哲學界,關於因果關係是否存在的爭論已經持續了幾個世紀。畢竟,如果凡事皆有因果的話,那麼我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果,而這個結果又是由其他原因導致的,以此循環往複,那麼就不存在人的自由意志這一說了,所有的生命軌跡都只是受因果關係的控制了。因此,對於因果關係在世間所扮演的角色,哲學家們爭論不休,有時他們認為,這是與自由意志相對立的。當然,關於理論的爭辯並不是我們要研究的重點。

12,數據創新:數據的再利用

數據創新再利用的一個典型例子是搜索關鍵詞。消費者和搜索引擎之間的瞬時交互形成了一個網站和廣告的列表,實現了那一刻的特定功能。乍看起來,這些信息在實現了基本用途之後似乎變得一文不值。但是,以往的查詢也可以變得非常有價值。有的公司,如數據代理益百利旗下的網頁流量測量公司Hitwise,讓客戶採集搜索流量來揭示消費者的喜好。通過Hitwise營銷人員可以了解到粉紅色是否會成為今夏的潮流色,或者黑色是否會回歸潮流。谷歌整理了一個版本的搜索詞分析,公開供人們查詢,並與西班牙第二大銀行BBVA合作推出了實時經濟指標以及旅遊部門的業務預報服務,這些指標都是基於搜索數據得到的。英國央行通過搜索查詢房地產的相關信息,更好地了解到了住房價格的升降情況。

隨著大數據的出現,數據的總和比部分更有價值。當我們將多個數據集的總和重組在一起時,重組總和本身的價值也比單個總和更大。如今,互聯網用戶都熟悉基本的混搭式應用,即將兩個或多個數據源以一種新穎的方法結合起來。例如,房地產網站http://Zillow.com將房地產信息和價格添加在美國的社區地圖上,同時還聚合了大量的信息,如社區近期的交易和物業規格,以此來預測區域內具體每套住宅的價值。這個結果極具指導意義。

13,數據創新:可擴展數據

促成數據再利用的方法之一是從一開始就設計好它的可擴展性。雖然這不總是可能的,因為人們可能在數據收集後很長時間才意識到這一點,但的確有一些方法可以鼓勵相同數據集的多種用途。例如,有些零售商在店內安裝了監控攝像頭,這樣不僅能認出商店扒手,還能跟蹤在商店裡購物的客戶流和他們停留的位置。零售商利用後面的信息可以設計店面的最佳布局並判斷營銷活動的有效性。在此之前,監控攝像機僅用於安全保衛,是一項純粹的成本支出,而現在卻被視為一項可以增加收入的投資。

收集多個數據流或每個數據流中更多數據點的額外成本往往較低,因此,收集儘可能多的數據並在一開始的時候就考慮到各種潛在的二次用途並使其具有擴展性是非常有意義的。這增加了數據的潛在價值。問題的關鍵是尋找「一份錢兩份貨」,即如果以某種方式收集的單一數據集有多種不同的用途,它就具有雙重功能。

所以說,互聯網的產品設計中,埋點,多埋,總是沒錯的啦。

14,數據創新:數據的折舊值

比如十年前你在亞馬遜買了一本書,而現在你可能已經對它完全不感興趣。如果亞馬遜繼續用這個數據來向你推薦其他書籍,你就不太可能購買帶有這類標題的書籍,甚至會擔心該網站之後的推薦是否合理。這些推薦的依據既有舊的過時的信息又有近期仍然有價值的數據,而舊數據的存在破壞了新數據的價值。

於是,亞馬遜決定只使用仍有生產價值的數據,這就需要不斷地更新資料庫並淘汰無用信息。這時面臨的挑戰就是如何得知哪些數據不再有價值。僅僅依據時間來判斷顯然不夠,因此,亞馬遜等公司建立了複雜的模型來幫助自己分離有用和無用的數據。例如,如果客戶瀏覽或購買了一本基於以往購買記錄而推薦的書,電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊數據的有用性,並使模型的「折舊率」更具體。

15,數據創新,:數據廢氣

一個用來描述人們在網上留下的數字軌跡的藝術辭彙出現了,這就是「數據廢氣」。它是用戶在線交互的副產品,包括瀏覽了哪些頁面、停留了多久、滑鼠游標停留的位置、輸入了什麼信息等。許多公司因此對系統進行了設計,使自己能夠得到數據廢氣並循環利用,以改善現有的服務或開發新服務。毋庸置疑,谷歌是這方面的領導者,它將不斷地「從數據中學習」這個原則應用到許多服務中。用戶執行的每一個動作都被認為是一個「信號」,谷歌對其進行分析並反饋給系統。

埋點!埋點!

16,數據創新:開放數據

國家收集數據時代表的是其公民,因此它也理應提供一個讓公民查看的入口,但少數可能會危害到國家安全或他人隱私權的情況除外。這種想法讓「開放政府數據」的倡議響徹全球。開放數據的倡導者主張,政府只是他們所收集信息的託管人,私營部門和社會對數據的利用會比政府更具有創新性。他們呼籲建立專門的官方機構來公布民用和商業數據;而且數據必須以標準的可機讀形式展現,以方便人們處理。否則,信息的公開只會是徒有虛名。

很多年前我讀信息管理的政務信息管理課程時,就寫了這個哇,政務透明,政府數據大有可為。

17,大數據價值鏈的3大構成

根據所提供價值的不同來源,分別出現了三種大數據公司。這三種來源是指:數據本身、技能與思維。

第一種是基於數據本身的公司。這些公司擁有大量數據或者至少可以收集到大量數據,卻不一定有從數據中提取價值或者用數據催生創新思想的技能。最好的例子就是Twitter,它擁有海量數據這一點是毫無疑問的,但是它的數據都通過兩個獨立的公司授權別人使用。

第二種是基於技能的公司。它們通常是諮詢公司、技術供應商或者分析公司。它們掌握了專業技能但並不一定擁有數據或提出數據創新性用途的才能。比方說,沃爾瑪和Pop-Tarts這兩個零售商就是藉助天睿公司(Teradata)的分析來獲得營銷點子,天睿就是一家大數據分析公司。

第三種是基於思維的公司。皮特?華登(PeteWarden),Jetpac的聯合創始人,就是通過想法獲得價值的一個例子。Jetpac通過用戶分享到網上的旅行照片來為人們推薦下次旅行的目的地。對於某些公司來說,數據和技能並不是成功的關鍵。讓這些公司脫穎而出的是其創始人和員工的創新思維,他們有怎樣挖掘數據的新價值的獨特想法。

例如,MasterCard也可以把數據授權給第三方使用,但是它更傾向於自己分析、挖掘數據的價值。一個稱為MasterCardAdvisors的部門收集和分析了來自210個國家的15億信用卡用戶的650億條交易記錄,用來預測商業發展和客戶的消費趨勢。然後,它把這些分析結果賣給其他公司。它發現,如果一個人在下午四點左右給汽車加油的話,他很可能在接下來的一個小時內要去購物或者去餐館吃飯,而這一個小時的花費大概在35~50美元之間。商家可能正需要這樣的信息,因為這樣它們就能在這個時間段的加油小票背面附上加油站附近商店的優惠券。

18,大數據最值錢的部分就是它自身,所以最先考慮數據擁有者才是明智的。他們可能不是第一手收集數據的人,但是他們能接觸到數據、有權使用數據或者將數據授權給渴望挖掘數據價值的人。

19,所謂大數據思維,是指一種意識,認為公開的數據一旦處理得當就能為千百萬人急需解決的問題提供答案。

20,隨著數據價值轉移到數據擁有者手上,傳統的商業模式也被顛覆了。

21,大數據也會撼動國家競爭力。當製造業已經大幅轉向發展中國家,而大家都爭相發展創新行業的時候,工業化國家因為掌握了數據以及大數據技術,所以仍然在全球競爭中佔據優勢。

22,卓越的才華並不依賴於數據。史蒂夫?喬布斯多年來持續不斷地改善Mac筆記本,依賴的可能是行業分析,但是他發行的iPod、iPhone和iPad靠的就不是數據,而是直覺——他依賴於他的第六感。當記者問及喬布斯蘋果推出iPad之前做了多少市場調研時,他那個著名的回答是這樣的:「沒做!消費者沒義務去了解自己想要什麼。」

23,更大的數據源於人本身

大數據改造了我們的生活,它能優化、提高、高效化並最終捕捉住利益,那直覺、信仰、不確定性和創意還能扮演什麼角色呢?就算大數據無法教會我們所有事情,只要能幫助我們表現更佳、更富效率、取得進步,就算缺乏深入理解也是很有用的了。一貫如是地堅持下去才有效力。即使你不明白為什麼付出的努力得不到回報,但相比不努力,你要明白你已經在改善事情的結局了。

24,大數據並不是一個充斥著運演算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。偶爾也會帶來屈辱或固執的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應該樂於接受類似的不準確,因為不準確正是我們之所以為人的特徵之一。

23和24兩點,覺得作者轉的好費力……典型的論文式寫法,最後得補齊前面的思路缺失。

25,我們能收集和處理的數據只是世界上極其微小的一部分。這些信息不過是現實的投影——柏拉圖洞穴上的陰影罷了。因為我們無法獲得完美的信息,所以做出的預測本身就不可靠。但這也不代表預測就一定是錯的,只是永遠不能做到完善。這也並未否定大數據的判斷,而只是讓大數據發揮出了應有的作用。大數據提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本。

有道理,和前面描述的不是很一致的感覺……難道是因為兩個作者寫的?

凡是過去,皆為序曲。

無論你喜歡還是不喜歡,大數據時代已經來了。

我平時喜歡從這裡看大數據相關的文章,哈佛商業評論的大數據專欄:

http://hbr.org/special-collections/insight/big-data

謝謝閱讀!

thanks,

yoyo


本回答為跑題吐槽。

不久前曾參加《大數據》作者塗子沛先生的小型談話會,期間塗子沛先生對某問題的回答令我嘆為觀止。

提問內容已經記得不太詳細,大致是「國人已在工業革命,信息革命中落後,您覺得我們有希望在大數據時代追上並領先嗎?我們該如何去做?」

本以為這問題已足夠爛了,沒想到回答更可怕。

塗先生:「放棄中文,以英文作為通用語言是唯一的方法。人家大數據的底層都是用英文的,只要還在使用中文我們就不可能徹底理解大數據,不可能追上西方的腳步。我建議孩子們應該從小學習英文,中文可以少學甚至不學。」


前陣略讀了這本書,對思考傳統行業在互聯網時代的機遇和挑戰還是有很大啟發的。尤其對於傳統行業的企業高管,對戰略規劃,有用。

大數據的核心在於「預測」,而雲計算使數據從「小樣本」轉變成有機會對所有可能的數據進行分析,預測將基於 「數據之間的關聯性」 而非 「為什麼是這樣的因果性」,我們只需要按照預測出來的趨勢去響應,使用這些結果。

我的詳細回答在這裡移動互聯網如何讓大數據「落地」,有哪些產品實例?

( 其實我覺著對這個問題每個贊同或者反對的人應該至少看過這本書,才好投票。)


本人研究生畢業的時候的論文是《預測演算法在鐵路客流預測中的運用》。

做這個東西的時候,最初,我以為找數據是最難的部分,後來通過學校的便利,能夠拿到鐵道部按月的統計數據,數據部分迎刃而解。

後來,我以為演算法是最難的,當時找了很多新的演算法,分類方法,各種組合,當然MATLAB是很強大的,這個也沒啥。

最後,當我預測出結果了,又來到鐵路局工作,並且參加了2013年春運之後,我認為對於這種系統,大數據沒有什麼實際意義,當然鐵路的確有其特殊性,但是在實際操作中,從大數據中得到的數據僅僅能用來講講故事,很多都沒什麼實際參考價值。

如果把公司整體的運作比作一個木桶,各個方面比作組成木桶的每個木板,大數據能告訴你每個時刻每個木板受到的壓力,衝擊,甚至是分子數量,但是,最後你得出的結論依然是,加固最短的那一條木板。

現階段,大數據很熱,比今年的氣溫高多了,但是大數據統計出來的結果大部分沒有什麼可操作性,我記得馬雲在某次會議上說?在陶寶上買比基尼內衣最多的是新疆人,你覺得你會去那裡專門開一個店賣嗎?不會,因為收入,因為人口數量,因為經濟發展水平,因為文化等等,你還是會選擇在發達的北上廣開店,這就是大數據的無效性,他能告訴你統計數據,但是不能告訴你為什麼,或者告訴你應該怎麼做,這些工作都要在工作經驗中不斷積累,一個NB的數據挖掘工程師在這個方面甚至還不如一個有幾年工作經驗的銷售來的實在。

另外,大數據很重要的一個所謂的廣告精準投放,我覺著也比較有局限性,因為精準廣告並不是促成最後那一下因為手滑了而成型的交易,廣告是通過各種方式各種渠道,甚至是狂轟濫炸,最後促成了你的那一次手滑,哪一部分廣告,哪個時段的廣告,哪個瞬間給消費者一個突然想購買你的東西的理由?這些東西沒有辦法通過大數據體現,至少目前所有的大數據統計方法都沒法統計人腦子裡面那個念頭是什麼時候產生的。

在大數據面前,我想說的是,他是一柄看似很鋒利,但是遠遠沒有我們想的那麼鋒利的劍,相反,後面那個用劍的人才是關鍵,也就是那個經驗豐富的,拿到數據以後進行簡簡單單人工分析,人工決策的人,才是關鍵,就我那次寫論文的經驗,計算機算出來的結果還不如我用簡單的數理統計方法+運輸經驗總結出來的東西實用。


只看前言就可以了。看完前言後面的內容可以都不看了,看了也是浪費時間。


贊同+沒有幫助。


借用Oracle 劉松的回答

大數據的三個思維變換

維克托·爾耶·舍恩伯格在《大數據時代:生活、工作與思維的大變革》中最具洞見之處在於,他明確指出,大數據時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關注相關關係。也就是說只要知道「是什麼」,而不需要知道「為什麼」。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。

知名IT研究機構Gartner以它對專業IT市場的「魔力象限圖」發布作為一種評價方式,在其二維矩陣里,橫軸是前瞻的完整性,縱軸是執行力,如果用此分析方法來評價《大數據時代》這本書,它大概位於右下角靠近縱軸中間點的位置。

2012年,筆者看過的3本有關大數據的中文書,它們分別是《證析》、《大數據》和維克托·邁爾·舍恩伯格的《大數據時代》。與其他兩本相比,舍恩伯格這本書的特點重在「Impact Analysis」的前瞻分析,在大數據時代的思維變遷方面有啟發價值。也說是說,此書對於企業高管和CIO的價值更大,它基本沒有太多討論技術,而偏重於觀念轉移(Paradigm Shift)。

簡單說來,這本書的價值可以用兩個「三」、一個「一」來概括:第1個「三」是3個關於大數據的思維變換,重在大數據變革時代的價值與觀念變化;第2個「三」是關於大數據影響商業變革的3個要素:即數據、技術與創新思維之間的互動;一個「一」是關於大數據泛化下的治理與隱私。

關於大數據本身的價值已無需贅述,此處重點討論關於大數據的3個思維變化:1.不是隨機樣本,而是全體數據;2.不是精確性,而是混雜性,尤其是大數據的簡單演算法比小數據的複雜演算法有效;3.不是因果關係,而是相互關係。

《大數據時代》一書提醒讀者,大數據是全數據,至少維度要全,這帶來了觀察和分析事物的角度變化,尤其相對於傳統IT系統數據,大數據強調了數據的外部性和實時性,這兩個特性也使得「證析」提到的基於事實(Evidence)的分析成為可能,不過此書忽略了外部數據與企業內部數據結合的分析價值。比如,對於政府來說,分析大範圍的公共衛生事件、傳染病可以更快地利用大數據(比如微博)發現目前的情況,但具體要調度資源,還是需要結合「小數據」的精確決策。

第2點的核心觀念關於大數據的簡單演算法來自谷歌的洞見,也來自於Hadoop(一個分散式系統基礎架構,由Apache基金會開發)這類演算法的核心理念。大數據的簡單演算法是一種統計學的邏輯,這個如同熱力學的分析模式,熱力學並不關心具體的分子運動,而是關心溫度、體積、壓強之間的宏觀聯繫,關於這種理念的內在理解,建議讀者從吳軍的《數學之美》一書中獲得,只有真正理解了大數據基於統計學的思維方式,才能理解它的獨特優勢和局限。這種方式可以解決以往技術無法解決的大範圍、實時性和並行處理等問題,並帶來新的洞見,它用概率說話,並不是和人就細節較真。這個來自互聯網公司的觀念是,希望先解決80%的趨勢問題,然後慢慢精細化。

第3點,大數據關注「是什麼」,而不是「為什麼」,經常網購的人會更容易體會。很多電商網站的推薦引擎具備這種能力,它能夠在顧客買書的時候,推薦顧客剛好喜歡的其他書籍,顧客可能不知道「為什麼」,其實網站也不在乎「為什麼」,(「為什麼」可以由學術專家慢慢分析)。但是網站根據成千上萬甚至上億人的統計學分析,就可以發現「關聯物」,或者說大數據更擅長通過統計分析人類所不能感知的關聯,並建議人採取行動。這個革命式的思維非同小可,以前「啤酒+尿布」的數據倉庫故事需要數據整理、清洗轉換和專家建模挖掘,其採購行為的關聯性可能被Hadoop等演算法輕易的發現。上述方式由於分析門檻低,已經成為一種常見的工具,並衍生大數據的雲服務的商業模式,成為企業可以購買的「分析即服務」(Analytics as a Services),國內阿里系正致力於這種模式的建立。

第2部分關於大數據商業模式方面,最有價值的是關於大數據商業生態的分析,除了大家熟知的數據、技術,作者認為還有第3種基於思維的大數據公司,包括數據中間商等等,這對於國內過於關注技術本身的趨勢是個很好的提醒。一個有趣的話題是,作者認為基於統計的數據科學家會逐步取代行業專家,因為大數據發現的新的真實聯繫,可能會顛覆傳統行業專家,這個話題學術界可能很感興趣。一個耐人尋味的例子是,基於大數據統計分析的自然語言翻譯幾年前就勝過了基於語義理解的語言學家派別,書中提到的一個從事語言翻譯的演算法小組甚至開玩笑地說,「每次我們組走了一個語言專家,我們的翻譯精確度就提高一些」。

第3部分是關於大數據成為喬治·奧威爾《一九八四》里的「老大哥」,即通過技術手段實現了無處不在的監控以後,隱私和濫用的問題最為讓人擔心。筆者認為這個話題過於公共,而且已有很多文章在討論,並不是本書的特質,況且大數據的興起是一個漸進的過程,各個行業的實用案例尚在興起,行業內部應專註於行業創新,關於公共的話題的討論還是留給學者、政府和未來。

西方作者有一類是理念的鼓吹者,最著名是《失控》的作者KK(凱文·凱利),此類被讀者推崇為傳教士的作者,喜歡推廣顛覆式的觀念,產生一種前世今生(Before/After)比較的震撼力。本書作者也是如此,如此顛覆,強力的大數據時代似乎正在到來,然而,此類作者也會被人指責為「管殺不管埋」——提出理念,不對具體的可行性負責。回到前文提到的Gartner的「魔力象限圖」,漸進的執行力才是大數據這種趨勢逐步在各個行業開花的關鍵。


油墨均勻色澤鮮亮,紙質堅挺但剪裁一般略有毛邊,裝訂考究封皮精美,拿在手上手感很好。

採用報刊樣式多列排版,行距和留白合適,翻起來很舒服呢。


本書最主要的作用是:

第一:本書將大數據行業的組織劃分為大數據擁有者,大數據思維提供者,大數據技術提供者,這三個劃分可以幫助我們分析大數據行業生態圈。

第二:幫助我們建立大數據思維,以及大數據時代下,應用數據的思維與傳統數據倉庫思維的差別。

由於很多回答均提到了第二點,下面我重點講一下第一點的啟示:

一,根據大數據擁有者、大數據技術提供者,大數據思維提供者的劃分,我們可以用來分析大數據行業生態圈,如下兩圖:

1.數據擁有者主要是政府、運營商、金融、零售、互聯網公司等;

2.Condera、Intel、Oracle、微軟、SAS等主要是大數據技術提供者

3.埃森哲、麥肯錫等主要是大數據思維提供者

4. Google、BAT、Amaze是既有數據、又有技術,同時也有很好的數據思維來玩數據。

還可以根據大數據技術和大數據思維能力將大數據生態圈的公司進行聚類劃分:

二、大數據思維包括:

1,不是隨機樣本,而是全量數據

以前受制於技術(無法分析海量數據)以及為了提升分析效率,一般採用隨機抽樣的方法來分析數據,而隨機抽樣因為「隨機」過程可能存在偏差影響數據分析的準確性,而"全量」更能反映和還原真實世界,同時,作者用另外一個觀點來佐證:大數據的簡單演算法比小數據的高精度複雜演算法更有效。

2,不是因果性,而是相關性

數據分析是為了決策,而決策往往不需知道「為什麼」,而只需知道「是什麼」,同時,也可以提升決策的效率,不用去深究「為什麼」。

3,不是精確性,而是混雜性

由於當前存在大量非結構的數據,執迷於精確性將導致95%的數據無法利用且嚴重影響決策效率,適當的放寬精確性,很多時候我們只需掌握事物的大體發展方向即可。

以上3個觀點,我認為並非絕對,需要根據企業實際情況出發,從成本和效率綜合考慮數據應用的方式和思維。特別是因果性和相關性,只關注相關性可以為企業帶來短期的增長,但要想實現長期和全面的發展,一定要搞清楚因果性。

有點文

2017-01-06


數據分析的過程是:收集、存儲、整理、分析、結論。

數據分析的基礎是數據,數據分析的目標是獲得信息、得出或者驗證結論,數據分析的方法和過程是整理數據,設計模型,分析數據,關注的是演算法。

《大數據時代》這本書沒有講「演算法」,而說的是數據的重要性,論證數據思維的轉變必要性(三個思維改變,推薦此書的人必提,就不重複了)。

也就是說,這本書適合高層人士看,重視數據,先收集數據再說;這本書也適合普通工程人員看,重視數據,先配合公司要求收集數據再說。

至於收集了數據然後怎麼樣?怎麼整理?怎麼分析?又能得出什麼結論?什麼結論可以從數據中的得來?坦白說,這是我過去工作中的難點,但這本書並沒有涉及這些內容。但是,這本書給出了很多案例,也有一些宏觀上的分析,讀者是否能受到啟發,則「修行在個人」了。

就我個人來說,收穫有這幾點:

1)公司要收集數據,系統要收集數據---- 沒有數據,演算法再好也是無根之花啊。

2)只要是數據都有其價值,新的商業模式挖掘數據的價值------ 這個誰都懂。但是,坦白說,沒有目標,看著一堆數據,大概也只能雲里霧裡,什麼都做不了了;或者有目標,沒有數據分析的能力,也只能在一堆數據裡面左衝右突,徒費精力而已。所以數據真的有價值嗎?這本書可以說給出了答案:有!且數據分析完了還有其價值。

而在讀此書之前,也會自以為自己明白數據的重要性,但卻沒有認識這麼深刻,會因為沒有目的,沒有演算法,又要成本,最後放棄了數據採集。而看了這本書就會覺得:不管有用沒有,留著再說。

3)每個人都是數據。以前我對隱私保護還是非常重視的,任何應用從來不開定位等和功能無關的東東。現在卻在思考,也許該貢獻點兒個人的力量?

從閱讀上來說,能讀懂第一個部分,整個書就差不多讀完了,後面的部分都是對前面的展開。我個人也覺得啰嗦,有論文湊字數的嫌疑,但我非常佩服寫書的人能把一件事情掰開了,揉碎了,反覆從不同的角度認證解說的能力。如果能細細研究,的確每次都會有新靈感。

總之,是啟迪思維的書,贊。


渲染了大數據有多麼牛逼,未來大數據有多麼好的前景。但感覺整本書側重氣氛的渲染,真正實用的很少。


剛剛看了這本書,上來說一下

整本書給我最深刻的印象就是——其豐富的舉例本身就構成了一個大資料庫。

除去例子以外,自己總結了一下這本書的主要內容,見下圖:

個人認為這本書沒有上面有些回答說的那樣糟糕,建議打算看的朋友看看目錄就行了,如果想要了解大數據在實際生活中的豐富案例,可以詳細閱讀。

僅發表個人觀點。

----------------------------

以上。


正如很多人說的,我覺得所謂的高票答案其實都是建立在「先入為主」的概念上的。有的人期望看到一個全新的概念,卻發現不但不新還和學校里教的統計最基本的部分不一樣。有的人期望看到具體的編程教程,卻發現作者是在科普,於是覺得作者是夸夸其談的空想派。

其實爭議的來源是他們自己對大數據的理解失誤。簡單的更正很多人的想法:

1.大數據概念不新,大數據的創新在於技術而不是概念,不是神話。

2.全樣本現在確實無法達到,但是超大樣本已經足夠商用。

3.有人說作者先說不要精確,其後又說樣本大了精確是前後矛盾,還有人乾脆質疑作者不要精確的正確性。作者意圖是說,有了大量的數據則不需要精確而不是不要精確的數據。統計分析中的第一步不就是將outlier剔除,將無關factor刪除然後用各種方法判斷數據的代表性並進行修正嗎?在大數據時代,outlier基本可以忽略。因為千分之1的影響不能忽略,而億分之1的影響可以。這麼直白的概念如果造成大家這麼廣泛的爭議我覺得肯定是翻譯的問題了。

4.大數據的特點用一句話來說就是簡單粗暴,大多數答案的回答者還在用最經典的統計學論調,比如強調分析模型的中心位置,比如強調取樣的代表性精確性,比如質疑作者提到的相關性而不是因果關係。簡!單!粗!暴!懂不懂?以前不夠精巧的模型在依靠如此大量數據的時候可以用了。以前需要篩選的樣本現在可以直接分析了,以前需要先從某處發現假設再用更完整的數據證實(甚至是再取樣),現在數據里一條龍了。最後這條便是大數據不提因果關係的原因,因為我們不是在想因為A-》B,所以我們施加A得到B,大數據的用途是 因為A-B,所以我需要B的時候就去別的地方找A.

5.有的人說這本書沒有圖所以差。。。我只能說抽象思維能力可能是作者認為很大眾化的吧。。。

6.大數據已經顛覆了經典統計學,至少在二十年前就已經是這樣了。統計學的角度講,多維的數據分析方法,決策方法早已經理論完整,甚至大數據中利用的有些技巧在統計學界已經被認為是沒有必要繼續發展的科目。再從老的角度出發去否認新的科技就有點兒蛋疼了,更何況這些東西其實已經不新了。。。很多論文都出了幾十年了只是現在電腦才跟上而已。。。


好吧,我手頭就有一本,不是買的,是十八摸的技術峰會贈品。我也從未翻開來讀過一個字。但是,我完整地聽了作者的演講。整場聽下來,草泥馬那個奔騰不息吶。最後一聲嘆息:sap後來居上最主要的原因還是十八摸太渣呀


大數據概念火了,出版商也收益匪淺,賺的錢多數不過來,而高校裡面的統計學老師和學生們過去苦逼的日子好像要到頭了,迎來了一個出彩的時代!

其實,我想說的是,這些書裡面(包括塗那本書)說的很多觀點,都已經是被古代和現代人討論了千百遍的老問題了,只是很多人沒注意或沒精力去閱讀而已,畢竟快餐文化時代,大家流行什麼,我就關注什麼,枯坐冷板凳是要吃冷飯給炒魷魚的。

1、從樣本過渡到全數據。這是機器學習時代的共識,傳統抽樣調查或各種檢驗分析是為了應付數據收集和計算能力不足的產物,這早已是學界共識了。

2、精確非常重要,混雜或混搭就是要提供更多維度的數據,數據維度(屬性)越多,因為信息量大,更難體現(或照射)現實,這也是毋庸置疑的。

3、因果和相關之間的關係,哲學界討論了2000年了吧,到現在也各執一詞,當然因果律的存在佔據了上風,不過話說過來,今日所能認為的因果,真的就是明日所謂的因果?弄不好就是相關性吧,姑且不討論,存疑。

4、至於演算法、挖掘軟體都是一種工具而已,在不能人人生產和修理汽車的時代,學會駕駛即可,我們在用雞蛋做大餐的時候,何必一定要知道是哪個母雞下的,以及掌握如何讓雞下出更有價值的但,雞蛋裡面的營養成分比例各是多少。

5、總之,回歸大數據命題下,沒有業務和管理上的創新,數據是沒有意義的,大數據也是大大而已,一分錢也賺不到。


這本書的最大價值在於它裡面的資料--哪些人用哪些技術在哪些行業創建了哪些公司幹了哪些事情賺了多少錢,對我們的價值就是看這些idea有沒有可能在國內也做一次。

理論是浮雲,事實最重要。


我把他當成一本科普書在看 作為從事大數據這個行業的一個開闊視野的東東


這個行業規則還在培育中,在電腦上管理顯示死亡語言,那就什麼數據都可以管理了


推薦閱讀:

怎麼看待oracle的exadata與share nothing系列的hadoop等,以及優缺點相互對比、各自的前途..對未來的影響?
機器學習如何才能避免「只是調參數」?
通過數據挖掘你有過哪些意想不到的發現?
什麼是大數據?
數據分析和挖掘在售電市場的應用價值點在哪兒?

TAG:互聯網 | 數據挖掘 | 大數據 |