如何評價大數據的未來?

收集、處理、分析數據確實是一件有意義的事,並將產生價值,但問題在於,我們能從大數據里離挖掘到多少價值?

有人說現在是合理的投資時機,五年後投資規模可達500億美元;數字和預測確實令人鼓舞與感到欣慰;

但另一方面也有人說在摩爾定律失效的時代里,CPU處理速度達到瓶頸是限制發展的一方面,其次是人類產生的數據量正在以指數速度增長,更多的數據並不意味著一定有更多的信息,反而可能還會造成資源、技術的浪費,在清華南都剪報上看到持這種觀點的人還以一張老圖說明「大數據差不多到頂了」的看法。

大數據是真的炒作大過實際價值還是一些人目光短淺看不到價值?在大學校園裡開設數據智能實驗室研究大數據是否有必要?

大數據還能火多久?


收集、處理、分析數據確實是一件有意義的事,並將產生價值,但問題在於,我們能從大數據里離挖掘到多少價值?

這個是數據挖掘所要達到的目的——從大規模數據中發現隱含的規律。以前是,現在也是。在「大數據」這個詞出現之前,早就產生的大規模數據,只是現在都把這些叫成「大數據」。

有人說現在是合理的投資時機,五年後投資規模可達500億美元;數字和預測確實令人鼓舞與感到欣慰;

但 另一方面也有人說在摩爾定律失效的時代里,CPU處理速度達到瓶頸是限制發展的一方面,其次是人類產生的數據量正在以指數速度增長,更多的數據並不意味著 一定有更多的信息,反而可能還會造成資源、技術的浪費,在清華南都剪報上看到持這種觀點的人還以一張老圖說明「大數據差不多到頂了」的看法。

這個都是媒體報道而已,媒體都是報道以前發生的事情,至於以後的事情,也不能靠媒體啊!至於什麼CPU速度問題,現在做數據分析的,都開始用GPU進行多核並行計算了,還有Hadoop等計算框架供你使用。所以不太理解上面說的「資源、技術的浪費」是指什麼。

的確,「更多的數據並不意味著更多的信息」,甚至並不意味著更多的知識和智慧。這個正是數據挖掘和機器學習的眾多研究者所要達成的目的。

大數據是真的炒作大過實際價值還是一些人目光短淺看不到價值?

「大數據」現在幾乎變成了一個「框」,幾乎什麼都往裡面裝。這樣有好處,也有壞處。好處就是讓很多決策者們知道了數據的價值。壞處就是,很多忽悠的人都企圖在這裡面分一杯羹。

數據中的價值是存在的,而且還遠遠未被挖掘出來。而「大數據」相關的,就是炒作!和當年的「雲計算」一樣。

在大學校園裡開設數據智能實驗室研究大數據是否有必要?

有啊,因為我就在這樣一個實驗室啊!這是玩笑回答。開設實驗室,就會有更多老師,更多學生進入到這個行業,也會吸引更多的從國家到企業的支持。青年教師得以成長(我找工作也會更容易一些),研究生雖然不一定會學到什麼東西,但是一定會意識到這東西有用。學校本來就不是一個可以立即獲得收益和價值的地方。因為研究「大數據」就是在研究機器學習和數據挖掘,所以,這樣的實驗室還是多多益善啊,把正確的東西交給學生們,市面上的忽悠就會少一些。

大數據還能火多久?

炒作的「大數據」火不了多久,因為媒體始終需要新的刺激。而真正做事的大規模數據挖掘和機器學習,會越來越有用。


你要先知道數據到底意味著什麼。

如果不太了解它到底是什麼,最簡單的方法就是知乎搜一下big data/大數據,這類問題回答的太多了,很多專業人士既給了學術的回答,也給了淺顯易懂的例子,我想不用多說了。

移動互聯網是當下的熱點,它影響力最大之處並不僅僅是人,還有就是數據相對於以前指數級的增長。而隨著越來越多的設備連接入網,這個增長的趨勢也不會發生改變。可以數據是什麼,他不只是0,1, 他是這個世界對它自己的感知,對人行為的感知。當我們埋怨這個身邊的設備還不夠智能時,其實是這些設備對我們的了解太少,當足夠的用戶行為被他觀測,加以分析之後,他們會變得越來越聰明,越來越人性化,而這才是大數據真正的走向。

從目前來看:

No data, no learning. No data, no intelligence. Data is the blood.

沒有演算法是可以脫離的數據的。機器學習和統計永遠不擔心數據太多,只會擔心數據太少。所以你不用擔心不能從數據中挖掘出價值,而在於他們怎麼挖掘(什麼演算法),挖掘出哪方面的價值(他們的輸出是什麼)。

所以大數據的熱潮不會消退。未來隨著智能化的進步,越來越多的感測器,越來越多的網站,收集到人們越來越多的行為,收集到越來越多電子化的世界表達方式,它也會越來越重要。但是它會慢慢退到幕後,把一批單純炒作它,沒有合理利用它價值的企業淘汰掉,伴隨著新的企業出現,真正的發揮出它的價值。


我入行不久,以前做別的領域,現在做hive相關的工作,隨便說說,說錯了請留言告知。

今年回上海,有個朋友跟我說他混互聯網,公司做大數據。然後告訴我大概用戶不會超過幾萬,更偏向B2B的業務。基本上整年可供挖掘的數據也不會超過100TB,其實一台PC慢慢跑足夠了。這個叫大數據?想起之前有一段時間火的是雲計算,然後是個網路公司都說自己是雲計算如何如何。其實網路公司本質就是雲的,想要套概念的話有什麼公司套不上去么?現在看起來大數據和當時雲計算一樣都象是騙局。不過真的是么?

怎麼樣才算大數據?

數據其實一直都有,只是之前沒有辦法利用起來(當然近些年的數據量也絕非10年前可比,這兩者是互相促進的)。傳統來說,大家都是用資料庫存儲關係型數據,而傳統的關係型數據設計上有一些限制,比如因為一致性無法方便地拓展。就算不管用不用資料庫分析,也大多都是單機,數據大一點也許要跑好久,海量數據就基本歇菜。而且數據一旦是非結構化的,比如網路的訪問日誌,甚至爬蟲爬來的網頁本身,都沒法很好的用傳統的分析手段有效分析。其實也不能說完全不能,只是手段未免繁瑣,需要耗時耗力的預處理,分析起來可能也要專家經手或者難以維護。對一般的公司,那些非結構化的海量數據,類似貧礦,不是沒有價值,只是如果提煉成本大於結果,那挖掘就沒有意義了。

10年前,說大型數據分析你想到什麼?銀河號計算機?基因組網格計算?都是高帥富的手段。那時候要分析海量數據,沒什麼屌絲手段。那時候分散式計算的設計和開發模型也遠比現在MapReduce這樣的簡化模型要複雜,稱得上火箭科學。

我沒有考證過是誰「開啟」了大數據時代,不過在我看來,MapReduce模型,非結構化非強一致性數據系統之類的,這些屌絲手段的誕生,讓火箭科學變得象烤串一樣人人都可以負擔得起了。你不用租銀河超級計算機,不用找專家來費勁規範化並導入數據再分析,不用設計複雜的分析軟體,不用IOE(IBM/Oracle/EMC)的產品(其實很多情況下,數據太大,就算IOE,常規手段也撐不住的),只要經濟實惠的普通pc,買個幾百上千台,架上hadoop,就能開挖數據了。而且MapReduce的編程模型也極其簡單,數學系統計系出身的非碼農也能隨時學會沒商量。再加上Hive之類的輔助系統,就連你家市場部妹子都能隨時敲個SQL看看當天的用戶反饋。

現在的大數據,不是火箭科學,而正相反,是屌絲技術,人人都用得起的技術。

正因為他的屌絲性,所以以前完全無法利用的貧礦,非結構化,噪音超多的海量數據就可以被很多屌絲公司有效利用了。通過分析,你可以挖出所有用戶的口味偏好並准實時更新推薦列表,你可以知道搜索關鍵字的熱點變化趨勢,你可以知道正在訪問某網站的某用戶更適合看什麼樣的廣告。

這些在以前,如果不是專門花大價錢找牛人搞系統,買牛屄的ETL和分析系統,單用經濟實惠的軟硬體方案解決是無法搞定的。

這就是大數據的真正意義。

再說這些數據的價值,就如我之前說的,總體看是貧礦,但是如果能經濟地開採,那就是財富。這裡的前提是,你要有足夠多的貧礦去冶煉。如果你家只有一麻袋貧鐵礦,你還是沒法迎娶白富美,但是如果你有幾千萬噸,而且能象在後院燒垃圾那般隨隨便便就煉了,那你就是人生贏家了。

另一個客觀制約是冶煉手段。我對現有的機器學習保持謹慎樂觀態度,如果這方面有長足發展,而且技術能夠用經濟的解決方案予以工程化,那不但現有數據能挖出更多東西,而且一些以前無法挖掘的數據(比如多媒體數據)也將變得寶貴。

總結下:

按照我的看法,媒體和資本,往往超前於技術發展,他們會炒熱一些概念,其實這些概念還遠不成熟。大數據現在很多技術手段都是新的,甚至沒有定型,生態系統混亂不堪,沒有標準,這是新生事物的通病,不過也側面說明這東西還遠不到成熟。我並不覺得大數據的概念會凋亡,不過一旦它真的成熟,隨隨便便就能玩得轉,那它就不會象現在這麼被熱炒,因為亂世不在,就很難從中牟暴利了。

大數據和雲計算類似,都是讓人看不懂但人人都說自己有。不過他們是騙局么?現在雲計算似乎不如前些年提得多了,但是它消失了么?完全不是,它只是變得更成熟了,潤物細無聲。相對前些年喊得響做得少,現在是真的到處在用了。大數據也一樣,今後,物聯網和穿戴設備將會引入更多數據,哪天你發現沒有公司號稱自己是大數據公司,那只是因為人人都在用大數據分析,不會再拿它當拉投資的噱頭了。

---------------------------------------

今年Strata Hadoop Conference見聞,比去年Hortonworks版的Hadoop Summit,更多的傳統企業已經入坑。和一個保險業的數據經理聊天說,這兩年看起來系統慢慢成熟,似乎是時候跳下來玩了,至少自己地盤可以擴展,能不能用,上了試試看再說。


在人人看過一張圖,出處是人人網 盛鵬輝.reform的相冊


做數據方面的工作已經有十年了。幾個觀點:

第一,數據已經在發揮巨大的價值,只不過外面人不清楚。

第二,數據領域創業存在困難,價值實現的方式、技術瓶頸、人才稀缺是主要原因。

第三,數據的未來更多不是以單獨產品的形態在市場出現,而是融入企業的方方面面。


為理解大數據將社會學以及一切與人類有關的學問重視起來,將其置於與數學以及計算科學同等重要的位置上。

21 世紀,這是一個多麼適合上演奇蹟的時代,不僅僅是因為它更容易去實現人們曾經的夢想,更是因為在諸多科技和媒體領域,人們普遍都感覺到自己已經被其進步的速度帶得飛離地面,覺得每一個今天都已然成了明天。毫無疑問,我們已經生活在了大數據的時代,人類歷史截止到 2010 年所產生的所有數據,彙集起來,將我們推向了一個更加壯闊宏偉的大數據的未來。

夢想是希望擁抱一個充滿了更多具有明確意義數據的時代中。為了實現這一點,我們應該對數據進行收集、分類、分析、解讀、並將其聯繫組合起來。我們更要將數據視覺化,能夠更加明確的表達出來,要讓人們更加方便地進入數據。但是如今,那些所謂的「數據科學家」,更加傾向於在數學領域舞槍弄棒,他們普遍擁有計算機科學背景,卻無法真正充分實現大數據所蘊含的潛力。

在我們開始對真正的大數據進行解讀之前,讓我先來澄清我口中的「大數據」的概念,它反映出來了兩個各自獨立,卻又相互聯繫的概念。

第一層的 data,小寫的 data,複數的 data。它是所有我們理解和衡量這個世界以及我們自身,有關定量乃至定性的範疇。

第二的 Data,大寫的 Data,也是單數的 Data。這個數據比所有的部分集合到一起更加的綜合龐大,這是所有一個將結果和行動打包起來的集合概念,直接對結果和行動之間的關係提供解釋。

除了單純的收集、儲存、分類這些數據之外,我想說將數據情景化、故事化、視覺化同樣是非常重要的工具,有助於我們來了解和描述事物之間的關係。而在這些工具之間的相互轉換、組合、搭配,才是真正數據學的奧義所在。更重要的是,數據學並不僅僅簡單的指代某種存儲、命令、以及解讀數字的能力,它更不可能是單單靠一個人就能夠辦到的事。

從供給方入手,這是在產出的每一個步驟環節都涉及大數據整合利用的過程,而在消費方的角度來看,它只看到最終產品的適用性。無論哪一方,大數據之於他們,就意味著要在生產和消費的過程中不斷地去深刻理解和解決各種深層次的問題,這其中包括了戰略方向、數據收集、過濾、分析、以及演示。

如果要總結現狀的話,應該是這樣的:那是我們想要去測量的東西,但是不知道該收集什麼數據。那是我們想要收集的數據,但是我們不知道該如何收集;即便我們已經收集到了我們想要的數據,但是因為它們不是準確的所以無法真正投入應用;更無法對其進行解讀;如果我們錯誤解讀了這些數據,就會產生太多雜亂的聲音和誤導人的信號;之所以我們會錯誤的解讀,是因為我們無法正確的對數據之間的關係進行分類,無法分清楚什麼是相互關聯影響,什麼又是因果關係;進而我們想要利用這樣的數據成為行事的依據,就在一開始埋下了錯誤的根源。

如果我們沒有形成、並且掌握真正的數據學,我們很有可能遭遇一下的狀況:我們不收集它;我們忽視它、我們看著它,卻不知道應用;我們錯誤地應用;我們從中提取出來錯誤的信息,我們為了支持錯誤的觀點,強行扭曲它使之成為有力的佐證。

而即將出現的高級數據學就能夠幫我們解決上述的問題。現如今,每一個人都能夠張口就給出幾個數據,或者將其編進一個巨大的 EXCEL 表格,但是我們僅僅止步於此,面對成噸的數據,我們提取不出來任何有意義的信息。如果在這穹頂之上,能夠真正納入以下三個方面,那才真正能夠實現高級數據學的內涵和意義:分別為「情境化」、「敘述」、「設計以及視覺化」。下面進行分別的介紹:

「情境化」意味著一個將所發現的數據置於合理的角度,使之與周遭能夠聯繫起來的過程。

「情境化」在之前往往是社會學領域使用的一款工具。無論是社會學家、人類學家、經濟學家、政治學家、心理學家、地質學家家、歷史學家、考古學家,都在利用這個工具更好的理解他們所掌握的一切,面對學科內種種的存疑提供儘可能準確、合理的解釋。同樣,心理學、文學、宗教、藝術、歷史、文化、以及語言在理解和記錄我們的世界的過程中,自然而然實現了我們所說的「情境化」。

即便之前有了這麼多領域的研究和應用,但是「情境化」依然沒有被納入到數據分析和挖掘的範疇中,更別說數據在收集之後所形成的決策上了。專註於去細分性別、姓名、教育背景、種族、宗教、家族歷史、個人經歷以及地理位置之間到底有著怎樣的區別,這是「情境化」的關鍵。

如果將社會學中的研究方法和框架抽離出來,應用到數據學上,那麼就能夠回答以下這些關鍵問題:

是誰創造了數據,基於何種原因,在何種條件之下,有怎樣的目的?在「數據抽離」的過程中,存在著哪些阻礙,切入點,以及背景前提影響著「數據抽離」本身?

是誰在收集、分析、解讀、解釋、以及視覺化這些數據?他們的目標是什麼?看得見和看不見的偏見又是什麼?他們在進入這個領域時都擁有怎樣的個人背景?

誰是最終受眾?你究竟能夠找到怎樣的方式,將你的研究成果能夠更好地讓這些受眾理解,如果他們不理解、不認同的話你該怎麼辦?

現代思潮、地理位置、以及受眾本身的個人信仰,這些東西將如何作用於上述的交流過程中?是否會影響他們理解你的觀點?

「敘述」,是一種能夠通過故事表達,從而完成解釋、說服以及激勵等作用的藝術。

敘述有很多形式,比如電影、廣播、報告等等。至於回到我們的數據學應用範疇,那麼我希望將其定義稍微往外面擴展一些,將講述故事的源頭轉移到數據上面。

自從文明誕生以來,我們就非常重視這種講述的技巧,你可以在教育系統中看到,公眾演講中看到,甚至在自我表達中都能見識到這種技巧。所以,讓數據變得更加有意義的重要方面之一,就是要讓數據轉化為更加富有情節和感染力的敘述。別再待在冷冰冰的數字殿堂裡面轉悠了,去找那些會講故事的人,去找那些英文專業畢業的文科生,哲學家,讓他們來審視你的數據,他們會說出你完全想不到的另外一種解讀方式。在此,我特別想引用 Google 公司曾經的哲學家,戴蒙·赫洛維茲(Damon Horowitz)博士曾經說過的一段話。他擁有哥倫比亞大學的文學學士學位、麻省理工大學媒體實驗室的理科碩士學位、以及斯坦福大學的哲學博士學位。他是這麼說的:

如果真的想要在人工智慧領域獲得成就,我想最重要的一步並非是再建起一個什麼人工智慧中心實驗室,真正應該做的是要去打造一個表現更加理想的思想者,在這個目的驅使下,我們應該去學習哲學。我很高興自己能夠辭掉科技公司的職位,跑去學了個哲學專業的博士回來。這是我有生所做的最正確的決定之一。

「設計」,是一個將複雜的事物變得易於理解的過程。

設計是一個用於交流的奇妙工具,它能化腐朽為神奇。一個完全沒有接受過教育的人,在面對精美設計的時候,是可以完全感知並接收到信息的。設計所擁有的簡潔、親和、示範性、以及其目的性,使得它能夠讓數據發揮更大的作用。自從人類早期,設計就成為人們將抽象概念和想法轉換成具體信息的一種方式,比如他們用顏料塗抹在洞穴的牆壁上。它是我們人所以成為人的具體體現。維克托·帕涅克(Victor Papanek)在他 1971 年發表的書《Design for the Real World》裡面這麼說道:所謂設計的關鍵就是研究它是如何與人交互的方式。從這個意義上來說,將設計的學問融入到大數據中,將進一步發揮大數據造福世界的能力!

穹頂之上,它不僅僅意味著數字的堆砌和排列,而關鍵是如何去使用它們!

數據從目前來看,並不能稱得上有趣。但是在設計和視覺化的幫助下,它是可以做到這一點的。當我們將 Data (大寫的數據)與故事和意願相結合,我們會變得更加優秀,聰慧,敏捷,並且能夠做出更加有效的預見性決策。當我們在面對受眾的時候能夠拿出足夠的簡潔、用心、以及同情,我們會獲得更多的目光,更多的人會願意加入進來。如果我們能夠收集正確的數據,過濾、分析以及通過某種智能的方式將其情境化,在基於某種邏輯的前提下去敘述它們,並且使之視覺化,那麼無論是小寫的 data,又或者大寫的 Data,都能夠在社會的各個層面轉化成更加有用的事物。

當 「數據學」 升級為 「高級數據學」,其中包括了以上三個層面的知識:「情境化」、「敘述」 和 「設計」。那麼我們的社會,無論是政府政策、體育、金融、醫療、經濟、商業、又或者是政治或者教育,都將被它改造。在這個轉變的過程中,越來越多的人將帶著自己的知識背景加入進來。

來源tech2ipo.com


大家意識到數據的重要性,然後一個大數據平台成為所有有數據的公司的標配,也許賣數據會成為某些公司最賺錢的項目,也許跨行業的數據會更容易獲得。


現在大家都談大數據,但它是什麽卻是很模煳。

毫無疑問,妥當地分析和使用數據會創造財富,這也是為什麽統計學、機器學習那麽火紅,不過這些東西卻不是什麽新知識。可是近數年來,互聯網產生大量數據,數據之多使我們無法用Excel做分析,讓我們不得不使用這些高端的知識去處理數據。

另外,現在的CPU的速度十分快,而且科學家廿木戈平行運算也掌握得不錯,但瓶頸位在於讀寫數據,這也是Hadoop這一類軟體火紅的原因。

大數據這個詞可能很快便消失,但相關的技術會越來越被廣泛應用。


有史以來,人類的生產要素有這些:

採集漁獵社會:植物(穀物、果樹),動物(豬牛羊馬魚),人力。這是個完全靠天吃飯的社會。

農耕社會:土地,土地在這個時候成為要素;植物,主要是馴養植物,大豆稻穀小麥等;馴養動物,豬牛羊馬雞鴨鵝;氣候,這個要素不能掌控,但農業收成受到其強烈影響;人力畜力,犁田耕地收割都需要勞動力。

工業社會:機器,柴油機拖拉機收割機,這是工業社會最重要的特徵;電力,電力是電動機的基礎;交通,汽車飛機輪船,高速路飛行航線水陸航線;勞動力,生產和操作機器。

這個社會,之前的畜力要素基本被取代(賓士取代馬車),氣候因素也變得不如農業社會重要。

後工業社會:彼得德魯克叫後工業社會,也有人稱信息社會。這個社會的生產要素:人的智力,前幾個社會主要是人的體力,這個社會是人的智力創造力和管理能力;信息,信息成為社會的基本生產要素,也可能是最重要的生產要素。

現在的中國是50%的農業社會,40%的工業社會,再加10%的後工業社會。


關於大數據有太多的討論,讓我們站遠一點來看,從歷史的角度來看大數據時代。下文摘自《信號與雜訊》 ,一本非常值得一看的好書。

 人類最初的信息技術革命並非始於微型晶元的發明,而是以印刷機的誕生為開端的。1440年,約翰內斯-古騰堡發明了印刷機,這項發明使普通民眾能方便地了解信息,由此產生的思想洪流帶來了前所未有的結果和影響。印刷機的發明點燃了1775年的工業革命之火,也促成了人類文明的迅猛發展——由從前那種科學和經濟幾乎止步不前的狀態迅速跨越到呈指數型增長的狀態,還帶來了我們今天所熟悉的變化。除此之外,這一發明促成了一些歷史事件,這些事件開啟了歐洲啟蒙運動,也加速了美利堅合眾國的建立。

  但是,印刷機發明之初並沒有引發上述各種巨變,倒是可能催生了另外的事件,如持續了幾百年的「聖戰」。當人類開始相信他們可以預知和選擇自己的命運時,人類歷史上最血腥的時代也就開始了。

  早在古騰堡發明印刷機之前,書籍就已經存在了,但當時書的數量和讀書的人都很少,書籍只是貴族階層的奢侈品。因為抄寫員每次只能抄寫一份副本,複製一份原稿的費用大約是每5頁1弗洛林(一種金幣,1弗洛林約合200美元),因此像你現在讀的這本書,在當時可能要花費20 000美元才能得到。而且,經過無數次的抄寫,書中難免有大量的抄寫錯誤,這些錯誤代代相傳,成倍增加,甚至還會演變成與原意相反的錯誤。

  這就使得知識的積累變得極其困難。要想阻止以文字記錄的知識的不斷減少,就需要付出巨大的努力,因為書籍腐爛的速度遠遠大於其生成的速度。只有幾個版本的《聖經》和少量的哲學論述——比如柏拉圖和亞里士多德的文章——被保留了下來,其他那些數不清的智慧,由於缺乏記載動機,都遺失在那個年代了。

  過去,也許人們覺得對於知識的追求即使不全是無用功,似乎也沒什麼實際價值。如今世事瞬息萬變,我們總會有一種「世事無常」的感覺,而對於我們的前輩來說,這種「無常的世事」則更受關注。《聖經-傳道書》中有一句唯美的詩句:「日光之下無新事」,可事實卻並非如此,之所以說「無新事」,並不是因為每件事都已經被發掘出來了,而是因為所有事情都將被遺忘。

  印刷機永久而深刻地改變了這一狀況。幾乎是一夜之間,一本書的成本就驟降近300倍,書的售價從相當於今天20 000美元的價格劇降至70美元。印刷機迅速在歐洲普及,到1470年,印刷機已從德國傳播到羅馬、西班牙塞維利亞、法國巴黎和瑞士巴塞爾,隨後的10年里,幾乎所有的歐洲主要城市裡都有了印刷機的影子。印刷機問世的第一個世紀里,書籍的生產規模呈指數型增長,數量增長了近30倍。人類知識旋即進入快速積累期。

  然而,正如萬維網建立初期那樣,印刷機使用之初的信息質量也是參差不齊的。當時,人們只顧追逐眼前利益,印刷機幾乎都用來印製那些質量較高的地圖了,異端的宗教文章和一些偽科學文章也很快就佔據了暢銷書單的主要位置。印刷錯誤大量出現,那本被叫作《邪惡聖經》的書便是如此,這本書犯了史上最嚴重的印刷錯誤——《十誡》中的「不可姦淫」誤印成「應當姦淫」。與此同時,人們一下子接觸到大量的新思想,這難免會產生諸多混淆。信息的增長速度遠遠超過了人們處理信息和分辨信息的速度。共享信息的不斷增長反而加速了民族和宗教的孤立進程,其速度之快不禁讓人瞠目結舌。面對「過量的信息」時,我們會本能地進行篩選,選出喜歡的,忽略其他的,與同道中人為友,與意見相左之人為敵。

  印刷機的早期使用者中,最狂熱的要數那些傳播福音的人了。馬丁-路德的《九十五條論綱》還不是那麼激進,而對其中類似情緒的爭論已然不絕於耳了。正如《現代歐洲早期印刷革命》一書的作者伊麗莎白-愛森斯坦所寫的那樣,馬丁-路德這些論綱的革命之處就在於,它們「沒有一直釘在教堂的門上」 。而是被古騰堡的印刷機複印了30多萬次,即使按照今天的標準來看,這個印刷量也可算作巨大的成功了。

  路德的新教改革所導致的教會分裂,很快使歐洲陷入了戰爭。1524~1648年間,歐洲爆發了德國農民戰爭、施馬爾卡爾登戰爭、八十年戰爭、三十年戰爭、法國宗教戰爭、愛爾蘭南聯邦戰爭、蘇格蘭內戰和英國內戰,其中許多戰爭幾乎是同時爆發的。當然,1480年出現的西班牙宗教法庭和1508~1516年出現的康布雷同盟也值得一提,儘管兩者與新教思想的傳播關係不大。單單一個三十年戰爭,德國人口就減少了1/3,即使是與20世紀早期的第一次世界大戰相比,17世紀也稱得上是史上最血腥的時代。

  但就是在這樣一個充滿戰亂的時代,印刷機卻悄然推動著科學與文學的進步,所以人們才得以分享伽利略的科學思想,品味莎士比亞的舞台劇。

  莎士比亞舞台劇的主題通常關乎人的命運,這一點與戲劇如出一轍。劇中人物的理想和命運之間的差距增添了這些舞台劇的悲劇色彩。莎士?亞時期,掌控自身命運看似已成為人們思想意識的一部分,但要做到這一點卻很難,所以那些挑戰命運的人總是遍體鱗傷,直至死去。

  這一主題在莎士比亞的著名悲劇《朱利葉-愷撒》中得到了最生動的詮釋。在這部戲的前半部分,愷撒接收到各種各樣明顯的警示,他稱之為預言(比如「留心3月15日」),這些預言預示了他的加冕禮可能會演變為一場屠殺。愷撒當然不會在意那些預言,他始終自信地認為,這些預言只是預示著別人的死亡,否則,他當時就會留意。結果,愷撒遇刺了。

  莎士比亞借西塞羅的話警示我們,「(可是)人們照著自己的意思解釋一切事物的原因,實際上卻和這些事物本身的目的完全相反」 。這句話對於所有正在對自己新發現的大量信息進行選擇的人,都不失為一條好的建議。人們很難從干擾他們的雜訊中分辨出有用的信號。數據展示給我們的通常都是我們想要的結果,而且我們通常也能確保這些數據令我們皆大歡喜。

  然而,如果說《朱利葉斯-愷撒》這部戲劇中含有的宿命論、占卜術和迷信思想,是古代預言思想的開端,它同時也介紹了一種較為現代且較為激進的思想:我們可以對這些跡象進行解釋,從中獲益。在戲中,卡修斯說,「有時,人們可以掌控自己的命運」,他希望能勸服勃魯托斯參與謀害愷撒的陰謀中。

  於是,「人們可以掌控自己的命運」這一思想便廣泛傳播開來。「預言」和「預測」這兩個詞在今天大多數的情況下可以互換使用,然而在莎士比亞時代,它們卻有著不同的含義。「預言」是指占卜者告訴你的話,而「預測」則更像是卡修斯的想法。

  「預測」一詞源於日耳曼語,而「預言」一詞源自拉丁語。「預測」反映的是新教世俗思想,而不是神聖羅馬帝國的理想世界。「預測」是指在不確定的條件下進行計劃,這一行為需要謹慎、智慧和勤奮,更像我們今天所說的「預見」一詞。

  預言思想的神學含義是十分複雜的,但對於凡塵俗世中那些追逐利益的人來說,這些含義就不那麼複雜了。預言思想的這些特質與那些新教徒的職業道德是密不可分的,馬克斯-韋伯認為,資本主義的誕生和工業革命的開始與預言思想不無關聯。「預測」與「進步」兩個概念緊密相關。所有相關書籍中的所有信息都應有助於我們規劃生活,都應成功地預見整個世界的發展歷程。

  幾個世紀以來,引領「聖戰」的新教徒們都在學習如何用自身積累的知識改變社會。工業革命主要始於新教國家,而且多半發生在那些言論自由的國家,因為在這些國家,宗教思想和科學思想可以自由傳播,人們也不必對審查制度心存顧慮。

  工業革命的重大意義難以盡數。縱觀人類社會的歷史進程,經濟增長的速度曾經為年均0.1%,這個增速足以匹配當時人口數量平緩增長的狀況,但人均生活水平卻沒有得到任何顯著提高。然後,經濟形勢突然出現了前所未有的進展,經濟增速急劇超越了人口數量增長的速度,儘管偶爾也會出現全球金融危機,但這種高速增長的態勢時至今日仍未改變。

  歷史證明,印刷機引發的信息大爆炸為我們創造了一個好的世界,因為它僅用了330年的時間就為我們帶來了不可盡數的好處,與此同時也有數百萬人在歐洲戰場上喪命。


只說一點:

「在大學校園裡開設數據智能實驗室研究大數據是否有必要?」

沒必要,因為大數據必須有業務場景,沒有真正的海量數據,你研究個屁大數據啊?研究演算法的話,目前的機器學習已經有充足的科研領域可以施展。真正能從大數據裡面挖到金子的,都是真正有業務有數據的公司,而不是象牙塔裡面的學究。

我知道有好幾個例子,都是學校里做學問做得太久了,出去互聯網公司找份工作,去驗證一下自己做學問的理論。這也正說明了,真正的大數據技術,絕對不是實驗室研究出來的。


不懂商業,就別談數據

曾經看到一篇很受啟發的博文:

不懂商業就別談數據

作者: 車品覺(數據驅動分析師

自己寫了好多,覺得過於膚淺,所以只做分享了

前一段日子見到一位數據發燒友,我們兩個有一個一致的觀點:電子商務發展速度越來越快,這個行業的趨勢變化也越來越快。對於電子商務公司老闆來說,想要自己永遠跟著趨勢走,學會數據驅動是必然的了。

慶幸的是,今年搞電子商務的人對數據分析開始重視起來了,就連夫妻店起來的淘寶賣家也開始招數據分析師,更別談一些再大些的電子商務公司。

但是,這讓我心存隱憂:現在不是缺數據,而是數據太多。據統計,在今天的互聯網上,每60秒會產生10萬個微薄信息、400萬次search、facebook上50萬次contact。我相信,今天稍大一些的電子商務公司,都會採集一些行為數據(比如點擊量),但是這些行為數據與商業數據(比如交易量)有什麼關係?今天絕多數公司,甚至包括凡客這樣的著名電子商務公司,都不知道怎樣利用這成千上萬的零散數據。

需要數據邏輯,更需要商業敏感

先講一個有趣的故事。有一天,linkin發現忽然發現雷曼兄弟的來訪者多起來了,但是並沒有深究原因,第二天雷曼兄弟就宣布倒閉了。原因是什麼?雷曼兄弟的人到linkin來找工作了。谷歌宣布退出中國的前一個月,我在linkedin發現了一些平時很少見的谷歌的產品經理在線,這也是相同的道理。

試想,如果linkin針對某家上市公司分析某些數據,是不是有商業價值呢?我相信,現在51job絕對不知道要採集這些數據,只盯著註冊用戶數量這樣的簡單數據。國內許多互聯網公司,拿著魚翅當蘿蔔。

說這個故事,只是為了告訴大家,互聯網中的數據,需要用商業的眼光去分析,才有價值。

今天電子商務公司的數據分析師,有些像老闆的軍師,必須有從枯燥的數據中看到解開市場的密碼的本事。

比如,當一個具有商業意識的數據分析師發現,網站上的嬰兒車的銷量增加了,那麼他基本可以預測奶粉的銷量也會跟著上去。

再比如,和傳統賣場一樣,網站上的產品起到的作用並不一樣,有的產品是為了賺錢,有的產品是為了促銷的,有的產品是為了引流量,不同的產品在網站上擺放位置當然是不一樣的。

一個商業敏感的數據分析師,是懂得用什麼數據驅動公司目標實現的。

比如,樂酷天與淘寶競爭,重點看的不是交易量,而是流量,每天有多少新的seller進來,賣了多少東西。因為此階段的餓競爭最核心的就是人氣,而非實質交易量。如果新來的seller進來賣不出東西,只是老的seller的交易量在增長,即使最後交易量每天都增長,還是有問題。

再比如,一家剛踏入市場的B2C和已經佔領大部分市場的B2C,他們的公司目標是不一樣的,前者是看流量賺人氣,流量對後者的意義沒有那麼大,成熟的公司重點是看交易,轉化率及回頭率的。。

而當下的數據分析師多是學統計學出身的,一對數據放在那裡,大家都擅長怎麼算回歸、怎麼畫函數。但是這批數學的人才缺乏商業意識,不知道這些數據對業務意味著什麼,看不見一堆數據中誰和誰有關係,也就不知道該用什麼的邏輯分析,也就無法充當老闆的眼睛了。

前幾天遇到一個老闆,他說手下每天給他看幾十個零散數據。我問,是不是數據越多越麻煩。他說我一下子就點出他的痛處了,因為請來的數據分析專家只把數據交到他面前,但是卻沒有把行為數據和商業數據的關係告訴他。

你說,一個公司CEO,每天看到幾十個數據,什麼PV、PU、UV等等等,他們有精力來解讀嗎?對於他們來說,只需要知道有問題嗎?問題是什麼?有新的發現嗎?需要做什麼?這就行了。

我把這個理解成為數據的世界裡的「儀錶盤」,比如說網站流量進來彈出率怎樣就可以在儀錶盤裡呈現。你開車,如果水溫過高,儀錶盤亮燈提示。同樣,在電子商務的交易中,也可以用一些數據組成「儀錶盤」。

所以說,數據分析師不是單純做數學題。

行為數據和商業數據,互相推動

一個好的儀錶盤,出現好的情況和壞的情況,儀錶盤都會有提示。而構成「儀錶盤」,正是行為數據和商業數據之間的邏輯關係。

我自己發明了一種稱謂:前端行為數據和後端商業數據。前段數據指訪問量、瀏覽量、點擊流及站內搜索等反應用戶行為的數據,而後端數據更側重商業數據,比如交易量、ROI, LTV(Life time Value)。

目前有些人關心行為數據,也有些人關心商業數據,但是沒有幾家網站是把行為數據和商業數據連起來看的。大家只單純看某一端數據。國內小有名氣的網站CEO,每天也只看一個結果數據:網站今天的成交量是多少,賣了多少件產品。

但是看數據看得走火入魔的人會明白,每個數據,就像散布在黑夜裡的星星,它們之間彼此布滿了關係網,只要輕輕按一下其中一個數據,就會驅動另外一個數據的變化。

大家都比較關心網站用戶群,就以此舉例子。

某一天,某網站發現自己的前端的註冊量增加了不少,訪問量也上去了,交易量卻沒有上去,不死不活。

原因是什麼?這是許多網站的通病,每天有許多腦子在想這個問題。現在這個階段,處在互聯網前段的人只知道點擊量等數據,很少問後端的商業數據,如誰一直在重複購買?誰影響了5%~15%核心用戶群進來買東西?誰在給網站做正/負面傳播?

而操作網站後端交易環節的人只知道賣東西,又很少問到前端數據,如一個客戶進來網站平均停留時間了15分鐘還是30分鐘,這對將來重複購買的關係大嗎?一個客戶進了網站社區和沒進社區,對產生交易量有關係嗎?

找不到核心用戶群的原因,很大原因是沒有把行為數據與商業數據對接來看。

於是,前後端數據割裂,沒有人知道其中的關係。作為網站的決策者,不知道網站的核心用戶群的行為特徵,也不知道怎樣刺激核心用戶的增加,更不知道從一個用戶進來網站之後到走出去,哪些環節是需要疏通。

當然這只是一個管中窺豹而已。一個平台運營商,反應用戶行為的前端數據與後端的商業數據千千萬萬,賣家和買家也是千千萬萬,其中前端哪個數據對整個網站後端的交易量產生最大影響,只要針對這個前端數據猛下藥,必然會刺激後端數據的增加;反過來,後端哪個交易數據比較高,摸清楚是從哪個渠道來的,主要貢獻用戶是誰,網站的產品設計就要傾斜於他們,對他們好一點,如此才會渠道前端的「轉化率」等關鍵數據的提升。

如果一個網站的核心用戶群每月以10%的速度在增長,不火也是怪事。

遺憾的是,今天許多電子商務公司,每天都在做「碰巧」遊戲:今天推薦A家產品,明天撤下A家的產品,今天做低價促銷,明天又做線下活動。這些決策的改變,沒有儀錶盤的指示或良好的監控,都是蒙著眼睛在碰巧。

車品覺(數據驅動分析師)

生於香港,在美國、英國、澳洲等地接受西方教育,曾新南威爾士大學、斯坦福大學、INSEAD商學院及清華大學經管學院 等世界一流學院進修。多元的生活環境,國際化的教育背景,豐富的互聯網工作經歷,形成了思考問題的獨特性、敏銳性。曾先後在 HSBC, PCCW, Microsoft, eBay 等多家著名跨國公司任總監職務。多年來致力於研究行為數據在互聯網的發展。對電子商務未來趨勢有獨到見解,是一名未來趨勢觀察家。經歷二十年職場生涯後,近年致力研究經理人好運學。


系統性分析大數據產業現狀和預測未來發展方向

【資源、技術、理念三方向看大數據】

大數據是新資源、新技術和新理念的混合體。

從資源視角來看,大數據是新資源,體現了一種全新的資源觀。1990 年以來,在摩爾定律的推動下,計算存儲和傳輸數據的能力在以指數速度增長,每GB 存儲器的價格每年下降 40%。2000 年以來,以 Hadoop 為代表的分散式存儲和計算技術迅猛發展,極大的提升了互聯網企業數據管理能力,互聯網企業對「數據廢氣」(Data Exhaust)的挖掘利用大獲成功,引發全社會開始重新審視「數據」的價值,開始把數據當作一種獨特的戰略資源對待。大數據的所謂 3V 特徵(體量大、結構多樣、產生處理速度快)主要是從這個角度描述的。

從技術視角看,大數據代表了新一代數據管理與分析技術。傳統的數據管理與分析技術以結構化數據為管理對象、在小數據集上進行分析、以集中式架構為主,成本高昂。與「貴族化」的數據分析技術相比,源於互聯網的,面向多源異構數據、在超大規模數據集(PB量級)上進行分析、以分散式架構為主的新一代數據管理技術,與開源軟體潮流疊加,在大幅提高處理效率的同時(數據分析從T+1 到T+0 甚至實時),成百倍的降低了數據應用成本。

從理念的視角看,大數據打開了一種全新的思維角度。大數據的應用,賦予了「實事求是」新的內涵,其一是「數據驅動」,即經營管理決策可以自下而上地由數據來驅動,甚至像量化股票交易、實時競價廣告等場景中那樣,可以由機器根據數據直接決策;其二是「數據閉環」,觀察互聯網行業大數據案例,它們往往能夠構造起包括數據採集、建模分析、效果評估到反饋修正各個環節在內的完整「數據閉環」,從而能夠不斷地自我升級,螺旋上升。目前很多「大數據應用」,要麼數據量不夠大,要麼並非必須使用新一代技術,但體現了數據驅動和數據閉環的思維,改進了生產管理效率,這是大數據思維理念應用的體現。

【如何界定大數據產業】

大數據本身既能形成新興產業,也能推動其他產業發展。當前,國內外缺乏對大數據產業的公認界定。我們認為,大數據產業可以從狹義和廣義兩個層次界定。

從狹義看,當前全球圍繞大數據採集、存儲、管理和挖掘,正在逐漸形成了一個「小生態」,即大數據核心產業。大數據核心產業為全社會大數據應用提供數據資源、產品工具和應用服務,支撐各個領域的大數據應用,是大數據在各個領域應用的基石。應該注意到,狹義大數據產業仍然圍繞信息的採集加工構建,屬於信息產業的一部分。

大數據核心產業構成

數據資源部分負責原始數據的供給和交換,根據數據來源的不同,可以細分為數據資源提供者和數據交易平台兩種角色。數據基礎能力部分負責與數據生產加工相關的基礎設施和技術要素供應,根據數據加工和價值提升的生產流程,數據基礎能力部分主要包括數據存儲、數據處理和資料庫(數據管理)等多個角色。

數據分析/可視化部分負責數據隱含價值的挖掘、數據關聯分析和可視化展現等,既包括傳統意義上的 BI、可視化和通用數據分析工具,也包括面向非結構化數據提供的語音、圖像等媒體識別服務。

數據應用部分根據數據分析和加工的結果,面向電商、金融、交通、氣象、安全等細分行業提供精準營銷、信用評估、出行引導、信息防護等企業或公眾服務。

根據 IDC、Wikibon 等諮詢機構預測,2016 年,全球的大數據核心產業規模約為 300 億美元。

全球大數據產業規模(2011-2026)

目前大數據產業的統計口徑尚未建立。對於我國大數據產業的規模,各個研究機構均採取間接方法估算。中國信息通信研究院結合對大數據相關企業的調研測算,2015 年我國大數據核心產業的市場規模達到 115.9 億元,增速達 38%,預計 2016 年將達到 168 億元,2017-2018 年還將維持 40%左右的高速增長。

中國大數據產業規模估計

從廣義看,大數據具有通用技術的屬性,能夠提升運作效率,提高決策水平,從而形成由數據驅動經濟發的「大生態」,即廣義大數據產業。廣義大數據產業包含了大數據在各個領域的應用,已經超出了信息產業的範疇。

據華沙經濟研究所測算,歐盟 27 國因大數據的引進,至 2020 年將獲得 1.9%的額外 GDP 增長。美國麥肯錫預計,到 2020 年美國大數據應用帶來的增加值將佔 2020 年 GDP 的 2%-4%。中國信息通信研究院預計,到2020年大數據將帶動中國GDP 2.8-4.2%。

【大數據產業發展的要面臨的挑戰】

我國大數據產業發展已具備一定基礎,但要實現從「數據大國」向「數據強國」轉變,還面臨諸多挑戰。

一是對數據資源及其價值的認識不足。

全社會尚未形成對大數據客觀、科學的認識,對數據資源及其在人類生產、生活和社會管理方面的價值利用認識不足,存在盲目追逐硬體設施投資、輕視數據資源積累和價值挖掘利用等現象。

二是技術創新與支撐能力不夠。

大數據需要從底層晶元到基礎軟體再到應用分析軟體等信息產業全產業鏈的支撐,無論是新型計算平台、分散式計算架構,還是大數據處理、分析和呈現方面與國外均存在較大差距,對開源技術和相關生態系統的影響力仍然較弱,總體上難以滿足各行各業大數據應用需求。

三是數據資源建設和應用水平不高。

用戶普遍不重視數據資源的建設,即使有數據意識的機構也大多隻重視數據的簡單存儲,很少針對後續應用需求進行加工整理。數據資源普遍存在質量差,標準規範缺乏,管理能力弱等現象。跨部門、跨行業的數據共享仍不順暢,有價值的公共信息資源和商業數據開放程度低。數據價值難以被有效挖掘利用,大數據應用整體上處於起步階段,潛力遠未釋放。

四是信息安全和數據管理體系尚未建立。

數據所有權、隱私權等相關法律法規和信息安全、開放共享等標準規範缺乏,技術安全防範和管理能力不夠,尚未建立起兼顧安全與發展的數據開放、管理和信息安全保障體系。

五是人才隊伍建設亟需加強。

綜合掌握數學、統計學、計算機等相關學科及應用領域知識的綜合性數據科學人才缺乏,遠不能滿足發展需要,尤其是缺乏既熟悉行業業務需求,又掌握大數據技術與管理的綜合型人才。

【三大方向預測大數據技術發展未來趨勢】

(一)社交網路和物聯網技術拓展了數據採集技術渠道

經過行業信息化建設,醫療、交通、金融等領域已經積累了許多內部數據,構成大數據資源的「存量」;而移動互聯網和物聯網的發展,大大豐富了大數據的採集渠道,來自外部社交網路、可穿戴設備、車聯網、物聯網及政府公開信息平台的數據將成為大數據增量數據資源的主體。當前,移動互聯網的深度普及,為大數據應用提供了豐富的數據源。

根據中國互聯網路信息中心(CNNIC)第 38 次《中國互聯網路發展狀況統計報告》,截至 2016 年 6 月,我國網民規模達 7.1 億,互中國信息通信研究院 聯網普及率達到 51.7%,超過全球平均水平 3.1 個百分點。其中,我國手機網民規模達 6.65 億。網民中使用手機上網的人群佔比提升至92.5%。線下企業通過與互聯網企業的合作,或者利用開放的應用編程介面(API,Application Programming Interface)或網路爬蟲,可以採集到豐富的網路數據可以作為內容數據的有效補充。

另外,快速發展的物聯網,也將成為越來越重要的大數據資源提供者。相對於現有互聯網數據雜亂無章和價值密度低的特點,通過可穿戴、車聯網等多種數據採集終端,定向採集的數據資源更具利用價值。例如,智能化的可穿戴設備經過幾年的發展,智能手環、腕帶、手錶等可穿戴正在走向成熟,智能鑰匙扣、自行車、筷子等設備層出窮,國外 Intel、Google、Facebook,國內百度、京東、小米等有所布局。

根據 IDC 公司預計,到 2016 年底,全球可穿戴設備的出貨量將達到 1.019 億台,較 2015 年增長 29.0%。到 2020 年之前,可穿戴設備市場的年複合增長率將為 20.3%,而 2020 年將達到 2.136 億台。可穿戴設備可7×24 小時不間斷地收集個人健康數據,在醫療保健領域有廣闊的應用前景,一旦技術成熟,設備測量精度達到醫用要求,電池續航能力也有顯著增強,就很可能會進入大規模應用階段,從而成為重要的大數據來源。再如,車聯網已經進入快速成長期。

據 StrategyAnalytics 公司預計,2016 年前裝車聯網市場滲透率將達到 19%,在未來 5 年內迎來發展黃金時期,2020 年將達到49%。不過,值得注意的是,即便外部數據越來越豐富,但可獲取性還不夠高,一方面受目前技術水平所限,車聯網、可穿戴設備等數據採集精度、數據清洗技術和數據質量還達不到實用要求;另一方面,由於體制機制原因,導致行業和區域上的條塊分割,數據割據和孤島普遍存在,跨企業跨行業數據資源的融合仍然面臨諸多障礙。

根據中國信息通信研究院 2015 年對國內 800 多家企業的調研來看,有 50%以上的企業把內部業務平台數據、客戶數據和管理平台數據作為大數據應用最主要的數據來源。企業內部數據仍是大數據主要來源,但對外部數據的需求日益強烈。當前,有 32%的企業通過外部購買所獲得的數據;只有18%的企業使用政府開放數據。如何促進大數據資源建設,提高數據質量,推動跨界融合流通,是推動大數據應用進一步發展的關鍵問題之一。

總體來看,各行業都在致力於在用好存量資源的基礎之上,積極拓展新興數據收集的技術渠道,開發增量資源。社交媒體、物聯網等大大豐富了數據採集的潛在渠道,理論上,數據獲取將變得越來越容易。

(二) 分散式存儲和計算技術夯實了大數據處理的技術基礎

大數據存儲和計算技術是整個大數據系統的基礎。

在存儲方面,2000 年左右谷歌等提出的文件系統(GFS)、以及隨後的 Hadoop 的分散式文件系統 HDFS(Hadoop Distributed File System)奠定了大數據存儲技術的基礎。

與傳統系統相比,GFS/HDFS 將計算和存儲節點在物理上結合在一起,從而避免在數據密集計算中易形成的 I/O吞吐量的制約,同時這類分散式存儲系統的文件系統也採用了分散式架構,能達到較高的並發訪問能力。

在計算方面,谷歌在 2004 年公開的 MapReduce 分散式並行計算技術,是新型分散式計算技術的代表。一個 MapReduce 系統由廉價的通用伺服器構成,通過添加伺服器節點可線性擴展系統的總處理能力(Scale Out),在成本和可擴展性上都有巨大的優勢。

(三) 深度神經網路等新興技術開闢大數據分析技術的新時代

大數據數據分析技術,一般分為聯機分析處理(OLAP,OnlineAnalytical Processing)和數據挖掘(Data Mining)兩大類。

OLAP技術,一般基於用戶的一系列假設,在多維數據集上進行互動式的數據集查詢、關聯等操作(一般使用 SQL 語句)來驗證這些假設,代表了演繹推理的思想方法。

數據挖掘技術,一般是在海量數據中主動尋找模型,自動發展隱藏在數據中的模式(Pattern),代表了歸納的思想方法。

傳統的數據挖掘演算法主要有:

(1)聚類,又稱群分析,是研究(樣品或指標)分類問題的一種統計分析方法,針對數據的相似性和差異性將一組數據分為幾個類別。屬於同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。企業通過使用聚類分析演算法可以進行客戶分群,在不明確客戶群行為特徵的情況下對客戶數據從不同維度進行分群,再對分群客戶進行特徵提取和分析,從而抓住客戶特點推薦相應的產品和服務。

(2)分類,類似於聚類,但是目的不同,分類可以使用聚類預先生成的模型,也可以通過經驗數據找出一組數據對象的共同點,將數據劃分成不同的類,其目的是通過分類模型將數據項映射到某個給定的類別中,代表演算法是 CART(分類與回歸樹)。企業可以將用戶、產品、服務等各業務數據進行分類,構建分類模型,再對新的數據進行預測分析,使之歸於已有類中。分類演算法比較成熟,分類準確率也比較高,對於客戶的精準定位、營銷和服務有著非常好的預測能力,幫助企業進行決策。

(3)回歸,反映了數據的屬性值的特徵,通過函數表達數據映射的關係來發現屬性值之間的一覽關係。它可以應用到對數據序列的預測和相關關係的研究中。企業可以利用回歸模型對市場銷售情況進行分析和預測,及時作出對應策略調整。在風險防範、反欺詐等方面也可以通過回歸模型進行預警。

傳統的數據方法,不管是傳統的 OLAP 技術還是數據挖掘技術,都難以應付大數據的挑戰。首先是執行效率低。傳統數據挖掘技術都是基於集中式的底層軟體架構開發,難以並行化,因而在處理 TB 級以上數據的效率低。其次是數據分析精度難以隨著數據量提升而得到改進,特別是難以應對非結構化數據。

在人類全部數字化數據中,僅有非常小的一部分(約佔總數據量的 1%)數值型數據得到了深入分析和挖掘(如回歸、分類、聚類),大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析(如排序),佔總量近 60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析。

所以,大數據分析技術的發展需要在兩個方面取得突破,一是對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識,如從自然語言構成的文本網頁中理解和識別語義、情感、意圖等;二是對非結構化數據進行分析,將海量複雜多源的語音、圖像和視頻數據轉化為機器可識別的、具有明確語義的信息,進而從中提取有用的知識。

目前來看,以深度神經網路等新興技術為代表的大數據分析技術已經得到一定發展。

神經網路是一種先進的人工智慧技術,具有自身自行處理、分布存儲和高度容錯等特性,非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據,十分適合解決大數據挖掘的問題。

典型的神經網路模型主要分為三大類:第一類是以用於分類預測和模式識別的前饋式神經網路模型,其主要代表為函數型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以 Hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織映射方法,以 ART 模型為代表。不過,雖然神經網路有多種模型及演算法,但在特定領域的數據挖掘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。

隨著互聯網與傳統行業融合程度日益加深,對於 web 數據的挖掘和分析成為了需求分析和市場預測的重要段。Web 數據挖掘是一項綜合性的技術,可以從文檔結構和使用集合中發現隱藏的輸入到輸出的映射過程。

目前研究和應用比較多的是 PageRank 演算法。PageRank是Google演算法的重要內容,於2001年9月被授予美國專利,以Google創始人之一拉里·佩奇(Larry Page)命名。PageRank 根據網站的外部鏈接和內部鏈接的數量和質量衡量網站的價值。這個概念的靈感,來自於學術研究中的這樣一種現象,即一篇論文的被引述的頻度越多,一般會判斷這篇論文的權威性和質量越高。

需要指出的是,數據挖掘與分析的行業與企業特點強,除了一些最基本的數據分析工具外,目前還缺少針對性的、一般化的建模與分析工具。各個行業與企業需要根據自身業務構建特定數據模型。數據分析模型構建的能力強弱,成為不同企業在大數據競爭中取勝的關鍵。

本文來源:2016年大數據白皮書

內容整理編輯:會點網 袁帥


謝邀。好久沒談大數據了,這半年也有了一些新的認識。

從題主說到的摩爾定律的失效開始吧。

摩爾定律肯定會有一個時效性的,任何技術也一樣。對於數據處理來說,摩爾定律的失效也會逼迫人們向所謂大數據方向發展。我們不能一直把所有的一切都扔給計算機去處理。數據的增多,一方面是指單一種類數據量的上升,另一方面是指數據的維度和種類也在增長。就拿最簡單的網店數據來說,從傳統行業進入網店,最開始我們看營業額,後來我們要關注轉化率,訪問量,再後來我們要關注訪問量的來源,再後來也許天氣的變化都會對你的網店有影響。。。。。。通過計算機只能給你數據,但是上面說的這個變化過程,很遺憾,只能依靠大腦。所以未來是大數據的世界。正如熵在永遠增加一樣,數據的維度和組合關聯方式也是無窮無盡的。

說說學校研究大數據。這關鍵在於研究者的經驗和資歷。相當一部分國內高校的老師都是一輩子做學術研究的,沒有實際的商業化的思維方式,大數據這種植根於商業且需要以實際效果證實的項目我不認為高校能有什麼研究突破,發論文什麼的另說。真正我們需要的成果是指:告訴我們哪些數據之前被我們忽略?哪些數據的組合會對我們有新的價值?我們還要的不單單是理論上的推導,還需要實際的驗證。


數據挖掘一直很火,說大數據最近很火,或者未來火不火,其實,都是局外人在瞎蒙!


我幫題主吧問題改了,你問還能火多久,你明顯沒有接觸過這個領域的人,大數據目前還沒有很火,以後會火也會火很久的問題。大數據其實和搜索領域靠的很進,目前做大數據做的好的也就是以前做搜索的那一群人,自然,這個收益的工程無法用用戶看的見的形式進行量化,但大數據的潛在領域和潛在價值是很多的,遠遠不止廣告這麼簡單。大數據關鍵在收集數據的過程和流量變現,這個過程中機器學習得到了充分的應用。看看機器學習領域的泰斗,機器學習的選修課有多火吧Why Is Machine Learning (CS 229) The Most Popular Course At Stanford?

大數據就是互聯網公司的未來。至於那些雲來雲去翻雲覆雨的的什麼公司和政府雲基地的什麼的確是@黃子茜 寫的一個大騙局


大數據(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據指不用隨機分析法這樣的捷徑,而採用所有數據進行分析處理。

大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。

未來的大數據除了將更好的解決社會,商業,科學各類問題。大部分的數據都與人類有關,要通過大數據解決人的問題。

比如,建立個人的數據中心,將每個人的日常生活習慣,身體狀態,社會網路,知識能力,愛好性情,情緒波動記錄,這些數據可以被充分的利用,醫療機構將實時的監測用戶的身體健康狀況,教育機構針對用戶制定培訓計劃,服務行業提供符合用戶慣的服務,社交網路為志同道合的人群相識相知,政府能在用戶心理健康出現問題時有防範自殺,刑事案件,金融機構能為用戶的資金提供更有效的使用建議和規劃,道路交通可以提供合適的出行線路。

大數據將逐漸成為很多行業企業實現其價值的最佳途徑,大數據的應用也將會全面展開。未來,大數據將成為國家戰略的重要部分。

強烈推薦:大數據時代來臨,大數據的價值主要體現在哪幾個方面? - 大數據 多智時代


昔日,龐涓和孫臏決戰一役,孫臏以「瞞天過海」之術,假造狼狽撤退,龐涓觀其旗數不整,所過之地,圍灶日漸稀少,信以為孫臏丟盔棄甲而敗,遂長驅直追,中了埋伏身亡而敗。龐涓看到了敵人的數據,聯想到敵人的潰敗。而他忘記了,這些現象後面的聯繫,最終是他學藝不精,敗於孫臏之手。數據時代,我們收集的數據能說明一定問題,但更重要的是分析者要懂得這個時代數據之外的更多形式,因勢而判,才能數為我用。


隨便說一下,純屬瞎想,沒有幫助摺疊好了:

在數據挖掘,分析,處理能力提升之後的大數據很可怕呀

現在或者不久的將來,大多數家電,甚至更小的,更私人的物品比如牙刷、鞋子、車子,目前的健康主打手環等,都將通過各種感測器將你的私人信息上送到私有或公有伺服器。

相信在將來,幾乎所有和人相關的物件器具,都會被移動互聯採集數據並上送到伺服器,範圍將擴大至廚衛,起居,等各方面

以後必然會發展起來的近景支付(nfc,維信)的數據也會上傳的公有或私有伺服器

在數大數據或雲里,你個人的幾乎所有信息都可以在伺服器上拿到:

  • 通過支付信息,獲取你收入的最大開銷在什麼方面,購物傾向
  • 通過點餐購買食材,獲取你飲食偏好,飲食營養程度
  • 通過鞋子及衣服或配飾各種感測器收集運動量,運動類型,健康情況
  • gps定位得到你活動範圍,打車,公交,步行,聚會,宅,業餘活動都知道了
  • 通過電視,電影,書藉購買,獲取你關注的信息,文化傾向

  • 家裡的空調,廚衛用品,家裡的水,空氣,溫濕度,也都可以拿到數據
  • 等。。

擴大一步你最長接觸的人,家人朋友的信息,也都可以獲取的到的。在數據挖掘,處理,分析的能力得到保障之後,這些數據綜合分析,我不敢想了

嗯,自然語言處理能力已經開始展現了。

人工智慧再發展一步,造一個和你性格,習慣相差不多的機器人也不是難事吧

這是一個美好的時代


「大數據」時代下的公共行政價值與善治

摘要:隨著信息技術的發展,「大數據」技術開始出現並在經濟商業領域進行了積極嘗試,取得很好的效果。政府部門和公共行政領域的學者紛紛要求引進在公共行行政領域引進「大數據」技術,轉變傳統的公共行政思維模式。從理論上說,就公共行政領域的發展歷史來看,強調價值判斷而非技術手段的公共行政和「大數據」技術之間存在天然的契合性難題。從實踐上看,現行「大數據」技術大多為「項目制」的副產品,並沒有發揮太大的實際作用;另外,「大數據」技術容易成為政府政治責任推卸的工具借口,很可能進一步固化我國的「全能型」政府角色,這些都是「大數據」技術在我國公共行政領域中的實踐難題。但從世界的發展潮流看,公共行政引進「大數據」是不可逆轉的趨勢,必須發展。「大數據」技術的未來發展應該要堅持價值理性的主導,堅持「大數據」技術是工具而非目的的定位,推動參與型公共管理的改革,最終實現智慧公共決策。

一、「大數據」技術的社會初探

20世紀以來,人類的生產力獲得了巨大的提升,第三次科技革命的不斷深化推動了計算機技術的產生和發展。相較於傳統的工業發展模式,計算機技術以其高速、智能的優勢逐漸深入到人類生活的每一個角落,成為我們生活中不可或缺的重要組成部分,人類進入了一個屬於信息技術的時代。「大數據」技術正是在這樣一個時代背景下應運而生的新興技術手段,它是信息時代發展到一定歷史階段的必然產物。

進入21世紀,依託性能不斷優化的超級計算機,雲計算、物聯網、社交網路等新興服務促使人類社會的數據種類和規模正以前所未有的速度增長,數據從簡單的處理對象開始轉變為一種基礎性資源,「大數據」時代正式到來(孟小峰、慈祥,2013)。在「大數據」時代,人類能在短時間內通過超級計算機獲得、處理和輸出大量的數據資料,這為人類行動的分析、決策提供更為科學、全面的技術依據。

伴隨生產力的巨大進步,人類對社會的認識也在發生翻天覆地的變化。「大數據」時代的到來,要求人類以一種全新的視角認識當下,人類固有的生活、工作和思維也隨之發生大變革。「大數據」商業應用第一人,英國人維克托·邁爾·舍恩伯格具有前瞻性地提出,「大數據」時代最大的轉變就是,放棄對因果關係的渴求,而取而代之關注相關關係;只要知道「是什麼」,而不需要知道「為什麼」(維克托,2013)。一時間,社會各界開始了對「大數據」時代的熱烈討論,「大數據」技術也率先在經濟商業領域開始了應用嘗試,並取得一定的成就。

從經濟商業領域的具體案例上看,依託「大數據」技術,「一汽大眾」公司聯動式資料庫營銷模式的構建,在助推智能企業創建、提升利益相關者之間的共存性價值以及打造商業生態系統方面取得重大突破(金曉彤、王天新、楊瀟,2013);阿里巴巴支付寶的大數據團隊通過收集客戶數據,建立用戶的流失預警模型,預測每一名用戶未來3個月離開支付寶的概率,並對潛在的流失用戶實施挽留策略(劉丹、曹建彤、王璐,2014);「百思買」公司以大數據分析為基礎、以客戶為中心的經營模式為其帶來了極佳的經濟收益,針對特殊目標人群建設的新型商店實現的銷售額是傳統模式的兩倍(Boyle M,2006)。從經濟商業領域的宏觀整體上看,在經濟商業領域,「大數據」資源與技術的工具化運用、「大數據」資源與技術商品化共同推動了「大數據」產業鏈形成、以「大數據」為中心的擴張引發行業跨界與融合;在商業模式創新的企業層面,「大數據」在企業價值主張創新、關鍵業務與流程創新、收益模式創新、外部關係網路與價值網路重構中發揮了不可替代的作用(李文蓮、夏健明,2013)。由此可見,經濟商業領域的「大數據」新理念改變了傳統的企業運營舊思路,應用日漸成熟的「大數據」技術為企業提供了重要的發展新動力。

經濟商業領域「大數據」技術的成功引進,引起了公共行政領域學者的關注,並提出要轉變公共行政的傳統理念,構建「大數據」時代下的公共行政新模式。我國已經有一些學者提出自己的新看法,對「大數據」的公共行政發展前景給予了相對積極的預測。「大數據」在政府和公共服務領域的應用可有效推動政務工作開展,提高政府部門的服務效率、決策水平和社會管理水平,產生巨大社會價值(張蘭廷,2014)。基於「大數據」的全面分析可以為政府決策提供諮詢,降低決策風險,提高決策水平;為政府相關部門實時獲取信息,及時處理突發、群體性問題提供可能;有利於提高政府部門整體決策管理水平,使決策更加科學、高效、合理,管理更加公平、公正、公開,為建設文明、創新的社會主義和諧起到積極的作用(宋若濤,2014)。

事實上,新事物在新領域實際運作中可能發揮的具體效用往往需要社會各界進行一定時間的論證,而非急於上馬引進,否則可能會產生負面的效果。儘管我國公共行政學界對「大數據」技術有一定的展望,但目前學界並沒有對「大數據」技術有一個統一的界定,相關的研究仍然處於起步階段,能借鑒的西方經驗也很有限。特別地,學界對「大數據」技術應用的負面效果探究相對較少,我們對「大數據」技術在公共行政領域中的認識相對片面。

反觀我國的政府,對「大數據」技術在公共行政領域的態度基本上肯定的,近年來,我國中央政府和部分地方政府高度關注「大數據」技術並高速開展相關的建設工程。從中央政府的層面看,2015年8月,國務院發布了關於「印發促進大數據發展行動綱要」的通知,要求各省、自治區、直轄市人民政府,國務院各部委、各直屬機構認真貫徹落實「大數據」在公共行政領域的實踐應用,全面推進我國大數據發展,加快建設數據強國,為此中央給予巨大的人力、物力資源(國務院,2015)。從地方政府的層面看,廣東省於2012年底提出《廣東省實施大數據戰略工作方案》,並在2014年初正式成立省大數據管理局,加快制定實施「大數據」戰略政策措施,推進相關基礎設施建設,並加強政務、企業、社會「大數據」的綜合開發應用,借「大數據」之力實現發展的轉型升級(廣東省政府,2012);從2015年2月開始,貴州省政府也積極開展「大數據」的建設,力爭將貴州大數據綜合試驗區建設成為彙集全國數據彙集應用新高地、綜合治理示範區、產業發展聚集區、創業創新首選地、政策創新先行區。由此可見,在學界還沒有對公共行政領域的「大數據」應用效果進行充分的探討,政府部門已經先行大力開展嘗試,「大數據」機構受到了我國政府部門的絕對重視。誠然,「大數據」技術在能在一定程度上促進決策水平科學性的提升,但是這並不意味著「大數據」技術在沒有經過系統論證的前提下在公共行政領域紮下根並不斷提升相關領域的建設投入。

二、「大數據」技術的公共行政領域反思

從已有的文獻分析上看,目前學界對「大數據」技術在公共行政領域引進後可能產生的弊端探討相對較少,這給了我們對「大數據」技術進行深層次追問的空間,思考「大數據」時代下公共行政的未來發展方嚮應該何去何從。

一方面,從理論上,針對經濟商業領域中「大數據」技術的引進成功,筆者嘗試追問,這種有限領域的引進成功是否有普遍的可複製性,這是否意味著其引進公共行政領域也必然成功?和經濟商業領域相比,公共行政領域是否有和「大數據」技術契合的困難點?是否真的如一部分學者所說的,「大數據」技術的引進必然改變公共行政領域的傳統思維認識模式?

另一方面,從實踐上,針對政府近期開展的一系列「大數據」建設工程,筆者嘗試追問,這種建設模式是否真的有助於政府部門長期推動民主決策、分析預測的發展?如果真的如政府部門設想的一樣,「大數據」技術能推動政府決策科學化,是否在同一時間也不可避免地有深層次的、短期內看不見的伴隨公共行政體系運行而產生的結構性副效應?「大數據」技術在公共行政領域的快速發展背後,是否有政府部門進一步的考慮,其中包含更深層次的政治行動邏輯與政治動機?

個人認為,以上的問題如果得不到深入的思考和妥善的回答,公共行政的發展模式很難實現從工業時代向信息時代的良性過渡,「大數據」時代下公共行政基本價值難以得到有效維護,最終導致社會的善治難以實現。

三、「大數據」技術的公共行政領域引進適應性

——基於知識領域差異的理論分析

首先,筆者暫且撇開「大數據」技術在現實生活中公共行政領域的具體運作情況,從理論上,就知識領域本身討論「大數據」和公共行政知識系統的關係。

實際上,公共行政領域和經濟商業領域之間有巨大的不可通約性。這種不可通約性的體現並不僅限於淺層的兩者研究對象的不同,即經濟商業領域學者研究的是不同經濟主體的各種經濟活動和各種相應的經濟關係及其運行、發展的科學規律,而公共行政領域學者研究的是政府部門處理行政機關內部事務和社會公共事務的科學規律。兩個學科之間的深層次不可通約性實際上深入到兩者之間相對抽象的知識結構核心部分,這除了對兩個學科本身的歷史發展造成根本性的差異,也造成了它們和「大數據」技術理論上的契合度可能存在巨大的差異。為了深入探討這個差異,筆者有必要簡單回顧一下公共行政和經濟商業領域各自發展的一個重要歷史階段,即公共行政領域和經濟商業領域的「價值和效率」之爭,以此推論出兩個領域和「大數據」技術理論上的契合度可能存在的巨大差異。

在經濟商業領域,19世紀末20世紀初,西方經濟學快速發展,以門格爾為代表的奧地利學派與以施穆勒為代表的德國歷史學派之間的發生了經濟學世上有名的方法論之爭。「歷史主義—制度主義—演進主義」的經濟學研究範式演進清晰地說明了歷史學派的發展和超越;而「個體主義—演進主義—自由主義」的原則又明確地表達了奧地利學派在經濟學發展中的重要作用和思想地位(靳濤,2005)。這場爭論的最終結果以門格爾為代表的奧地利學派勝利而告終,即經濟學領域更應該注重的是事實而非價值,重工具選擇、效率提升而非價值選擇。這場爭論給後世的經濟學發展方向帶來巨大的影響,推動經濟學理論的快速前進。

在公共行政領域,20世紀40年代,古典公共行政學在韋伯理論發展後期遭遇到了前所未有的挑戰。美國的公共行政領域學者,西蒙與沃爾多之間展開了激烈的辯論,兩人分別從兩個不同的方向開闢出了行政學未來發展的路徑。西蒙認為,公共行政領域要堅持價值中立取向,從邏輯實證主義的角度出發,強調「價值」和「事實」的分離;同時,他堅持經驗主義立場和科學統一觀念,主張重建一門更加精緻、更有效率的行政科學(西蒙,1952)。相反,沃爾多批評了邏輯實證主義,將公共行政學建立在廣泛的政治、歷史和文化的根基上,追問公共行政本身的合法性;他注重將民主等規範價值引入公共行政中,強調公共行政學就是一種政治理論(沃爾多,1952)。這場爭論的最終結果以沃爾多學派勝出而告終,即公共行政領域更應該注重的是價值而非事實,重價值判斷而非工具選擇、效率提升。這場爭論一直影響後世,以沃爾多等一批美國年輕學者發起的新公共行政運動,推動了公共行政領域進一步的發展。從此,公共行政領域的發展基本上是以價值為主導的模式。

結合公共行政領域和經濟商業領域歷史上著名的「價值和效率」之爭,更有助於分析兩個領域和「大數據」技術理論上的契合度差異。實際上,「大數據」技術本質上只是一種信息時代下的新技術工具,它為人類社會發展帶來的是「工具理性」的巨大提升,而對「價值理性」進步的貢獻則相對有限。20世紀以來,經濟商業領域的發展更注重的是工具選擇、效率提升而非價值選擇,經濟商業領域的發展很多是源於工具選擇的進步帶來經濟效率的上升,而「大數據」技術恰好能滿足經濟商業領域的發展現實需要而給予巨大的工具支持。從經濟商業領域的成功引入案例可以發現,「大數據」的新技術和新理念改變了傳統的企業運營舊思路和舊工具,它為企業提供了重要的發展新動力。反觀公共行政領域,20實際以來,公共行政領域更注重的是價值判斷而非工具選擇、效率提升,「大數據」的引進只能在公共行政領域的管理工具上帶來一定的發展,但對其價值理念發展的貢獻則相當有限。公共行政領域的引進並不意味著它像經濟商業領域的引進一樣,有成功的必然性,相反,公共行政領域和「大數據」技術有天然的不可避免的契合困難點。由此可見,「大數據」並必然不像一些學者說的那樣能帶來公共行政領域的認識理念革新,相反,它作為技術工具,在傳統的公共行政理念的引導下,可能進一步固化已有的公共行政領域的管理模式,實際上是不利於公共行政核心價值的維護與信息時代下社會善治的實現。公共管理在追求公共利益精益性、在進行科學決策時具有更優的條件,也意味著公共管理在實現良好的社會治理、提升治理質量方面面臨現實挑戰(王崢嶸,2014)。

四、「大數據」技術的公共行政領域實踐

——基於政治責任、政府角色和政府治理模式的分析

(一)「大數據」技術和我國「項目制」新型國家治理模式

在計劃經濟時代,我國政府以國家動員的方式,對資源進行集中調配,然後通過傳統的科層制逐級下放,實現國家的政策目標。但是,由於中國「單位制」管理沒有完全擺脫傳統的「人治」模式與計劃經濟中管制型政府的角色,社會中出現了很多「政企不分」「政社不分」的不良後果,扼殺了基層官僚和市場中其他經濟主體的靈活性與發展動力,造成了官僚體制的僵化與靜止的結果,嚴重阻礙了國家的經濟建設發展。

隨著分稅制改革的完成,國家突破了傳統稅收上繳模式,由中央稅務部門在地方設置國稅局,直接在基層收繳稅收並上交國庫,繞開地方的稅務部門,減少地方財政對稅收層層截流帶來的不良後果,最終實現了國家財政收入的增長,為國家治理模式的改革提供了資金保障。分稅制改革,是項目制形成的一個重要基礎,只有中央政府財政權力真正實現集約化,才能通過項目的方式實現財政再分配(陳碩,2010)。中央為了充分動員地方建設積極性為目標,通過中央財政集中控制進行轉移支付的方式,藉助項目作為貫徹中央意志的載體,進行的市場化國家治理改革,這就是所謂的新型國家治理模式——「項目制」。

從整體上看,項目作為中央的科層化機制和地方的市場化機制中間協調運作的平衡點,成為中央政府和地方政府間聯繫的重要橋樑,更有利於提高治理效率,更加傾向市場化,它能一定程度上降低地方行政組織的運作成本,獲得最大效益(尹利民,2015)。但是,項目制也有自身不可避免的缺陷,項目制運作中的靈活性和不確定性是對強調穩定性和規則性的科層制的直接對抗,兩者的運作機制常常會出現一定的背離。如果一個項目獲得中央完善的資金和資源的配套支持,地方的發展積極性會明顯增加,但這並不意味著中央如果想推動項目的落實,就一定要進行大手筆的投入,「跑部進京」等現象的出現就是激勵作用的變質後果。項目的完成質量與數量直接和政府官員的績效評定掛鉤,地方政府官員為了給自己一份「靚麗的工作成績報告」,爭取晉陞的機會,往往會忽視地方真正遇到的民生建設問題,不斷到中央「跑項目」、「拿資金」、「搞關係」,其中往往不可避免地會出現「權錢交易」、「討價還價」等不良現象。

「大數據」技術的公共行政領域引進很大程度上也是「項目制」運作過程中的具體產物。近年來,我國地方政府大力引進「大數據」開發中心,積極相應中央「大數據」行政建設號召。但是,就目前的情況看,一些地方的技術條件還沒達到「大數據」應用的技術要求,很難發揮現代信息技術的決策輔助作用,「大數據」中心在部分省市甚至流於形式,而缺乏有效地使用,造成了資源的浪費。實際上,很多地方政府引進「大數據」技術的政治行動邏輯並不是完全出於推動公共行政決策水平的上升,而是考慮到政績工程建設的需要,從中央爭取更多的地方建設項目,獲得中央的財政支持,緩解地方的財政壓力,爭取一份「靚麗的工作成績報告」,獲得更大的晉陞機會,和中央政府搞好關係。

項目制並不是中國未來最好的治理模式,只是我們國家在特定時期的特定歷史背景下做出的暫時性最滿意的選擇,即項目制對初步建立社會主義市場經濟體制的中國來說只是一個「權益之計」。「項目制」下的公共行政領域「大數據」技術引進就有更大的商榷空間了。

(二)「大數據」技術和我國政府的政治責任

中國歷史學家黃仁宇先生曾在其專著中提到,當一個國家尚不能用數目字進行有效管理的時候,這個國家的治理模式並不能和市場經濟的發展實現有效契合,國家的現代化不能有效實現(黃仁宇,2014)。所謂「數目字管理」,具體指的是政府將整個社會資源整合進一個數字化的記錄系統,實現社會資源在如實計算基礎上的自由流動和交換,從而推動財富的創造和積累,這是資本主義商業社會、也是現代社會存在的前提條件和重要基礎(陳心塵,2012)。黃仁宇先生提出「數目字管理」的概念,是基於對我國古代封建官僚制的深入分析而提出的觀點,目的是借我國古代歷史為當代政府的治理現代化提供發展根據。

「數目字管理」形式的出現和市場經濟的發展需求密切相關。一方面,市場經濟要求市場交易過程理性化、可預測,數字為市場經濟提供了必要的貨幣形式基礎,「數目字管理」是一個國家市場經濟發展的現實需要。另一方面,市場經濟要求建立法治型的官僚制以此獲得最高的效率,實現行政組織運作的理性化,因此可以計算的規則對於官僚制最重要(韋伯,2012),「數目字管理」也是市場經濟背景下現代官僚制發展的必然要求。就本質來說,「大數據」技術是官僚體制內「數目字管理」的新形式,它的引進是信息時代下政治理性化發展的必然要求,其出現符合市場經濟發展的歷史必然性,也符合公共行政治理的發展需求。當代中國,改革開放以後,隨著市場經濟的建設不斷深入,我國政府也開展了政府社會治理模式的創新,官僚體制改革中不斷引入市場經濟的理念,提升治理的效率。我國政府十分重視量化管理模式的引入,中央和地方政府對「大數據」技術的高度重視就是深化「數目字管理」具體的表現之一。誠然,「大數據」技術作為新型的政府決策技術依據之一,有助於推動民主決策、分析預測的發展,但是在一定程度上也很可能成為政治責任躲避的新工具,而這一點卻是黃仁宇先生對「數目字管理」的認識缺陷,也是目前學界對「大數據」技術在公共行政領域引進的認識缺陷。

首先,「大數據」技術是基於足夠量的數據,以計算機技術為依託,做出一定的判斷與預測,但這種技術提供的決策參考往往是偏全局性的、理論層面的、計算機模擬層面的參考,但社會治理的實際情況往往複雜多樣。「大數據技術」得出的決策報告和複雜的現實情況仍有一定的差距,這種差距最終很有可能導致設計目的和實踐方向的背道而馳。

其次,在傳統的官僚制中,我國基層政府主要處理的是技術性、操作性的工作,對上級的官僚負責,當出現政治決策錯誤的時候,承擔的是有限的政治責任;我國的高級地方政府以及中央政府主要處理的是國家和地區發展的全局性、整體性工作,當出現政治決策錯誤的時候,承擔的是無限的政治責任。政治責任是承擔是官僚問責制的必然產物,政治責任的大小是行政處分的考量指標,直接關係官員的政治發展前途。引進「大數據」技術後,政府制定的政策有了更多「合法性、科學性」的依據,當決策在實際操作過程中遇到困難,甚至是決策發生巨大的副作用的時候,原本應該由政府承擔的政治責任實際上不再全部由政府官員承擔,其中一部分的政治責任能比較容易通過「大數據」技術成功推責。面對國家權利機關和社會的質疑,政府只需要對外宣稱決策是依照「大數據」分析的結果而制定的,即決策錯誤是由於計算機計算判斷預測的錯誤而非政府人為的決策錯誤,國家權利機關和社會也很難對政府做更多的批評指責。「大數據「時代下,政府政治責任的不當轉移對我們的官僚問責制來說是新的挑戰,是不能迴避的深層次問題。

(三)「大數據」技術和我國的「全能型」政府角色

學者鄒讜先生,曾在其著作中提出我國政府的「全能型」政府角色,治理中體現的全能主義傾向,所謂政治全能主義,具體指的是政治機構的權力可以隨時無限制侵入和控制社會每一個階層和每一個領域的指導思想(鄒讜,1998)。這種政府角色的形成與我國建國後的發展歷史有關,是我國計劃經濟時代的遺留物,即單位制發展下的必然產物。誠然,全能型的政府有其自身的發展優勢,能在短時間內集中力量辦大事,推動我國在面對內憂外患的時候快速實現工業化和經濟發展,為我國社會主義新生政權的鞏固提供巨大的動力保障。但是,這種政府角色也對國家的現代化轉型和民主發展帶來巨大的阻力,全能主義政治的基本特點是這個社會中沒有一個政治權力機構不能侵犯的領域,這個社會中個人或群體的自由和權利沒有受到道德、民意、法律、憲法的保護,他們的自由活動範圍的大小和內容是政治權力機構決定的(鄒讜,1998)。「全能型」政府的過度膨脹很大程度上會造成大眾政治參與的減少,扼殺基層的民主力量培育,讓社會力量和市場力量得不到充分的保護。

儘管改革開放以後,我國政府針對單位制進行了一系列的改革,「服務型」政府的理念不斷強化,但還沒能實現政府角色的完全轉型,很多的公共行政理念仍然沿襲傳統的計劃經濟時期的落後理念。出於對國家安全和社會穩定的考慮,我國政府往往在社會的很多方面仍然實施較為全面的介入和管控,承擔了很多原本應該由市場或社會承擔的職能,造成了行政效率低下、行政資源的浪費和一系列政府失靈的問題,這並不利於我國社會力量的培育和市場競爭力的上升,既不符合當代國際公共行政改革的趨勢,也會給一個國家的長期健康發展帶來相當的阻力。

信息時代下,「大數據」技術作為新型的公共行政管理決策工具,在廣泛收集社會和公民生活數據的同時也會隨著信息技術在社會中的進一步普及,給公民的隱私權保護、市場的信息安全帶來嚴峻的考驗,公民的自由保障將受到前所未有的挑戰。如果「大數據」技術沒有得到恰當的引入,沒有被一個角色符合社會良性需求的「服務型」政府使用,還是作為「全能型」政府的技術工具,就會在很大程度上加劇我國政府進一步管制社會的全方面,進一步扼殺市場和社會的力量,從而進一步固化我國傳統的「全能型」政府角色,這與我國民主政治發展的初衷背離,也不利於公共行政基本價值的維護與政府善治的有效實現。

(四)「大數據」技術的公共行政領域實踐總結

儘管筆者基於政府治理模式、政治責任和政府角色的視角對「大數據」技術的公共行政領域實踐進行了一定的分析,指出了「大數據」技術在推動我國政府決策科學化的同時,也不可避免地帶來一些深層次的、短期內看不見的伴隨公共行政體系實際運行而產生的結構性副作用,但就目前國內外公共行政領域的發展潮流來看,「大數據」技術是信息時代發展到一定歷史階段的必然產物,國內外政府都在對此做積極的嘗試和運用。雖然它和公共行政領域發展需求的契合有一定的難度,也可能帶來更多的社會治理問題,但它被我國政府引入到公共行政領域是歷史發展的趨勢,不可逆轉,不可迴避,否則就將落後於世界政府改革的前沿。「大數據」技術的應用是公共型行政理性化的具體要求,但是如何讓「大數據」真正發揮其對民主政治發展的良性作用,而不陷入韋伯的「過度理性化牢籠」?如何讓「大數據」技術不成為政治責任推卸的借口,不成為「全能型」政府管控社會的新技術手段,不作為「項目制」下的政績工程而空有其表?如何讓我國的民主、自由、正義等公共行政基本價值如何在「大數據」時代得到有效落實,最終實現我國政府的善治?「大數據」技術的公共行政未來走向值得做更深層次的思考。

五、
「大數據」技術的公共行政領域未來走向

筆者認為,從理論上來說,就公共行政領域的「大數據」技術基本認識來看,學界和政府必須明確:在公共行政領域,「大數據」技術是手段,而不是目的。未來「大數據」技術要進一步的發展,公共行政的基本價值必須得到一以貫之的堅持,換句話說,自由、民主、公平、法治等基本價值不能被「大數據」的洪流侵吞。公共行政領域在「大數據」的發展永遠需要的是價值理性的指導,而非工具理性的束縛。此外,「大數據」技術還要結合公共行政領域的發展趨勢,開展更多有益的改革嘗試。

美國學者蓋伊認為,政府未來的各種治理模式中有一條參與型公共管理的發展路徑。政府部門對決策的權利過分壟斷是政府失敗的重要原因,也不符合公共行政善治的實際要求;要讓政府的功能得到更好的實現,最好的方法是鼓勵那些一向被排除在決策範圍外的政府組織成員,例如公民和社會組織等主體,使他們有更大的平等的個人和集體參與空間(蓋伊,2001)。這給了我們信息時代下「大數據」在公共行政領域發展的巨大啟發,因為「大數據」的發展基礎和參與型公共管理的模式之間有很強的契合度。參與型公共管理,不是對公共管理的語意重複,也不是對「公共管理視角下的公民參與」進行簡單再包裝,它隱含著一種「公民、組織、環境」的結構性和整全性變革,公民在這種新公共管理模式中,是與組織、環境這兩個要素相互適應、相互調整,並在這種持續地相互適應調整中,實現一種合作共享式的管理(王科,2010)。隨著信息技術的不斷進步和發展,網路問政的技術條件不斷進步,我國公民的民主參與意識得到巨大的上升。近十年的公民網路參與實踐證明了現階段在我國政府與公民完全可以通過互聯網上的交流、協商與合作實現良性互動,為構建更加民主的決策過程和公共治理而共同努力(王法碩,2012)。這為「大數據」時代下參與型公共管理的發展提供巨大的發展空間。「大數據」的應用,能在短時間內彙集更多民眾的意見,讓更多的主體參與決策過程,最終推動整個決策過程的發展,即「大數據」技術是實現參與型公共管理的技術保障。

更進一步看,「大數據」技術應該用於配合政府信息公開、民意研究的工作而非成為侵害個人自由,損害個人基本權利,實現政治控制的技術手段。結合「大數據」技術的公共行政應該憑藉更加強大的技術手段更加積極地回應社會需求,為公民的民主參與提供更加暢通寬廣的渠道,培育民主社會力量,實現向參與型公共管理髮展模式的轉變,最終實現智慧公共決策。所謂智慧公共決策,指的是以大數據驅動為核心,以新一代信息技術為支撐,以公共利益最大化為目標,具有全面感知、客觀透明、實時連續、自主預置和多元共治等特徵的一種全新的公共決策模式(胡稅根、單立棟、徐靖芮,2015)。最終實現智慧公共決策,才是「大數據」時代下公共行政領域的未來走向,這既符合我國的發展實際情況,也和世界公共行政領域的改革需求相對接。

參考文獻:

(1)
孟小峰、慈祥,大數據管理:概念、技術與挑戰,計算機研究與發展,2013年01期

(2)
維克托·邁爾·舍恩伯格,大數據時代,浙江人民出版社,2013年版

(3)
金曉彤、王天新、楊瀟,大數據時代的聯動式資料庫營銷模式構建——基於「一汽大眾」的案例研究,中國工業經濟,2013年06期

(4)
劉丹、曹建彤、王璐,大數據對商業模式創新影響的案例分析,創新與創業管理,2014年01期

(5)
Boyle
M,Best buy』s giant gumble,Fortune,2006年第4期

(6)
李文蓮、夏健明,基於「大數據」的商業模式創新,中國工業經濟,2013年05期

(7)
張蘭廷,大數據的社會價值與戰略選擇,中央黨校,博士,2014

(8)
宋若濤,大數據與政府公共管理決策探析,新聞傳播,2014年13期

(9)
國務院,國務院關於印發促進大數據發展行動綱要的通知,國發〔2015〕50號,000014349/2015-00145,2015年09月05日

(10)廣東省政府,廣東省實施大數據戰略工作方案,2012年11月

(11)靳濤,兩大經濟思潮的碰撞與演進——歷史學派和奧地利學派的思想追蹤及對現代經濟學的影響,江蘇社會科學,2005年06期

(12)西蒙,美國政治科學評論,1952年第2期

(13)沃爾多,美國政治科學評論,1952年第2期

(14)王崢嶸,大數據時代公共管理的變革啟示,中國西部科技,2014年12期

(15)陳碩,分稅制改革、地方財政自主權與公共品供給,經濟學(季刊),2010年04期

(16)尹利民,也論項目制的運作與效果——兼與黃宗智等先生商榷,開放時代,2015年02期

(17)黃仁宇,中國大歷史,上海三聯出版社,2014年版

(18)陳心塵,警惕「數目字管理」的異化,東方早報,2012年8月9日

(19)韋伯,支配社會學,廣西師大出版社,2012年版

(20)鄒讜,二十世紀中國政治,牛津大學出版社,1998年版

(21)B·蓋伊·彼得斯,政府未來的治理模式,中國人民大學出版社,2001年版

(22)王科,論公民參與型公共管理模式及在中國的構建路徑,吉林大學,博士,2010

(23)王法碩,公民網路參與公共政策過程研究,復旦大學,博士,2012

(24)胡稅根、單立棟、徐靖芮,基於大數據的智慧公共決策特徵研究,浙江大學學報,2015年03期


推薦閱讀:

2017 年最令你震驚、悚然的數據是什麼?
uber幽靈車技術上是怎麼發生的?
做產品時想利用用戶行為數據分析的結論來優化用戶體驗,該收集用戶的哪些行為?

TAG:數據挖掘 | 數據分析 | 大數據 |