什麼是可視化數據?它會有怎樣的發展趨勢和前景?
首先我不是大神,我們學校這方便做的比較多,自己本科畢業論文也是這個方向的,就啰嗦幾句。
工業界具體的前景不知道,但是現在國外有好幾個新興的公司走的都是這個路線。Tableau, Domo 發展的都很好。 高盛的總部在我們學校旁邊,每年都來招人,他們今年專門成立了一個數據分析組,要的就是那些懂數據可視化,數據分析的人。自己在國外這幾年感覺這個是在美國的IT發展的趨勢之一
在學術界,現在可視化的期刊越來越多了。亞洲的pacific vis, 北美的transition vis, 歐洲的 Europ Vis。這些都是常見的還不算上頂級的期刊。可視化在學術界的運用已近變成香餑餑了。現在誰做研究出來的數據都是好幾個GB的,需要有工具和專門的人員去做一個可視化來理解這些數據,而且很多二流的科研文章加上可視化,就可以投一流的期刊。
數據時代需要進行數據分析,我覺得data mining 或者是machine learning這些數據模型適合專業水平比較高的人。但是我們現在對數據的理解已近越來越迫切吧,需要讓很多並沒有專業背景的人了解數據就需要有人用可視化把數據轉化成圖像語言讓人更好的了解。
補充一個連接: http://vis.pku.edu.cn/research/publication/sciSinicaInfo13_visChallenges%26Opportunities.pdf 。這份報告是北大,香港科技大,浙大幾個大學牽頭和一些業界的出來關於可視化未來前景的報告。先多了解的人可以看看
工作中,無論是哪一種場景,都要接觸數據,接觸表達。數據可視化就是表達信息的一種方式,通過用圖表+數據的形式,更好的傳遞業務信息。
就目前來看,多數企業正逐漸從傳統的流程式管理方式過渡到基於數據的管理方式。這是一種必然趨勢,數據可視化能夠幫助分析的人對數據有更全面的認識,獲得更有商業價值的洞見和價值。
數據可視化就是承接數據分析之後的數據展示,包括圖表設計、動效組合,形成二維圖表,三維視圖、聯動鑽取,搭配成大屏……
數據可視化主要體現在兩個方面:一是數據展示;二是業務分析。數據展示很好理解,就是將已知的數據或數據分析結果通過可視化圖表的方式進行展示,形成報表、看板、dashboard、甚至配合現在流行的大屏展示技術,數據展示的方式也越來越為人所接受和歡迎。
強烈推薦這篇文章:為什麼需要數據可視化,實現數據可視化,需要哪幾步? - 大數據 多智時代
Data Visualization 數據可視化。
它的概念很簡單,就是將數據以視覺的表現形式給展現出來,事實上,目前來說研究這方面的專家不是很多,國內有較大的研究空間。
我們知道數據是抽象的,數據本身帶給人們的直觀印象只有它的數值本身大小,當然數據集特別龐大的時候,你甚至連大小都無從說起。於是,有了這門科學,它幫助人們認知。
有一個經典的例子,1854年倫敦爆發霍亂,在10天內有500人左右死去,在過去醫療並不十分發達的情況下,如此大規模的疾病,帶來的只有未知的恐慌,沒有知道疾病的起因,甚至是病毒的來源,直到一位流行疾病專家John Snow讓數據說話,他將死亡病例在地圖上標出,人們才發現病毒的源頭在街上的水龍頭。這幅圖的名字叫做:Ghost Map
從中可以看出,倘若你只有死亡人員的地理數據,不去將它可視化,那麼它傳達的信息就會是有限的。
這是倫敦地鐵圖的可視化,這種地鐵圖的畫法一直被人學習。
還有一個我比較喜歡的例子是Twitch遊戲直播平台對於遊戲直播用戶的可視化案例,這是可視化的一種,強調的是點和邊的一些特徵,比如點的度代表活躍性,邊代表聯繫。
類似的有Facebook的社交圖譜。
你能想到這些線是怎樣聚合的嗎?如果邊的數目無比龐大,如何避免數據顯示的時候過度重合影響視覺效果呢?
我也在過去一段時間對微博的用戶嘗試進行了數據的挖掘,大概上千萬條微博,將分享定位的用戶從中提取了出來,同樣的也是只是地理信息,而且更加的抽象只是經緯度。
於是我把數據映射到了地圖上
你可以很清晰的看出喜歡分享定位的用戶都是在哪裡曬出的自己的位置,他們大部分是在北京,上海,廣東,而且台北和首爾,東京也同樣有不少人曬出自己的旅行地點。
還有一個數據不必可視化了,那就是男女比例,1:2。
現在數據可視化的研究多種多樣,總是有一些人能想像出非常優秀的數據可視化案例,這個真的很能說明一個人的創造力的,而且很多人喜歡創造自己的可視化工具,比如:
D3 利用JavaScript進行可視化,無需考慮平台問題。
Plotly 提供R Python 多個編程語言的介面。
matplotlib Python 可視化經典的工具。
Google chart google的可視化平台。
其實,我對於不少可視化工具很反感,但是國內的寫文章的人總是有人翻來覆去的說,一個優秀的可視化工具我覺得要滿足兩點:
1.介面簡單,而且輸入多樣化,可以滿足各種需求。
2.搭建簡單,如果某些工具要一大堆依賴,配置,工具有一大堆冗餘的功能,這個作者是失敗的。
可視化並不是單獨的一門學科,它是對於計算機圖形學和統計學等一些學科的更深層次的延伸,比如說社交網路的圖譜應用到了很多圖形學的邊演算法,當然,很多時候是和數據挖掘關係最緊密,因為前者是為後者提供數據,後者是為了更好的展現數據。
數據可視化是和數據挖掘不可分割的,可視化作者想要表達的側重點對於可視化的傳達結果是有直接關聯的。也就是說,當數據本身的特點與規律並不明顯的時候,你需要進行大量的測試與研究來探尋出數據的規律,之後才能傳達出正確而且有規律可循的可視化圖案。
而這些是作為一個數據挖掘研究人員最為頭疼的地方,也是最能看出實力的地方。
---
先談這些。(怎麼總是內容超出限制!!)
同問呀,但似乎知乎上沒有多少做數據可視化的大神來回答
推薦閱讀:
※如何評價余佳文?
※Google 最重要的 5 款產品是什麼?
※什麼是知乎「機構號」?哪些機構可能進駐知乎?會帶來什麼樣的影響?
※豆瓣推出「豆瓣條目」目的是什麼?潛在用戶是哪些?潛力大嗎?
※大眾點評是否已經開始退步?