你從數據中發現了哪些奇妙的不為人知的知識或者見解?

數據中隱藏了很多原本想不到,意識不到的,有沒有在做什麼分析的時候產生:真沒想到、原來如此的感覺呢?


我們在做數據分析之時,經常會遇到一個問題?(看到最後有下載)

老闆沒有設主題的讓我做一份數據分析,沒思路怎麼辦?

(對了,老闆已經設主題讓你呈現數據的時候,這叫取數,不叫數據分析)

那我們必須做一些探索性的分析了,這跟挖礦一樣,挖了幾百次都是石頭,僅有一次是金子。

包括我自己,出一份數據分析報告的時候,做過N次失敗的假設,這個老闆是不會知道的。

接下來我就寫個簡單的探索性分析(簡單的意義是,你看完你也能做出來)

假如我的公司是一個類似於阿里1688的平台,各個小微物流公司可以在我的平台上互相交易。

那麼我想看看每個客戶往來交易的特徵關係,但是我沒有任何分析思路,我總結不出特徵。

我也不會機器學習,也不會調用python的任何庫。

別擔心,我們來開始探索

看到這張圖時,我覺得很有趣,我也想把各個用戶的交易或者社交用線畫出來

那麼我先在資料庫里取一份有涉及相關欄位的數據源。

做出是這樣子的?你逗我?

用戶代表每個點,密密麻麻,看不出任何關係,就好像我們面臨一堆數據,暈了。

我設了幾個維度做探索分析,

同一個路由下 用戶之間的交易關係

同一個地區/分公司 用戶之間的交易關係

如果你是社交分析(你可以從同一個地區、同一個時間點、共同用戶、同一個話題做關係分析)

一、我們先來看路由維度下的探索(關鍵點,數據分析需要不斷嘗試細節)

我們從條形圖看到AKI公司的連接數量最多

就從這裡開始,我查了下它是經營合肥-蘇州這條路由

發現這條路由,他一家企業連接各個公司,95%都跟他是單點交易,會不會覺得很奇怪?

做個比方:在某市,A跟這個地區的人都有在微信聊天,95%的人除了認識他以外,誰也不認識。

下面的紅線代表交易最頻繁的。

我們設想下,如果這家AKI公司退出了平台,那這條路由是不是就廢了,因為沒法交易了呀。

那我們再看看其他路由是不是也都這樣?

發現大部分都是上圖這樣的,每個路由下都是相對穩固、錯綜交互的網路。

所以我們掌握了一個特徵:找出存在單點隱患的各個路由,然後提出業務建議,

a.幫扶同個路由下的其他公司成長,不能讓這家AKI一家獨大。

b.可以跟AKI類型的公司簽訂戰略協議,穩穩抓住這些大魚。

數據一定是要配合著做業務決策才有價值。

二、我們先來看分公司/同個地區維度下的探索(關鍵點:數據分析遇到盲點時,最有效的方式是問業務人員,了解實際狀況)

我們設想下每個地區,肯定有關聯密切的那麼幾個人,就好像做生意一樣,都會抱團。

或者拿知乎的數據話題板塊下,一定是回答前面的這幾個人有互相聯繫。

所以我把從地區的維度分析,發現這七家排在前面的公司,都有相互往來交易

為了確定這事實,我實地打電話給了西安的相關業務人員,查明是否這個原因。

發現還真的是和我做數據的推理結論是一樣的。

我剛好有一個業務,是推薦平台的公司做貸款,也就是向我們平台借錢,做生意嘛,總要需求貸款,

發現這七家裡面,空白白白白物流和雲舒物流都有貸款記錄

貸款的要麼是想做大,要麼是資金周轉困難。

那這些關係密切的上下遊客戶肯定也遇到這種狀況

還是一樣道理,找到這個特徵之後,就在不同地區試一遍,

那麼我可以建議業務人員按照這種特徵把貸款推薦給類似這五家的公司。

如果業務人員認可,我整理好公司名稱給到業務人員

這就是一個入門版的探索分析的過程,不用機器學習,也能尋找特徵。

分析的過程肯定要不斷的嘗試,並且多跟業務人員溝通,保證你的分析準確可執行。

最後,鏈接:https://pan.baidu.com/s/1qXW8AFa 密碼:dg1n 分享出來,只需要十分鐘就能掌握,關鍵還是思路。

對了吐槽一句,寫的有關數據分析的回答現在都幾十個贊,爆個照寫個情感問題能上千。

這樣怎麼支撐我繼續寫下去?


《三國演義》作為古典四大名著之一,描寫了東漢末年到西晉初年將近105年的歷史。該書用不算太長的篇幅描寫了眾多鮮活的英雄人物在歷史大變革時代中的不同命運,用一百二十回的文字描繪了一幕幕氣勢恢宏的戰爭與外交鬥爭。那麼問題來了,羅貫中是如何在有限的篇幅內,安排下如此之多的人物,描繪了如此長的一段歷史故事呢?

在回答上面那個問題之前,我想先說一段題外話。之前在知乎上看到有人提問:「為什麼感覺《三國演義》的謀略比《冰與火之歌》更厲害,而後者更加殘酷?」有一個用戶的回答很有意思:「《三國演義》寫歷史大局中的命運,《冰火》寫人物攪動的紛爭」。沒錯,《三國演義》寫的就是歷史的大局變化,而《冰火》更加註重對人物細節的描寫,這導致讀者在讀《三國演義》時,很容易忽略掉其殘酷的細節,同樣導致了後者篇幅數倍於前者。現在我們回到我們之前的問題,羅貫中是如何用較短的篇幅安排下對歷史大局變化的精彩描寫呢?答案其實很簡單,那就是羅貫中對於時間快慢的安排,在描寫重點情節如赤壁之戰時,時間會變慢,在描寫非重點情節如姜維征伐中原時,時間會加快。120章回時間快慢的具體表現如下圖所示:

在上圖中,橫坐標為各個章回編號,縱坐標為時間。從圖中可以看出《三國演義》在開頭與結束階段,時間均過的很快,在中間階段,時間才變得緩慢下來。之前有人說《三國演義》的靈魂人物是諸葛亮,在諸葛亮出場前,時間過得很快;在諸葛亮死後,時間又開始過的很快;諸葛亮活躍的時候,時間才會慢下來。這一說法到底對不對呢?我們來驗證一下。

上圖第一個節點為諸葛亮出場章回,第二個節點為諸葛亮死亡章回。從上圖可以看出,諸葛亮控制《三國演義》中時間流逝速度這一說法基本是對的。但是,從上圖還可以明顯看出,在諸葛亮出場之前,還有大段時間進行速度也較為緩慢,而在諸葛亮去世後,也還有那麼幾個章節時間流逝也較為緩慢。這也就是說,諸葛亮並不是以一己之力控制著《三國演義》中的時間,那麼,在諸葛亮前後控制本書時間速度的人到底是誰?

為了分析諸葛亮的兩個控制時間的助手到底是誰,還應該定下一個標準,即這兩個人應該都是本書出場率較高的主角之一。某個小兵雖然也能在三國存活較長時間,但是小兵明顯不具備控制時間快慢的能力。基於這一標準,我首先對《三國演義》中各個人物名與字出現次數做出統計,並取出場次數前二十名的人物進行分析。

在對這二十人出場與離場節點進行分析後,我們發現了和諸葛亮一樣具有影響時間快慢能力的兩人竟然是與諸葛亮沒有交集的兩個人——袁紹與鄧艾。

從上圖可以看出,袁紹出場後,本書的時間進行基本呈現一種線性增長的方式。在袁紹去世後,時間的進行速度突然失控,直到諸葛亮出場才讓時間的流逝速度再次穩定下來。諸葛亮以一己之力,控制書中的時間穩定了六七十回,佔據了本書篇幅的一半以上,而在諸葛亮去世後,書中時間再次進入無人管控狀態而飛速增長。直到鄧艾出場後,時間才最後一次穩定下來。在鄧艾去世後,時間再次飛速增長,直到本書結束。

這三人雖然不一定全部是本書的一線主角,但是卻毫無疑問都是本書重要劇情的關鍵串聯人物。諸葛亮自然不必多說,袁紹基本與本書的前期劇情一直有很強的關聯,從討伐董卓到群雄逐鹿再到官渡之戰,袁紹均是其中的重要力量;鄧艾則率先進入成都,使得蜀漢滅亡,可以說是本書大後期最重要的角色。

時間變慢才能描寫細節,而只有重要事件才值得羅貫中在分秒必爭的書中暫時停頓下來,去細細描寫。重要事件需要人物去推動,因此,這些人物才成為《三國演義》中時間快慢的操控者。

最後再發一張意外發現的圖:

三兄弟同時出場,又在本書中的77,81,85回,以同等間隔相繼去世,不得不讓人唏噓感慨一番。

更多有趣的數據分析文章可以關注下我的知乎專欄:彩色說。


謝邀!

同樣是給2萬的公眾號粉絲髮一條消息(時段基本相同,用戶屬性基本相同):

第一次標題是:提醒:你有價值5999元的編織課程有待免費領取……

第二次是:在嗎?,你有價值5999元的編織課程尚未免費領取……

第三次是:【提醒】你有一個編織課程禮包尚未免費領取,限時48小時……

大家猜猜這三個標題發送出去,最終那個標題帶來效果是最好的?

不賣關子了。
第一個標題,只加了30個粉絲
第二個標題,加了167個粉絲,前者的5倍還多
第三個標題,加了400個粉絲,是標題1的10倍還多。

都說人性很難預測,大數據無法預測人性。但是,人性中存在的一些共性,卻是可以通過數據來反饋的,你說是不是?


就在看完任大炮的演講之後

我似乎有點了解數據分析師和數據專員的區別了。

人家標題問的是數據,數據,數據。。。。

--難道任志強不是說的數據么?


聽講課聽來的。

話說某省公安廳和大學合作,對手機通信方做了大數據分析,發現了一些號碼組,這些組裡的手機號碼,主要只和組內的號碼聯繫,幾乎不對外聯繫。一組號碼可能有10個,也可能是20-30個。

主要有以下兩種可能:
1、大爺大媽,平時手機用的不多,用來相互聯繫一起跳廣場舞。

2、團伙。這些團伙為了安全起見,只內部聯繫,幾乎不對外聯繫。

好了,那麼好辦了。


在統計了一長段時間的航班延誤數據分析之後,得出了一個很反選擇民航出行的常旅客們常識的認知:
那就是只要沒有大範圍惡劣天氣和那個啥,現有中國民航的空域是完全夠用,而且可以做到全天幾乎沒有延誤的
比如國慶節那幾天全國放假兼晴空萬里,航班正常到讓我懷疑人生…
申請起飛時刻立馬就給放行,拋開航空公司飛機故障什麼的,還有機場當局地面保障原因導致的延誤,全天航班正點率將近95%~97%
但這畢竟是最理想化的狀態,同時也說明了,目前中國民航的空域壓力也就是基本剛好能滿足目前的運行極限,不能有任何外來因素的干擾。

比如在飽和運行壓力情況下稍微來點天氣或者那個啥,立馬各地航班延誤旅客鬧事視頻滿天飛…
至於什麼是那個啥
這就是那個啥…


國家統計局人口普查裡面好多數據非常有意思:
比如:2010年全國14歲以下擁有研究生學歷的人有35個。
覺得自己是天才的是因為眼界太小了,14歲我們還在學文言文,分析魯迅為什麼說「晚安」,人家都研究生畢業了。


裡面還能發現一個更完整的中國。比如:

仔細看會發現很多有意思的細節。
科技進步世界發展與他們無關,生活不僅僅是共享單車,比特幣,也有開了掛的盧本偉(小學學歷)與傳奇世界,還有3%的文盲。
如果商業在他們身上獲取不到利益,那就不會有人記起他們。
這是國家統計局的鏈接:
http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm


總體上程序員其實周末也不咋加班,或者加班也不咋幹活


【我的周末情人--豆瓣】

下圖是最近一個月的搜索量數據。豆瓣整體(PC+移動端)搜索量最高的日期如圖A、B、C、D等點所示,普遍出現在周一和周五。彷彿豆瓣是大家對於周末開始和結束的一種儀式感。另外,相對穩定的搜索量也體現了豆瓣「穩定」的地位。

下圖分別展示PC端和移動端的搜索數據,二者呈互補趨勢。工作日大家用手機和PC搜索豆瓣相關消息,可能是看電影、書或者其他,但數據量來看,仍是PC為主,嗯,可能是工作日玩手機太多不好。。。周末則用手機搜索較多,但是數據量仍是趕不上PC端。

結合下圖搜索關鍵詞看,以電影和書為主,那麼可能是周末大家的娛樂活動很多是看電影,看電影之前先看評分、搜影評;或者看完去搜評論,但是周末都是不帶PC,這樣產生了移動端的搜索量。其實大家一直關注豆瓣影評書評,不過平時偷偷摸摸PC搜,周末終於可以光明正大手機搜。

(看來非註冊用戶對於豆瓣的認識,也就是影評書評了。阿北堅持保護電影評分的生態不被破壞,這就註定了豆瓣不會有大火的一天。不過沒關係,用戶忠誠度高啊!號外號外~~豆瓣東西有賣很多可愛的書籤啊,還有小清新日曆以及布包什麼的,都還不錯誒!)

和知乎比,搜索量完全不是同一數量級,就不提微博、百度什麼的了。做不了正室,但是滿足大家書影音固定方面的需求,也是一個敬業不作妖的情人了【囧】

不過,豆瓣就是傲嬌本嬌了!在這個萬物通脹的年代,能夠不為利益吸不為吸引眼球博出位,堅守自己默默前行的網站有幾個呢?真正踐行的情懷,無價。

牛刀初試,歡迎指教。

數據來源:百度指數


做滬深300成份股的價值評估
價值大家聽的耳朵都生繭子了,但是當你自己證明它,見證它的時候眼裡都放光了。
重點當然不是價值的有效性這件事兒上。
而是當抓住價值這條線的時候,再去看整個市場,你會發現一一假設(這還用假設?)機構投資者作為市場的主導者的話,你會發現「大家」無不是在這條線上做運動,很守規矩的。大多數股票都驚人的一致,就算稍有超過但也幅度不大。

市場是部分有效的。
市場是由機構投資者主導的。
機構投資者對價值有清晰的認識。
媒體忽悠著你。
還有 預期與未來,那到底是預期與未來相符(格力)還是未來由預期塑造?
能確定的是預期變化影響著市場,以金螳螂為例11或12或13年為時間點(具體忘記了)前後的市盈率差別較大。其核心還是投資者對它的預期發生了變化。預期收益率。
預期的核心是什麼?是對企業未來發展與成長的空間(高度)的判斷。
是判斷就有黑天鵝…不黑奧瑞金。
那麼
到底是判斷與未來相符合?
還是未來是由判斷所塑造?
索羅斯說是後者。是嗎?


我國最多的星座是天蠍 射手 摩羯這幾個年末的,因為過年放假大家比較閑。


南方的倆商圈。餐飲品類的食客幾乎完全和其他品類獨立。也就是說,來吃飯的就是來吃飯的,別指望餐飲品類給其他品類引客流,也別指望其他品類給餐飲引客流。然而餐飲行業幾乎是倆商圈客流量最大的品類。


要是有錢,開個餐館一條街,別考慮加別的亂七八糟的品類,客流就妥了………………


推薦閱讀:

學習python中的pandas有沒有好的教程推薦?
寫金融學領域的論文如何搜尋數據?
怎麼才能成功預測一個行業的發展前景?從哪些關鍵數據中可以分析出來? 比如互聯網行業。
DNA 的雙螺旋結構,解開時兩端要轉很多圈嗎?

TAG:數據挖掘 | 數據 | 數據分析 | 互聯網數據分析 | 數據可視化 |