通過數據挖掘你有過哪些意想不到的發現?

本題已加入圓桌 ? 數據挖掘應用,更多「數據挖掘」相關的話題歡迎關注討論


先上一張圖。

這是我用模糊關聯規則挖掘演算法從芝加哥12-17年的犯罪數據中得到的「不同犯罪種類在同一個月,同一治安區域下的相關關係圖」(純屬論文碼累了瞎玩的,大神們輕噴)。

其中,每一個箭頭都表示一條規則, 物理意義是:

前件出現時後件出現的頻率會上升至少0.5倍,即Lift=1.5

前件出現時後件出現的頻率會達到至少70%,即Confidence=0.7

前件和後件在數據中同時出現的頻率至少為5%,即Support=0.05

而圖中的low, normal, high代表的是「該犯罪在該治安區域內,相較於其他月份,本月發生的次數偏低、正常或偏高

先說點我覺得有意思的結論,之後簡要說一下方法:

  • 性犯罪可能是治安好壞的一把鑰匙
  • 大家看看圖上那幾個類似於太陽般往外放射的點,當性犯罪發生程度低時,其他各類犯罪程度正常或偏低的頻率都會大幅度上升(LFIT=1.5),而且很高(CONFIDENCE=0.7),說明性犯罪和這些犯罪之間可能隱藏著什麼。有沒有可能嚴打性犯罪是提高社區治安水平的一種極其高效,事半功倍的手段?(大家注意我這是疑問句,相關性不等於因果性,相關性不等於因果性,相關性不等於因果性,重要的事情說三遍,這只是我的初步設想,需要有興趣的領域專家來進一步驗證)

大致說一下方法

  1. 數據來自於這裡Crimes in Chicago | Kaggle
  2. 首先,確定屬性全集,即所有犯罪種類,數據裡面有犯罪種類編號,很方面就處理出來了
  3. 然後,把所有屬於同一個月同一個治安區域的犯罪記錄放一塊,統計每一塊中每種犯罪的發生次數。
  4. 接著,針對每個治安區域,我們就得到了每一種犯罪在該治安區域不同月份下的發生次數。我們按照這個來設計該犯罪在該區域發生程度高中低的模糊隸屬度。大致是這個意思,具體有點複雜,不細講了,有興趣的可以私信討論。
  5. 有了隸屬度以後,就可以建立模糊事務數據集,每條事務代表一個治安區域和一個特定的月份,事務中的事件就是犯罪種類發生程度的高中低,高中低的隸屬度就是用步驟4裡面的方法算出來的。
  6. 最後,就可以用模糊關聯規則挖掘演算法開挖了。

與其類似的是下面這個回答

https://www.zhihu.com/question/62436003/answer/204337088

-------------我的其他回答---------------

https://www.zhihu.com/question/61330483/answer/205568206

9DarkOldAncestor:訓練一個樸素貝葉斯分類器的訓練量應該怎麼估計?

9DarkOldAncestor:數據挖掘如何從挖掘事實(fact)成長為挖掘洞見(insight)?

9DarkOldAncestor:目前流行的關聯規則演算法有哪些?

9DarkOldAncestor:頻繁模式挖掘和序列模式挖掘是同一概念嗎?

9DarkOldAncestor:研一下學期,初入數據挖掘坑,實驗室非相關方向,如何自己搞數據挖掘?

9DarkOldAncestor:進化計算在雲計算和大數據中的應用有哪些方面?


發現大部分數據挖掘靠調參玄學_(:3」∠)_

----------------------------------下面是吐槽分界線-------------------------------------

當年我第一接觸神經網路,一直對層數和節點數的確定耿耿於懷,查資料說經驗公式,問老師說隨便試試。。。我知道現在大概有很多新方法解決這個問題,但是講真那一瞬間我對機器學習數據挖掘的印象就是玄學。。。

然後研究生階段做深度學習演算法的並行化研究,發現大部分演算法都無法解釋學習到的參數的意義,有沒有誰來對深度學習演算法學習的參數挖掘下信息。。。(應該有,但是大概因為搜索關鍵字的問題我沒找到有效的相關研究信息,哪位大神知道告訴我一聲我去看看)

現在博士生階段做度量學習,某種程度上是想找最有意義的映射空間所代表的規則或模式,然而學習出來的各種無規律輸出和參數。。。讓我和我的導師都想放棄思考,只做數據集上的應用比較優劣。。。


說一個大家都知道的事實:

之前在做某個業務的時候,發現準確率能夠保證,但是無論怎麼調整模型都發現覆蓋率始終上不去。後來實在沒轍,手動去查看了正負樣本,最後把正負樣本裡面的臟數據全部剔除,然後重新訓練了模型。突然發現不僅準確了能夠保證,連覆蓋率也往上漲了不少。結論其實就是:數據處理真的佔據數據挖掘的絕大部分工作,數據和特徵有的時候更加重要。


記得印象特別深刻的一次數學建模,給的數據是某市政府給的近十年空氣質量監測數據。

要求我們設計模型,檢測出哪些數據是政府人為編造的...

————————真相分割線————————

故事的最後,那個市的空氣質量管理系統高管紛紛落馬,還給該市居民一片蔚藍的天空和甜美的空氣。

——————————————————————

恩,幻想很美好。

我們要做的也只是建立系統模型檢測有哪些年份月份數據異常,造成異常的因素和權重之類~

有時候人為調整也只是為了那些數據傳輸過程中產生的誤差(延時誤差之類)

人為因素只是眾多因素中的一種,檢測出來也說明不了什麼(* ̄︶ ̄)

那次是我第一次發現原來建模還可以有這用處(  ̄▽ ̄)σ

然而並沒有化身侯亮平的衝動。


通過關聯性分析,發現超市裡和絕大多數商品關聯性最強的另一個商品是...........

塑料袋~~~?乛?乛?


之前參加kdd cup2017,抱隊友大腿,負責數據預處理,只能說數據挖掘數據預處理很重要,原始數據質量太差了

第二階段的volume prediction最後兩天分布還與已有數據完全不同,強行手算了均值才把mape降下去


通過微博分析出來了我們整個市的大學,哪個最土豪。(根據手機品牌推測)


我們確實在操縱人民幣有益於出口,給了歐美國家借口


發覺世界變得太簡單了,沒有神秘感


推薦閱讀:

什麼是大數據?
數據分析和挖掘在售電市場的應用價值點在哪兒?
信息發達大數據時代,數據能為慈善事業帶來些什麼?
大數據與雲計算時代下,供應鏈管理會發生哪些改變?
大數據技術的本質就是數據挖掘嗎?

TAG:數據挖掘 | 大數據 |