通過數據挖掘你有過哪些意想不到的發現？

12-29

本題已加入圓桌 ? 數據挖掘應用，更多「數據挖掘」相關的話題歡迎關注討論

先上一張圖。

這是我用模糊關聯規則挖掘演算法從芝加哥12-17年的犯罪數據中得到的「不同犯罪種類在同一個月，同一治安區域下的相關關係圖」（純屬論文碼累了瞎玩的，大神們輕噴）。

其中，每一個箭頭都表示一條規則，物理意義是：

前件出現時後件出現的頻率會上升至少0.5倍，即Lift=1.5

前件出現時後件出現的頻率會達到至少70%，即Confidence=0.7

前件和後件在數據中同時出現的頻率至少為5%，即Support=0.05

而圖中的low, normal, high代表的是「該犯罪在該治安區域內，相較於其他月份，本月發生的次數偏低、正常或偏高」

先說點我覺得有意思的結論，之後簡要說一下方法：

性犯罪可能是治安好壞的一把鑰匙
大家看看圖上那幾個類似於太陽般往外放射的點，當性犯罪發生程度低時，其他各類犯罪程度正常或偏低的頻率都會大幅度上升（LFIT=1.5），而且很高（CONFIDENCE=0.7），說明性犯罪和這些犯罪之間可能隱藏著什麼。有沒有可能嚴打性犯罪是提高社區治安水平的一種極其高效，事半功倍的手段？（大家注意我這是疑問句，相關性不等於因果性，相關性不等於因果性，相關性不等於因果性，重要的事情說三遍，這只是我的初步設想，需要有興趣的領域專家來進一步驗證）

大致說一下方法：

數據來自於這裡Crimes in Chicago | Kaggle
首先，確定屬性全集，即所有犯罪種類，數據裡面有犯罪種類編號，很方面就處理出來了
然後，把所有屬於同一個月同一個治安區域的犯罪記錄放一塊，統計每一塊中每種犯罪的發生次數。
接著，針對每個治安區域，我們就得到了每一種犯罪在該治安區域不同月份下的發生次數。我們按照這個來設計該犯罪在該區域發生程度高中低的模糊隸屬度。大致是這個意思，具體有點複雜，不細講了，有興趣的可以私信討論。
有了隸屬度以後，就可以建立模糊事務數據集，每條事務代表一個治安區域和一個特定的月份，事務中的事件就是犯罪種類發生程度的高中低，高中低的隸屬度就是用步驟4裡面的方法算出來的。
最後，就可以用模糊關聯規則挖掘演算法開挖了。

與其類似的是下面這個回答

https://www.zhihu.com/question/62436003/answer/204337088

-------------我的其他回答---------------

https://www.zhihu.com/question/61330483/answer/205568206

9DarkOldAncestor：訓練一個樸素貝葉斯分類器的訓練量應該怎麼估計？

9DarkOldAncestor：數據挖掘如何從挖掘事實（fact）成長為挖掘洞見（insight）？

9DarkOldAncestor：目前流行的關聯規則演算法有哪些？

9DarkOldAncestor：頻繁模式挖掘和序列模式挖掘是同一概念嗎？

9DarkOldAncestor：研一下學期，初入數據挖掘坑，實驗室非相關方向，如何自己搞數據挖掘?

9DarkOldAncestor：進化計算在雲計算和大數據中的應用有哪些方面？

發現大部分數據挖掘靠調參玄學_(:3」∠)_

----------------------------------下面是吐槽分界線-------------------------------------

當年我第一接觸神經網路，一直對層數和節點數的確定耿耿於懷，查資料說經驗公式，問老師說隨便試試。。。我知道現在大概有很多新方法解決這個問題，但是講真那一瞬間我對機器學習數據挖掘的印象就是玄學。。。

然後研究生階段做深度學習演算法的並行化研究，發現大部分演算法都無法解釋學習到的參數的意義，有沒有誰來對深度學習演算法學習的參數挖掘下信息。。。（應該有，但是大概因為搜索關鍵字的問題我沒找到有效的相關研究信息，哪位大神知道告訴我一聲我去看看）

現在博士生階段做度量學習，某種程度上是想找最有意義的映射空間所代表的規則或模式，然而學習出來的各種無規律輸出和參數。。。讓我和我的導師都想放棄思考，只做數據集上的應用比較優劣。。。

說一個大家都知道的事實：

之前在做某個業務的時候，發現準確率能夠保證，但是無論怎麼調整模型都發現覆蓋率始終上不去。後來實在沒轍，手動去查看了正負樣本，最後把正負樣本裡面的臟數據全部剔除，然後重新訓練了模型。突然發現不僅準確了能夠保證，連覆蓋率也往上漲了不少。結論其實就是：數據處理真的佔據數據挖掘的絕大部分工作，數據和特徵有的時候更加重要。

記得印象特別深刻的一次數學建模，給的數據是某市政府給的近十年空氣質量監測數據。

要求我們設計模型，檢測出哪些數據是政府人為編造的...

————————真相分割線————————

故事的最後，那個市的空氣質量管理系統高管紛紛落馬，還給該市居民一片蔚藍的天空和甜美的空氣。

——————————————————————

恩，幻想很美好。

我們要做的也只是建立系統模型檢測有哪些年份月份數據異常，造成異常的因素和權重之類～

有時候人為調整也只是為了那些數據傳輸過程中產生的誤差(延時誤差之類)

人為因素只是眾多因素中的一種，檢測出來也說明不了什麼(*￣︶￣)

那次是我第一次發現原來建模還可以有這用處( ￣▽￣)σ

然而並沒有化身侯亮平的衝動。

通過關聯性分析，發現超市裡和絕大多數商品關聯性最強的另一個商品是...........

塑料袋~~~?乛?乛?

之前參加kdd cup2017，抱隊友大腿，負責數據預處理，只能說數據挖掘數據預處理很重要，原始數據質量太差了

第二階段的volume prediction最後兩天分布還與已有數據完全不同，強行手算了均值才把mape降下去

通過微博分析出來了我們整個市的大學，哪個最土豪。（根據手機品牌推測）

我們確實在操縱人民幣有益於出口，給了歐美國家借口

發覺世界變得太簡單了，沒有神秘感