跨學科知識體系或許是殊途同歸的

05-12

最近的娛樂之一是自學R，當讀到kmeans例子時，意識到一個很有趣的事情：

這裡可以寫一篇詮釋「知識體系只是用不同方式來表達同一個事實而已」的短文。

本文分成社科和自然科學兩個知識體系，首先是社科：

心理學和行為經濟學有個說法叫做「錨點效應」，證明方法類似這樣：

將人群分組ab測試，a組展示一個東西讓你估計是否值100，並且給一個估計數。b組直接給估計數。

然後實驗結果是被問過100的組，估計的平均數更接近100。

分析原因，大致是因為人的感知能力對於「絕對值」是不敏感的，對於「比較」是敏感的，說白了就是無論你多差還是多好，永遠都有一個「鄰居家的孩子」如何如何，只對比，不看絕對值。

再舉個不恰當例子可能是，當你是一群瞪羚里的一員，一起被獵豹追，那麼你跑的快不快並不重要，重要的是，你是不是最慢的那一個。因此「重視對比，忽略絕對值」的本能，可以理解為是一種達爾文自然選擇的結果--雖然我也不太信達爾文。

回到錨點話題，既然人類天性就依賴對比，尋找對比，那麼在毫無東西可對比的情況下，一旦先入為主，心理上就會不自禁地將哪怕毫無關係的東西當作比較的出發點，也就因此導致結果的不客觀。

這個理論可以廣泛用於產品定價，面試/相親技巧等，在類似怪誕行為學，魔鬼經濟學這些典型的機場讀物里經常看到，我們知道投資人/老闆是坐飛機最多的，被影響也就最深，他們最愛問行業數據是多少，歷史同期是多少，說白了就是在努力掙脫別人的錨點，儘可能保證獨立思考。

這些論調往往稱為人類的心理和行為具備非理性的一面，理性人應該根據絕對值去做理性的判斷，好玩的是，下面我們嘗試用理性的方法來解釋一下如上內容。

現在開始自然科學部分：

最簡單的分類演算法kmeans，目標是將一堆雜亂的數據點進行分類，步驟是：

首先隨意選取類別中心點，將所有其他點歸到距離最近的中心點，形成幾個分類，當然這時候是完全亂分的。
然後重新計算每個分類群的距離中心點，再打亂所有的數據點，根據新的中心再次按照距離歸類，第二次的歸類中心點顯然比第一次亂來的會好很多，再來一次會更好，但好的幅度會減小。

以此類推，不斷重複，新舊中心點的距離會逐漸減少，最後達到預設的最小值，完成分類。
圖示比較能看清楚整個過程。

圖片來源：網路

讓我們閉上眼睛體會一下，這正是「先入為主」的錨點，當我們想對一堆雜亂的點進行分類，但毫無頭緒的時候，如果有誰拋出來任何一個分法，無論是合理還是隨機，也無論是真隨機還是假隨機，我們都可以根據這些預設錨點，不斷優化分類--也就是重新計算距離，來逐漸逼近最合理的分類。

這個幾乎是人工智慧入門中入門的簡單演算法，某種程度上還原了人類思考的模式，不僅可以解釋心理錨點，甚至還可以量化計算上文里心理學實驗的結果。

更為奇妙的是，kmeans迭代距離分類演算法，還具備對於極端值敏感，對於非凸形狀敏感，即「容易被帶溝里去」的特點，這和心理錨點更加不謀而和。

唯一的不同是，現實生活中我們沒有太多機會可以迭代重複，並不是所有第一眼誤解都有機會解釋，人生苦短，一個偏離較大的」初始錨點「或許能帶歪半生。

anyway，這就是本文想說的：知識體系只是用不同方式來表達同一個事實而已，哪怕外在看起來是如此不相干，走下去的指向，卻是殊途同歸。

最後隨意寫寫，用程序的思考模式描述一下kmeans，參數完全沒設計，看個感覺。

可以對比開頭的語言、邏輯的描述，體會一下編程思維和正常人思維的不同，是一種從原材料、零件開始重新建造世界的感覺。

而從社科的角度無論理解、領悟、思辨的多深刻，也完全比不上用代碼，像砌牆一樣實現一遍，來的感受徹骨，這是怎麼說呢，一種「形而下」天然優於「形而上」的掌控感。

//算距離，這裡可以改到n維，btw如果認不出的人請回憶一下勾股定理
getDistance(){
d=sqrt（(x1-x2)^2+(y1-y2)^2)
return d
}
//歸到某類
getCluster(){
tmp給一個極大值

for (類別id++){
if （(getDistance(x1,y1,類別中心點x,類別中心點y) < tmp)
label=該類別id
}
return label
}
//取類中心
getMeans(){
for (類別內所有點遍歷）{
取距離means

}
根據mean距離，任取三個點算出新中心點xy
return 類別中心點x,類別中心點y
}
//類中心偏移程度，抽出來方便定義更複雜的停止重複條件
getDiff(){
getDistance(類別中心點x,類別中心點y,類別中心點x,類別中心點y)
retuen diff
}
//終於開始正事兒了，隨機設中心，歸類，計算新中心，循環直到中心偏移移動小於1個單位，完成分類

kmean(){
srand（類別中心點xn,類別中心點yn）//隨機設幾個初始中心
while diff<1{
for(遍歷所有點）{
getCluster()
}
for（遍歷分類）{
getMeans()
getDiff
}

}
retuern 類別中心點xn,類別中心點yn
}

就到這了，謝謝閱讀。