如何看待經典與前沿（熱點）？

02-05

如題。尤其是當前人工智慧領域。書上的知識是相對舊的，實時的熱點卻又是不斷更換的。如何平衡兩者關係？

我覺得，像目前的深度學習這種「日新月異」的領域，「教材」已經不再是獲取知識的最佳途徑。

在初學階段，最好是通過技術博客等資料快速摸清領域內的知識脈絡，並通過工具包的文檔掌握工具包的使用方法。在掌握了基礎知識之後，則應當去閱讀論文來追蹤前沿。

當然，這種學習方法對自學能力要求很高。

我擦哈哈哈，你說的這個就是增強學習中的典型問題。

你很可能學習一個新知識但是它是一個比較『垃圾』的知識，但是如果你因此不學新知識，只挑選經典的老知識，你就很難突破老知識帶來的回報。

首先你需要估值，比如已知的經典知識你都要對它進行一個評價打分，這是可以估計的，因為經典知識往往已經有很多的應用，可以看出這個知識在應用中的價值，能夠比較好地對這個知識進行評分。

而新的知識往往對應的應用還沒有出來，所以你在了解他之前很難對它進行評估，只有不斷學習和探索，才能夠對它有全面的評價和打分。

何時去利用已有的知識做exploitation，何時探索前沿做exploration。這種trade-off如何去做。。。

1.比較簡單的解決方案就是所謂epsilon-greedy策略。簡言之：大概率選擇估值高的action，小概率選擇其他action。改變epsilon以增加隨機程度。(類似模擬退火)

2.UCB演算法，UCB演算法全稱是Upper Confidence Bound(置信區間上界)，它的步驟如下：

先對所有action都嘗試一遍

然後，選擇下面公式較大值作為選擇
Mean(a)+[2ln(t)/T]^(-0.5)
這個公式這麼理解，前面表示了對該action的歷史均值的估計，越大越容易選擇他。起到了exploitation的作用
而後面一項中，t表示所有選擇的次數，T表示所有該action選中的次數。也就是說被選中越小的action越容易得到嘗試，起到了exploration的作用

3.Softmax

P(select i)=exp(hi/τ)/∑ exp(hj/τ)

其中，hi是選擇i的收益均值，τ是類似於模擬退火的常數，比如取值為(1/t)。如果接近於0，那麼將只選擇最好的那個，也就是exploitation；反之，如果是趨於無窮（一開始時），將均勻的選取策略，也就是exploration。與UCB比較類似，只不過處理均值與探索次數的權衡由加法變成乘法，且輸出成概率分布形式。

（逃）