如何看待經典與前沿(熱點)?
如題。尤其是當前人工智慧領域。書上的知識是相對舊的,實時的熱點卻又是不斷更換的。如何平衡兩者關係?
我覺得,像目前的深度學習這種「日新月異」的領域,「教材」已經不再是獲取知識的最佳途徑。
在初學階段,最好是通過技術博客等資料快速摸清領域內的知識脈絡,並通過工具包的文檔掌握工具包的使用方法。在掌握了基礎知識之後,則應當去閱讀論文來追蹤前沿。
當然,這種學習方法對自學能力要求很高。
我擦哈哈哈,你說的這個就是增強學習中的典型問題。
你很可能學習一個新知識但是它是一個比較『垃圾』的知識,但是如果你因此不學新知識,只挑選經典的老知識,你就很難突破老知識帶來的回報。
首先你需要估值,比如已知的經典知識你都要對它進行一個評價打分,這是可以估計的,因為經典知識往往已經有很多的應用,可以看出這個知識在應用中的價值,能夠比較好地對這個知識進行評分。
而新的知識往往對應的應用還沒有出來,所以你在了解他之前很難對它進行評估,只有不斷學習和探索,才能夠對它有全面的評價和打分。
何時去利用已有的知識做exploitation,何時探索前沿做exploration。這種trade-off如何去做。。。
1.比較簡單的解決方案就是所謂epsilon-greedy策略。簡言之:大概率選擇估值高的action,小概率選擇其他action。改變epsilon以增加隨機程度。(類似模擬退火)
2.UCB演算法,UCB演算法全稱是Upper Confidence Bound(置信區間上界),它的步驟如下:
先對所有action都嘗試一遍
然後,選擇下面公式較大值作為選擇
Mean(a)+[2ln(t)/T]^(-0.5)這個公式這麼理解,前面表示了對該action的歷史均值的估計,越大越容易選擇他。 起到了exploitation的作用 而後面一項中,t表示所有選擇的次數,T表示所有該action選中的次數。也就是說被選中越小的action越容易得到嘗試,起到了exploration的作用
3.Softmax
P(select i)=exp(hi/τ)/∑ exp(hj/τ)
其中,hi是選擇i的收益均值,τ是類似於模擬退火的常數,比如取值為(1/t)。如果接近於0,那麼將只選擇最好的那個,也就是exploitation;反之,如果是趨於無窮(一開始時),將均勻的選取策略,也就是exploration。與UCB比較類似,只不過處理均值與探索次數的權衡由加法變成乘法,且輸出成概率分布形式。
(逃)
推薦閱讀:
TAG:機器學習 | 計算機視覺 | 計算機前沿 | 深度學習DeepLearning |