L-Softmax loss 與 A-Softmax loss到底有什麼不一樣？？

01-14

L-Softmax loss 與 A-Softmax loss到底有什麼不一樣？？
大家如何看待A-Softmax loss？

A Softmax更有幾何可解釋性，詳細見個人博客：https://www.cnblogs.com/heguanyou/p/7503025.html。

簡答如下：

A-Softmax與L-Softmax的最大區別在於A-Softmax的權重歸一化了，而L-Softmax則沒的。A-Softmax權重的歸一化導致特徵上的點映射到單位超球面上，而L-Softmax則不沒有這個限制，這個特性使得兩者在幾何的解釋上是不一樣的。如圖10所示，如果在訓練時兩個類別的特徵輸入在同一個區域時，如下圖10所示。A-Softmax只能從角度上分度這兩個類別，也就是說它僅從方向上區分類，分類的結果如圖11所示；而L-Softmax，不僅可以從角度上區別兩個類，還能從權重的模（長度）上區別這兩個類，分類的結果如圖12所示。在數據集合大小固定的條件下，L-Softmax能有兩個方法分類，訓練可能沒有使得它在角度與長度方向都分離，導致它的精確可能不如A-Softmax。

圖10：類別1與類別2映射到特徵空間發生了區域的重疊

圖11：A-Softmax分類可能的結果

圖12：L-Softmax分類可能的結果

L沒做歸一化操作，A做了歸一化操作（特徵）