keras中embedding層是如何將一個正整數（下標）轉化為具有固定大小的向量的？

01-13

word embedding首先應該是應用到NLP處理中的一個技術，但是看到有人將這種方法用在推薦系統中，這樣做的合理性在哪？

用在推薦系統中的合理性在於他們都是處理矩陣的一個手段。只是在NLP里是doc-word矩陣，推薦系統里是user-item矩陣。

keras里咋搞的不清楚。mxnet里知道，在src/operator/embeding-inl.h 里，通過lookup的方法做的。

tensorflow也是通過lookup的方法。只是tf是基於CPU實現的，mxnet是基於GPU實現的。

keras如果背後用的tf的引擎，那麼就和tf一樣。

從id類特徵（category類）使用embedding_lookup的角度來講：

1、onehot編碼神經網路處理不來。embedding_lookup雖然是隨機化地映射成向量，看起來信息量相同，但其實卻更加超平面可分。

2、embedding_lookup不是簡單的查表，id對應的向量是可以訓練的，訓練參數個數應該是 category num*embedding size，也就是說lookup是一種全連接層。詳見 brain of mat kelcey

3、word embedding其實是有了一個距離的定義，即出現在同一上下文的詞的詞向量距離應該小，這樣生成向量比較容易理解。autoencode、pca等做一組基變換，也是假設原始特徵值越接近越相似。但id值的embedding應該是沒有距離可以定義，沒有物理意義，只是一種特殊的全連接層。

4、用embedding_lookup做id類特徵embedding由google的deepwide提出，但隱藏了具體實現細節。阿里第七章人工智慧，7.6 DNN在搜索場景中的應用(作者：仁重) 中提下了面對的困難，主要是參數數量過多（引入紫色編碼層）和要使用針對稀疏編碼特別優化過的全連接層( Sparse Inner Product Layer )等。

5、在分類模型中用這種id類特徵，主要是希望模型把這個商品記住。但id類特徵維度太高，同一個商品的數據量也不大，因此也常常用i2i演算法產出的item embedding來替代id特徵。

發現樓上幾位有些理解有偏差，我把我的理解說下，大家可以探討：

Embedding 層可以參考word2vec 或 glov 演算法原理，利用單層神經網路做詞的向量化，一般來說輸入為word 在字典中的位置（一般不用one-hot），輸出為向量空間上的值。

Embedding的主要作用是將詞的向量訓練也放入到模型中，形成一個end-to-end結構，而這樣 Embedding 層訓練出來的向量可以更好的適應相應任務。

它不是作為降維使用，而是作為一種特徵表示使用。

Character-level Convolutional Networks for Text
Classification

Efficient Character-level Document Classification by
Combining Convolution and Recurrent Layers

Very Deep Convolutional Networks
for Natural Language Processing

這三篇都是基於char-level的卷積神經網路來解決文本分類問題的

第一篇是基於one-hot encoding,然後輸進去進行卷積

第二篇是同樣基於one-hot encoding,但是經過了embedding layer,文章說作用是通過embedding layer將輸入數據與W Matrix從而輸出一個fixed size和降低維度的"a sequence of dense, real-
valued vectors"

第三篇直接用的look up table把char sequence轉換成了a fixed-sized padded text作為model的輸入,也是體現了fixed size

所以我覺得embedding layer就是作為一個look up table的存在,將各類輸入經過轉換得到padded和fixed size的,low dimension的model的輸入.所以只要model用到了Matrix,經過encoding的輸入,都能放這個layer.具體這個能不能像word-level一樣pre-trained的話,我再思考一下.

有錯誤請指正...

嵌入層通過查表將整數（一般是單詞在詞典中的位置下標）轉換成一個固定長度的向量。

向量的取值是隨機初始化（embeddings_initializer="uniform"）並可訓練的。也可以通過嵌入層的weights參數載入預訓練好的詞向量，並設置為不可訓練（trainable=False）。

說白了就是：問題中的一個整數應該是one hot coding中每個word對應一個id，而embedding矩陣里的每一行對一個word的向量，embedding矩陣里的行號就是id，所以從一個id可以變成一個向量。從數學緯度上看，就是從一個高維空間映射到一個低維連續空間～

降維呀，one hot之後維度過高，深度學習對這種高維稀疏特徵不感冒，embedding到低維連續空間可以提升結果

個人拙見。

嵌入層Embedding - Keras中文文檔

1，輸入不是onehot只是下標列表，輸出向量。看起來更像是升維了（本質上降維了）。

2，演算法裡面沒有用w2v等東西初始化，全是 randomly initialized。

3，embedding層的向量表達被BP訓練。應該是基於fasttext的實現。不確定，我看範例猜的。

請參考@王哲同學的答案，題主是將Keras里的Embedding類和WordEmbedding概念混淆了。Keras里的Embedding僅僅是一個做Embedding的工具，用來將Word Id轉換為WordEmbedding的一種工具。如果沒有向Embedding傳遞weights矩陣，得到的就是隨機初始化的WordEmbedding，它不表達語義；當向Embedding傳遞weights矩陣，得到的就是語義化的WordEmbedding。至於如何獲得weights矩陣，就是其他答主提到的GloVe Word2Vec之類的演算法了。

對於詞典非常大，例如1億，vector維度為100，每一維用float，佔用的內存將非常大呀。

keras中的 Embedding層只是簡單地將輸入里的詞下標轉換成向量。向量值對應權重矩陣下標獲得。

模型中的Embedding層的權重可以接受訓練，但是單純這個層來說是沒有像word2vec這樣的功能的。

當然，可以將訓練好的詞向量表作為權重導入，這樣Embedding層相當於一個預處理層。文檔里有個例子：

在Keras模型中使用預訓練的詞向量 - Keras中文文檔