Road 2 NLP- Word Embedding詞向量（Word2vec）

博客原文鏈接：

Road 2 NLP- Word Embedding詞向量（Word2vec） | Eajacks Blog?

eajack.github.io

PS：不得不說，某乎專欄公式書寫十分不友好：（1）不支持Mathjax/TeX語法，需要網頁編輯插入公式；（2）加入公式後的排版真心丑。

推薦電腦端網頁閱讀

1. 參考資料

Word2vec 開山之作1：《Distributed Representations of Sentences and Documents》，作者Mikolov
Word2vec 開山之作2：《Efficient estimation of word representations in vector space》，作者Mikolov
Word2vec論文講解：《word2vec Parameter Learning Explained》,作者Xin Rong
知乎專欄文：[NLP] 秒懂詞向量Word2vec的本質
博客文章：word2vec原理(三) 基於Negative Sampling的模型

以下為[NLP] 秒懂詞向量Word2vec的本質的推薦資料分析：

1. Mikolov 兩篇原論文：『Distributed Representations of Sentences and Documents』貢獻：在前人基礎上提出更精簡的語言模型（language model）框架並用於生成詞向量，這個框架就是 Word2vec 『Efficient estimation of word representations in vector space』貢獻：專門講訓練 Word2vec 中的兩個trick：hierarchical softmax 和 negative sampling 優點：Word2vec 開山之作，兩篇論文均值得一讀缺點：只見樹木，不見森林和樹葉，讀完不得要義。這裡『森林』指 word2vec 模型的理論基礎——即以神經網路形式表示的語言模型『樹葉』指具體的神經網路形式、理論推導、hierarchical softmax 的實現細節等等

2. 北漂浪子的博客：『深度學習word2vec 筆記之基礎篇』
優點：非常系統，結合源碼剖析，語言平實易懂
缺點：太啰嗦，有點抓不住精髓

3. Yoav Goldberg 的論文：『word2vec Explained- Deriving Mikolov et al.』s Negative-Sampling Word-Embedding Method』
優點：對 negative-sampling 的公式推導非常完備
缺點：不夠全面，而且都是公式，沒有圖示，略顯乾枯

4. Xin Rong 的論文：『word2vec Parameter Learning Explained』：
！重點推薦！
理論完備由淺入深非常好懂，且直擊要害，既有 high-level 的 intuition 的解釋，也有細節的推導過程
一定要看這篇paper！一定要看這篇paper！一定要看這篇paper！

5. 來斯惟的博士論文『基於神經網路的詞和文檔語義向量表示方法研究』以及他的博客（網名：licstar）
可以作為更深入全面的擴展閱讀，這裡不僅僅有 word2vec，而是把詞嵌入的所有主流方法通通梳理了一遍

6. 幾位大牛在知乎的回答：『word2vec 相比之前的 Word Embedding 方法好在什麼地方？』
劉知遠、邱錫鵬、李韶華等知名學者從不同角度發表對 Word2vec 的看法，非常值得一看

7. Sebastian 的博客：『On word embeddings - Part 2: Approximating the Softmax』
詳細講解了 softmax 的近似方法，Word2vec 的 hierarchical softmax 只是其中一種

對比上述所有資料，重點看《word2vec Parameter Learning Explained》，並期望基於此文完全弄懂Word2vec原理。