推薦系統從零單排系列(六)—Word2Vec優化策略層次Softmax與負採樣

【導讀】前兩篇文章中介紹了兩種基本的Word2Vec模型：CBOW，Skip-gram。今天將詳細介紹使得Word2Vec落地的兩種優化策略：層次Softmax與負採樣策略。最後在文末將給出Word2Vec實踐代碼，以及小編整理的一些資料方便同學深入研究。

只收藏不點贊的都是臭流氓！（傲嬌臉）

Hierarchical Softmax

原始的Word2Vec使用softmax得到最種的辭彙概率分布，辭彙表往往包含上百萬個單詞，如果針對輸出中每一個單詞都要用softmax計算概率的話，計算量是非常大的。解決辦法之一就是Hierarchical Softmax。相比於原始的Softmax直接計算每個單詞的概率，Hierarchical Softmax使用一顆二叉樹來得到每個單詞的概率。被驗證的效果最好的二叉樹類型就是霍夫曼樹：