Word Embedding - Part 1

隨著深度學習在計算機視覺上取得了突破性的成果，自然語言處理（Natural Language Processing, NLP）領域也開始大量使用深度學習模型。其中，可以說在NLP領域比較有突破意義的成果就是詞向量（Word Embedding），當然按照英語翻譯過來應該是詞嵌入，但是很多人都成為詞向量，其實這還源於Google發布的工具包word2vector，所以本文就以詞向量來統稱詞嵌入。

當然，Word2Vector是很早被提出來的，是2013年的工作。隨著技術的發展，2017年的Transformer，2018年的BERT，以及2019年2月份OpenAI剛剛提出的擁有15億參數的GPT-2，這些模型在NLP領域取得了非常巨大的進展。但是，Word2Vector仍然是大家使用最為廣泛的NLP技術，因為它十分容易訓練，並且是很多NLP任務中的一個Embedding層，可以端到端訓練，所以本文還是要詳細介紹一下Word2Vector的主要技術。

詞向量究竟是什麼呢？顧名思義，就是將詞轉換為一個向量。在傳統自然語言處理任務中，常用的模型是Bag-of-Words模型，中文翻譯為詞袋模型，思想是給每一個詞賦予一個ID序號，詞與詞之間沒有任何關係，「喜歡」和「熱愛」兩個詞之間沒有任何關係。如果有辦法把詞用一個向量來表示，那麼我們可以通過計算向量之間的夾角或距離等等來衡量兩個詞之間的關係，從而更好地把握文本的語義關係。

狹義上的詞向量就是指的Google給出的word2vector以及其它一系列深度模型訓練出來得到的Embeddings，而實際上廣義的詞向量可以理解為給詞賦予一個向量（個人見解）。

目前來說主流的獲得詞向量的辦法有兩種，一種基於矩陣分解（Matrix Factorization），另一種基於神經網路（Neural Network），分別簡記為MF-based和NN-based。

本文就簡單介紹一下從矩陣角度來看詞向量，主要包括以下內容：

Latent Semantic Analysis
Co-occurence matrix & GloVe
Word Vectors with Linear Constraints

1 Latent Semantic Analysis

潛在語義分析（Latent Semantic Analysis, LSA）在傳統的NLP任務中非常常見，在信息檢索領域又稱為潛在語義索引（Latent Semantic Index, LSI）。

一般詞向量都會基於分散式假設（Distributional Hypothesis）來建模，擁有相似上下文的詞的語義會有很強的相關性，又因為詞向量的學習過程也是一個表示學習的過程，因此詞向量也被稱為分散式表示（Distributed Representation）。這裡再強調一下分散式假設的重要性，這將是詞向量建模的重要依據之一。

舉個例子，現在有兩句話：「我今天早上乘坐火車到了上海」和「我明天早上將會乘坐高鐵到上海」。假設讓一個不太懂中文的外國友人來看這句話，他可能不太明白這兩句話的意思，但是可以大致推斷出「火車」和「高鐵」具有某種語義關係，當然可能是同義詞/近義詞，或者僅僅是語義相關。語義相關和語義相似是不同的，這裡需要注意，但一般來說，不會做明顯的區分，因為NLP中的語義關係太複雜了，不能用明確的閾值界限來限定相關和相似。

那麼LSA是如何工作的呢？首先，需要收集語料庫，形式是將語料庫組織成一系列文檔（Document），每篇文檔裡面有很多詞（Word）組成。那麼根據這些文檔和詞建立詞 -文檔矩陣（Word-Document Matrix），記作 $W in R^{m imes n}$ ，表示有 m 個詞，n 篇文檔， $W_{ij}$ 表示第 i 個詞在第 j 篇文檔的歸一化頻次乘以其逆文檔頻率權重，從而得到的是TF-IDF矩陣。