語言模型之一枝（只）漂亮的小花（貓）

一枝（只）漂亮的小花（貓）是個什麼鬼，它與現階段最流行的語言模型又有什麼聯繫？

一枝（只）漂亮的小花（貓）是輸入法里的一個案例。稍帶介紹下，我導師是哈工大計算機王曉龍教授，他是國內較早一批做輸入法的學者，是智能拼音輸入法的作者和構架提出者，當時他的智能拼音輸入法1995年被微軟看中後，基於此成為 PC 上流行一時的微軟拼音輸入法（詳見「我知道的百度王海峰」）。「一枝（只）漂亮的小花（貓）」是他課堂上的經典案例（後面將簡稱小花貓案例），當然另一個他經常提起的就是「做科研要頂天立地」，這個先按下不表，有空再補上。

在輸入法里，給定輸入「yi zhi piao liang de xiao hua」，其對應希望得到的輸出漢字是「一枝漂亮的小花」，但如果後面再加個「mao」呢？根絕上下文語境這個「枝」就得變換為「只」了。從這可以看到中文的字或詞是由上文和下文同時決定的，有時單由一方決定不了，由這引發出對語言模型的探討。

語言模型

語言模型是對語言的建模，給定語言序列w1, w2, .., wn，語言模型就是計算該序列的概率，即P(w1, w2, ..., wn)。對於上述例子，就是計算P（一，只，（枝），漂，亮，的，小，花，（貓））。這東西有什麼用了，用處可大了，有了概率也就有了值，也就可以比較，最終也就有了選擇。比如在在輸入法問題上，P（一，只，漂，亮，的，小，花，貓）> P（一，枝，漂，亮，的，小，花，貓），那可以讓模型輸出正確的答案。

那問題來了，如何計算出這個概率。目前來看主要分為統計語言模型和神經語言模型兩大類，兩者分別基於count和continuous-space空間。兩者的表現形式大家可以自行百度 bag of words VS word embedding。

統計語言模型

統計模型主要是N-gram模型，下面給出unigram、bigram和trigram模型，如圖1。