语言模型之一枝（只）漂亮的小花（猫）

一枝（只）漂亮的小花（猫）是个什么鬼，它与现阶段最流行的语言模型又有什么联系？

一枝（只）漂亮的小花（猫）是输入法里的一个案例。稍带介绍下，我导师是哈工大计算机王晓龙教授，他是国内较早一批做输入法的学者，是智能拼音输入法的作者和构架提出者，当时他的智能拼音输入法1995年被微软看中后，基于此成为 PC 上流行一时的微软拼音输入法（详见「我知道的百度王海峰」）。「一枝（只）漂亮的小花（猫）」是他课堂上的经典案例（后面将简称小花猫案例），当然另一个他经常提起的就是「做科研要顶天立地」，这个先按下不表，有空再补上。

在输入法里，给定输入「yi zhi piao liang de xiao hua」，其对应希望得到的输出汉字是「一枝漂亮的小花」，但如果后面再加个「mao」呢？根绝上下文语境这个「枝」就得变换为「只」了。从这可以看到中文的字或词是由上文和下文同时决定的，有时单由一方决定不了，由这引发出对语言模型的探讨。

语言模型

语言模型是对语言的建模，给定语言序列w1, w2, .., wn，语言模型就是计算该序列的概率，即P(w1, w2, ..., wn)。对于上述例子，就是计算P（一，只，（枝），漂，亮，的，小，花，（猫））。这东西有什么用了，用处可大了，有了概率也就有了值，也就可以比较，最终也就有了选择。比如在在输入法问题上，P（一，只，漂，亮，的，小，花，猫）> P（一，枝，漂，亮，的，小，花，猫），那可以让模型输出正确的答案。

那问题来了，如何计算出这个概率。目前来看主要分为统计语言模型和神经语言模型两大类，两者分别基于count和continuous-space空间。两者的表现形式大家可以自行百度 bag of words VS word embedding。

统计语言模型

统计模型主要是N-gram模型，下面给出unigram、bigram和trigram模型，如图1。