一种无监督的新词发现演算法

监督学习的方法需要大量的标注数据，对于层出不穷的网路新词，显得力不从心。这是就需要无监督的演算法去发现新词、行业词等。本文根据这篇新词发现演算法做一个梳理和自我的总结。

上面文章做新词发现的主要思想就是通过字之间的组合，正向匹配，从相关性最低处切开，保证词内部的相关性最高，或者称之为凝固度最高。

以三个字的词为例，相关性（凝固度）的公式：

$min left{ frac{P(ABC)}{P(A)P(BC)},frac{P(ABC)}{P(AB)P(C)} ight}$

上面公式可以这样理解,以第一个式子为例，假设A、BC为相互独立的事件，则ABC发生的概率为 P(ABC) = P(A)P(BC)，而P(ABC)表示ABC统计而得发生的真实的概率。上式可以理解为 P(ABC)/P(ABC)，比值越大代表ABC越不独立，相关性很高，越有可能同时出现，也就是词的内部凝固度很高。按照互信息的概念来讲，就是 A 和 BC 联合分布相对于假定 A和 BC独立情况下的联合分布之间的内在依赖性。