监督学习的方法需要大量的标注数据,对于层出不穷的网路新词,显得力不从心。这是就需要无监督的演算法去发现新词、行业词等。本文根据这篇新词发现演算法做一个梳理和自我的总结。
上面文章做新词发现的主要思想就是通过字之间的组合,正向匹配,从相关性最低处切开,保证词内部的相关性最高,或者称之为凝固度最高。
以三个字的词为例,相关性(凝固度)的公式:
上面公式可以这样理解,以第一个式子为例,假设A、BC为相互独立的事件,则ABC发生的概率为 P(ABC) = P(A)P(BC),而P(ABC)表示ABC统计而得发生的真实的概率。上式可以理解为 P(ABC)/P(ABC),比值越大代表ABC越不独立,相关性很高,越有可能同时出现,也就是词的内部凝固度很高。按照互信息的概念来讲,就是 A 和 BC 联合分布相对于假定 A和 BC独立情况下的联合分布之间的内在依赖性。
演算法分为以下步骤:
- 统计1,2,3...ngrams的词频并根据词频设定的阈值过滤小于阈值的部分