一種無監督的新詞發現演算法

監督學習的方法需要大量的標註數據，對於層出不窮的網路新詞，顯得力不從心。這是就需要無監督的演算法去發現新詞、行業詞等。本文根據這篇新詞發現演算法做一個梳理和自我的總結。

上面文章做新詞發現的主要思想就是通過字之間的組合，正向匹配，從相關性最低處切開，保證詞內部的相關性最高，或者稱之為凝固度最高。

以三個字的詞為例，相關性（凝固度）的公式：

$min left{ frac{P(ABC)}{P(A)P(BC)},frac{P(ABC)}{P(AB)P(C)} ight}$

上面公式可以這樣理解,以第一個式子為例，假設A、BC為相互獨立的事件，則ABC發生的概率為 P(ABC) = P(A)P(BC)，而P(ABC)表示ABC統計而得發生的真實的概率。上式可以理解為 P(ABC)/P(ABC)，比值越大代表ABC越不獨立，相關性很高，越有可能同時出現，也就是詞的內部凝固度很高。按照互信息的概念來講，就是 A 和 BC 聯合分布相對於假定 A和 BC獨立情況下的聯合分布之間的內在依賴性。