監督學習的方法需要大量的標註數據,對於層出不窮的網路新詞,顯得力不從心。這是就需要無監督的演算法去發現新詞、行業詞等。本文根據這篇新詞發現演算法做一個梳理和自我的總結。
上面文章做新詞發現的主要思想就是通過字之間的組合,正向匹配,從相關性最低處切開,保證詞內部的相關性最高,或者稱之為凝固度最高。
以三個字的詞為例,相關性(凝固度)的公式:
上面公式可以這樣理解,以第一個式子為例,假設A、BC為相互獨立的事件,則ABC發生的概率為 P(ABC) = P(A)P(BC),而P(ABC)表示ABC統計而得發生的真實的概率。上式可以理解為 P(ABC)/P(ABC),比值越大代表ABC越不獨立,相關性很高,越有可能同時出現,也就是詞的內部凝固度很高。按照互信息的概念來講,就是 A 和 BC 聯合分布相對於假定 A和 BC獨立情況下的聯合分布之間的內在依賴性。
演算法分為以下步驟:
- 統計1,2,3...ngrams的詞頻並根據詞頻設定的閾值過濾小於閾值的部分