餘弦相似度 | 文本分析:基礎
1、且說文本分析
我一直覺得,在數據分析領域,只有文本分析是最「接地氣兒」的,「接地氣兒」不是指最簡單,而是我們普通大眾的使用它最多。
我們每天使用互聯網,但不一定每個人都炒股,不一定都做行業研究,也不一定都搞科研,因此那些高大上的模型對大部分人來說都是飄忽在天上的,只有文本分析,他的產出結果是直接惠及到幾乎全部人。
比如,你總得打字,會使用到輸入法的模糊匹配;你總得網購,刷新頁面的時候就會看到某寶給你推薦的產品;你總得看新聞,APP會根據你以往的輸入給你推薦文章......
文本分析最基本的可以看正則表達式,我曾經寫過SAS和Python的相關文章:
導語:SAS正則表達式,統計師入門文本分析的捷徑統計師的Python日記【第九天:正則表達式】今天這個小系列,介紹的是計算文本分析中,相似度的思想。
2、文本相似度
計算文本相似度有什麼用?
- 反垃圾文本的撈取
「誠聘淘寶兼職」、「誠聘打字員」...這樣的小廣告滿天飛,作為網站或者APP的運營者,不可能手動將所有的廣告文本放入屏蔽名單里,挑幾個典型廣告文本,與它滿足一定相似度就進行屏蔽。
- 推薦系統
在微博和各大BBS上,每一篇文章/帖子的下面都有一個推薦閱讀,那就是根據一定演算法計算出來的相似文章。
- 冗餘過濾
我們每天接觸過量的信息,信息之間存在大量的重複,相似度可以幫我們刪除這些重複內容,比如,大量相似新聞的過濾篩選。
這裡有一個在線計算程序,你們可以感受一下