餘弦相似度 | 文本分析：基礎

1、且說文本分析

我一直覺得，在數據分析領域，只有文本分析是最「接地氣兒」的，「接地氣兒」不是指最簡單，而是我們普通大眾的使用它最多。

我們每天使用互聯網，但不一定每個人都炒股，不一定都做行業研究，也不一定都搞科研，因此那些高大上的模型對大部分人來說都是飄忽在天上的，只有文本分析，他的產出結果是直接惠及到幾乎全部人。

比如，你總得打字，會使用到輸入法的模糊匹配；你總得網購，刷新頁面的時候就會看到某寶給你推薦的產品；你總得看新聞，APP會根據你以往的輸入給你推薦文章......

文本分析最基本的可以看正則表達式，我曾經寫過SAS和Python的相關文章：

導語：SAS正則表達式，統計師入門文本分析的捷徑?

mp.weixin.qq.com

統計師的Python日記【第九天：正則表達式】?

mp.weixin.qq.com

今天這個小系列，介紹的是計算文本分析中，相似度的思想。

計算文本相似度有什麼用？

「誠聘淘寶兼職」、「誠聘打字員」...這樣的小廣告滿天飛，作為網站或者APP的運營者，不可能手動將所有的廣告文本放入屏蔽名單里，挑幾個典型廣告文本，與它滿足一定相似度就進行屏蔽。

在微博和各大BBS上，每一篇文章/帖子的下面都有一個推薦閱讀，那就是根據一定演算法計算出來的相似文章。

我們每天接觸過量的信息，信息之間存在大量的重複，相似度可以幫我們刪除這些重複內容，比如，大量相似新聞的過濾篩選。

這裡有一個在線計算程序，你們可以感受一下