發現jieba的分詞工具在新聞語料上面存在著一些問題,比如:

這種情況顯然是令人難以接受的,尤其是在數據幾乎全是新聞語料的情況下,因此,查閱了一些分詞工具的表現情況,得到的數據如下:

數據來自

thunlp/THULAC?

github.com
圖標

從以上兩個表格可以看出,jieba速度最快同時也是表現最差的。綜合兩個測試集的情況來看LTP以及ICTCLAS表現較好,但是在速度上和其他工具差距比較大,如果對於時間的要求不是很高可以考慮,不過需要注意的是pyltp的支持情況如下

數據來自

HIT-SCIR/pyltp?

github.com
圖標

綜合考慮,本人選擇了ICTCLAS分詞工具。

值得吐槽的是他的首頁長成這樣子的

讓人看了就想遛。。。如果你也同樣想遛,推薦遛到其Python版本GitHub主頁

https://github.com/tsroten/pynlpir?

github.com

直接採用pip方式即可安裝,在安裝完成之後需要到

https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83?

github.com

下載NLPIR.user文件放到安裝的pynlpir的DATA目錄下,比如我的目錄就是/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pynlPIR/Data

在完成了以上操作之後就可以使用該軟體了,比如對開頭提高的那句話的分詞

以上。


推薦閱讀:
查看原文 >>
相关文章