最全中文自然語言處理數據集、平台和工具整理

資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集，中文數據集平台和NLP工具等。

本文內容整理自：https://github.com/InsaneLife/ChineseNLPCorpus

文本分類

新聞分類

今日頭條中文新聞（短文本）分類數據集 ：https://github.com/fateleak/toutiao-text-classfication-dataset

數據規模：共38萬條，分布於15個分類中。

採集時間：2018年05月。

以0.7 0.15 0.15做分割。

清華新聞分類語料：

根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成。

數據量：74萬篇新聞文檔（2.19 GB）

小數據實驗可以篩選類別：體育, 財經, 房產, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實驗：https://github.com/gaussic/text-classification-cnn-rnn

中科大新聞分類語料庫：http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點/評論傾向性分析

小領域知識圖譜應該怎麼構建？