最全中文自然語言處理數據集、平台和工具整理 資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平台和NLP工具等。 本文內容整理自:https://github.com/InsaneLife/ChineseNLPCorpus文本分類 新聞分類 今日頭條中文新聞(短文本)分類數據集 :https://github.com/fateleak/toutiao-text-classfication-dataset 數據規模:共38萬條,分布於15個分類中。 採集時間:2018年05月。 以0.7 0.15 0.15做分割 。清華新聞分類語料: 根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成。 數據量:74萬篇新聞文檔(2.19 GB) 小數據實驗可以篩選類別:體育, 財經, 房產, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂 http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5 rnn和cnn實驗:https://github.com/gaussic/text-classification-cnn-rnn中科大新聞分類語料庫:http://www.nlpir.org/?action-viewnews-itemid-145 情感/觀點/評論 傾向性分析 實體識別&詞性標註微博實體識別 https://github.com/hltcoe/golden-horse boson數據 包含6種實體類型。 https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson人民日報數據集 人名、地名、組織名三種實體類型 1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao 2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3 MSRA微軟亞洲研究院數據集 5 萬多條中文命名實體識別標註數據(包括地點、機構、人物) https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRASIGHAN Bakeoff 2005:一共有四個數據集,包含繁體中文和簡體中文,下面是簡體中文分詞數據。 MSR: http://sighan.cs.uchicago.edu/bakeoff2005/ PKU :http://sighan.cs.uchicago.edu/bakeoff2005/搜索匹配 OPPO手機搜索排序 OPPO手機搜索排序query-title語義匹配數據集。 鏈接:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n 網頁搜索結果評價(SogouE) 用戶查詢及相關URL列表 https://www.sogou.com/labs/resource/e.php推薦系統 百科數據維基百科 維基百科會定時將語料庫打包發布: 數據處理博客 https://dumps.wikimedia.org/zhwiki/百度百科 只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。指代消歧 CoNLL 2012 :http://conll.cemantix.org/2012/data.html預訓練:(詞向量or模型)BERT 開源代碼:https://github.com/google-research/bert 模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters ELMO 開源代碼:https://github.com/allenai/bilm-tf 預訓練的模型:https://allennlp.org/elmo 騰訊詞向量 騰訊AI實驗室公開的中文詞向量數據集包含800多萬中文辭彙,其中每個詞對應一個200維的向量。 下載地址:https://ai.tencent.com/ailab/nlp/embedding.html上百種預訓練中文詞向量 https://github.com/Embedding/Chinese-Word-Vectors中文完形填空數據集 https://github.com/ymcui/Chinese-RC-Dataset 中華古詩詞資料庫 最全中華古詩詞數據集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。 https://github.com/chinese-poetry/chinese-poetry保險行業語料庫 https://github.com/Samurais/insuranceqa-corpus-zh漢語拆字字典 英文可以做char embedding,中文不妨可以試試拆字 https://github.com/kfcd/chaizi中文數據集平台 搜狗實驗室 搜狗實驗室提供了一些高質量的中文文本數據集,時間比較早,多為2012年以前的數據。 https://www.sogou.com/labs/resource/list_pingce.php中科大自然語言處理與信息檢索共享平台 http://www.nlpir.org/?action-category-catid-28 中文語料小數據 包含了中文命名實體識別、中文關係識別、中文閱讀理解等一些小量數據。 https://github.com/crownpku/Small-Chinese-Corpus 維基百科數據集 https://dumps.wikimedia.org/NLP工具THULAC: https://github.com/thunlp/THULAC :包括中文分詞、詞性標註功能。HanLP:https://github.com/hankcs/HanLP 哈工大LTP: https://github.com/HIT-SCIR/ltp NLPIR: https://github.com/NLPIR-team/NLPIRjieba分詞: https://github.com/yanyiwu/cppjieba往期精品內容推薦吳恩達-中文完整版《Mechine Learning Yearning》分享10月最新-深度強化學習聖經-《Reinforcement Learning-第二版》2018-Geoffrey Hinton-深度學習基礎2018/2019/校招/春招/秋招/自然語言處理/深度學習/機器學習知識要點及面試筆記深度學習實戰-從源碼解密AlphGo Zero背後基本原理多任務強化學習蒸餾與遷移學習最新深度學習面試題目及答案集錦基於深度學習的文本分類6大演算法-原理、結構、論文、源碼打包分享一文告訴你Adam、AdamW、Amsgrad區別和聯繫,助你實現Super-convergence的終極目標歷史最全-16個推薦系統開放公共數據集整理分享AI教父-深度學習之父-Geffery Hinton個人簡介997篇-歷史最全生成對抗網路(GAN)論文串燒谷歌、微軟、Facebook等2018最新面試題分享 推薦閱讀: 相关文章 {{#data}} {{title}} {{/data}}