昨天《誇誇聊天機器人升級:從隨機到準個性化》推送後,又有一些同學關注誇誇聊天語料庫,不過我還是建議大家自己先動手去爬:《為了誇誇聊天機器人,爬了一份誇誇語料庫》,從前到後完整體驗一下智能問答系統的實戰過程。當然如果你還是希望在有語料的前提下來學習相關的自動問答知識,那麼這裡推薦一份github上的聊天機器人語料庫資源:中文公開聊天語料庫(chaotbot_corpus_Chinese),該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作,Github鏈接,點擊文末閱讀原文可直達:

github.com/codemayq/cha以下來自該項目主頁說明,非常感謝收集整理這份資源的同學。

該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作

該庫蒐集了包含
  • chatterbot
  • 豆瓣多輪
  • PTT八卦語料
  • 青雲語料
  • 電視劇對白語料
  • 貼吧論壇回帖語料
  • 微博語料
  • 小黃雞語料

共8個公開閑聊常用語料和簡訊,白鷺時代問答等語料。

並對8個常見語料的數據進行了統一化規整和處理,達到直接可以粗略使用的目的。使用該項目,即可對所有的聊天語料進行一次性的處理和統一下載,不需要到處自己去搜集下載和分別處理各種不同的格式。注意以下所有語料都已經統一下載好,存在 pan.baidu.com/s/1szmNZQ 提取碼:f2ex 中。給出的語料原鏈接是為了說明該語料的原始出處是在哪裡環境python3處理過程

將各個來源的語料按照其原格式進行提取,提取後進行繁體字轉換,然後統一變成一輪一輪的對話。

數據來源及說明語料名稱語料數量語料來源說明語料特點語料樣例是否已分詞chatterbot560開源項目按類型分類,質量較高Q:你會開心的 A:幸福不是真正的可預測的情緒。否douban(豆瓣多輪)352W來自北航和微軟的paper, 開源項目噪音相對較少,原本是多輪(平均7.6輪)Q:煙臺 十一 哪 好玩 A:哪 都 好玩 · · · ·是ptt(PTT八卦語料)40W開源項目,臺灣PTT論壇八卦版繁體,語料較生活化,有噪音Q:為什麼鄉民總是欺負國高中生呢QQ A:如果以為選好科系就會變成比爾蓋茲那不如退學吧否qingyun(青雲語料)10W某聊天機器人交流羣相對不錯,生活化Q:看來你很愛錢 A:噢是嗎?那麼你也差不多了否subtitle(電視劇對白語料)274W開源項目,來自爬取的電影和美劇的字幕有一些噪音,對白不一定是嚴謹的對話,原本是多輪(平均5.3輪)Q:京戲裡頭的人都是不自由的 A:他們讓人拿籠子給套起來了了否tieba(貼吧論壇回帖語料)232W偶然找到的多輪,有噪音Q:前排,魯迷們都起牀了吧 A:標題說助攻,但是看了那球,真是活生生的諷刺了否weibo(微博語料)443W來自華為的paper仍有一些噪音Q:北京的小純潔們,週日見。#硬漢擺拍清純照# A:嗷嗷大濕的左手在幹嘛,看著小純潔擼麼。否xiaohuangji(小黃雞語料)45W原人人網項目語料有一些不雅對話,少量噪音Q:你談過戀愛麼 A:談過,哎,別提了,傷心..。否語料名稱語料原始URL(即出處,尊重原始版權)chatterbotgithub.com/gunthercox/c(豆瓣多輪)github.com/MarkWuNLP/Mu(PTT八卦語料)github.com/zake7749/Gos(青雲語料)無subtitle(電視劇對白語料)github.com/fateleak/dgk(貼吧論壇回帖語料)pan.baidu.com/s/1mUknfw 密碼:i4siweibo(微博語料)61.93.89.94/Noah_NRM_Data/xiaohuangji(小黃雞語料)github.com/candlewill/D使用方法下載語料 pan.baidu.com/s/1szmNZQ 提取碼:f2ex將解壓後的raw_chat_corpus文件夾放到當前目錄下 目錄結構為raw_chat_corpus-- language-- process_pipelines-- raw_chat_corpus---- chatterbot-1k

---- douban-multiturn-100w

---- ....-- main.py-- ...執行命令即可python main.py或者python3 main.py生成結果每個來源的語料分別生成一個獨立的*.tsv文件,都放在新生成的clean_chat_corpus文件夾下。

生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer

query answer結果的使用這個就根據每個人不同的情況自主使用即可個人對於聊天機器人方向實踐也不是很多,以下一篇之前寫的知乎專欄供參考 《從產品完整性的角度淺談chatbot》zhuanlan.zhihu.com/p/34文章粗略講解了如下一些方面,介紹了聊天機器人在實際產品化過程中可能遇到的問題和解決辦法。
  1. chatbot自身人格的設置
  2. 產品上線需要考慮的敏感詞處理
  3. 文本檢索模型的使用
  4. 文本生成模型的使用
  5. 回答打分機制
  6. 萬能回答的使用策略
  7. 多媒體消息的處理
  8. 產品模型部署的問題

版權說明

本項目為非商業項目,為純蒐集和匯總資料,如有侵權,請在issue下留言。

推薦閱讀:

相關文章