可能blog排版會更好看點??
拖了一個多星期了 都快拖到Final Presentation DDL了 我這個懶癌晚期
都看不下去了
好 究竟是道德的淪喪還是人性的扭曲?歡迎來到這一期的「奇葩說之中華田園犬大解密」
在了解了基本的RNN家族之後
我們把步子邁得大一點 直接對準目前檢索式
chatbots
研究前沿
首先 QA系統分為任務型
,非任務型
兩大類
任務型
就是像Siri這種,需要識別用戶派遣的任務,然後完成相應的任務
而非任務
則是主要是閑聊機器人,購物客服機器人
非任務
按Answer的生成方式 又可以分為 檢索式
生成式
目前工業上落地的(效果好的)就是檢索式
所以我們為了學術 (找工作) 來研究檢索式
對話Chatbots
檢索式QA
和 生產式QA
最大的區別 就是 檢索式 只需要做encode
而生成式不僅僅要encode 還要decode
這個應該很好理解 檢索式 只需要 把query+Context encode 到向量 然後計算Similarity,取最高的幾個
但生成式 encode計算完之後 還得根據計算值decode成語句 返回給用戶
這就是他們最大的區別 當然 我們這裡討論的是檢索式
Base mind
檢索式對話 顧名思義 就是從一堆語料庫中 通過檢索
來匹配
到相近的對話 從而輸出答案
注意 這裡有兩個關鍵詞 一個是檢索
另外一個是匹配
檢索
就是 檢查索引 所以 檢索的關鍵就是把詞變成詞向量 預處理成Index
匹配
就是 根據詞向量 計算出一個匹配值 最簡單就是計算Cosine Distance 當然這樣效果很一般
於是就有一堆學者提出一堆模型
常規的做法有利用RNN家族 獲取句、文章粒度的信息
然後 就開始論文串講了
上古時代
話說 盤古還沒開天 女媧還沒補石 後裔還沒射日
那個時候 還沒有Word2vector 更不用說小學五年級就可以學得TF 對詞向量的計算 還都是傳統的Hash優化思路
這個時候出現了一個名叫DSSM的模型[Po-Sen Huang et al. 2013
] Learning Deep Structured Semantic Models for Web Search using Clickthrough Data