台湾 || 语言: 大陆简体港澳繁體台灣正體

檢索式人工智障識記

雪花台灣 2019-03-16 11:58

可能blog排版會更好看點??

拖了一個多星期了都快拖到Final Presentation DDL了我這個懶癌晚期都看不下去了

好究竟是道德的淪喪還是人性的扭曲？歡迎來到這一期的「奇葩說之中華田園犬大解密」

在了解了基本的RNN家族之後

我們把步子邁得大一點直接對準目前檢索式 chatbots研究前沿

首先 QA系統分為任務型，非任務型兩大類

任務型就是像Siri這種，需要識別用戶派遣的任務，然後完成相應的任務

而非任務則是主要是閑聊機器人，購物客服機器人

非任務按Answer的生成方式又可以分為 檢索式 生成式

目前工業上落地的(效果好的)就是檢索式

所以我們為了學術 (找工作) 來研究檢索式對話Chatbots

檢索式QA 和 生產式QA 最大的區別就是檢索式只需要做encode 而生成式不僅僅要encode 還要decode

這個應該很好理解檢索式只需要把query+Context encode 到向量然後計算Similarity，取最高的幾個

但生成式 encode計算完之後還得根據計算值decode成語句返回給用戶

這就是他們最大的區別當然我們這裡討論的是檢索式

Base mind

檢索式對話顧名思義就是從一堆語料庫中通過檢索 來匹配到相近的對話從而輸出答案

注意這裡有兩個關鍵詞一個是檢索 另外一個是匹配

檢索就是檢查索引所以檢索的關鍵就是把詞變成詞向量預處理成Index

匹配就是根據詞向量計算出一個匹配值最簡單就是計算Cosine Distance 當然這樣效果很一般

於是就有一堆學者提出一堆模型

常規的做法有利用RNN家族獲取句、文章粒度的信息

然後就開始論文串講了

上古時代

話說盤古還沒開天女媧還沒補石後裔還沒射日

那個時候還沒有Word2vector 更不用說小學五年級就可以學得TF 對詞向量的計算還都是傳統的Hash優化思路

這個時候出現了一個名叫DSSM的模型[Po-Sen Huang et al. 2013] Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

相关文章