在SEO中,爲節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱爲停用詞。那麼對於AI產品經理來說,要如何從零開始打造專業領域的停用詞庫?

AI產品經理,如何從零開始打造專業領域的停用詞庫

人工智能領域有三大基礎:數據、計算力和算法,只有有了數據,纔會有數據智能,有了數據才能描繪用戶精準畫像,從而進行豐富的個性化推薦、精準營銷。計算力現在各家體力相當,沒有多大差別,而好的算法卻能夠讓你的AI產品更加智能。

在智能客服、垂直行業的AI助手:法律、金融、體育、醫療健康、智能語音助手領域,如何從零打造自己的停用詞庫是一個產品經理必備技能?

什麼是停用詞

停用詞(Stop Words) ,詞典譯爲“電腦檢索中的虛字、非檢索用字”。在SEO中,爲節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱爲Stop Words(停用詞)。

停用詞一定程度上相當於過濾詞(Filter Words),不過過濾詞的範圍更大一些,包含黃色、政治等敏感信息的關鍵詞都會被視做過濾詞加以處理,停用詞本身則沒有這個限制。通常意義上,停用詞(Stop Words)大致可分爲如下兩類:

(1)使用十分廣泛,甚至是過於頻繁的一些單詞。比如英文的“i”、“is”、“what”,中文的“我”、“就”之類詞幾乎在每個文檔上均會出現,查詢這樣的詞搜索引擎就無法保證能夠給出真正相關的搜索結果,難於縮小搜索範圍提高搜索結果的準確性,同時還會降低搜索的效率。

因此,在真正的工作中,Google和百度等搜索引擎會忽略掉特定的常用詞,在搜索的時候,如果我們使用了太多的停用詞,也同樣有可能無法得到非常精確的結果,甚至是可能大量毫不相關的搜索結果。

(2)文本中出現頻率很高,但實際意義又不大的詞。這一類主要包括了語氣助詞、副詞、介詞、連詞等,通常自身並無明確意義,只有將其放入一個完整的句子中才有一定作用的詞語。如常見的“的”、“在”、“和”、“接着”之類,比如:“AI產品經理總舵是AI產品經理的彙集地”這句話中的“是”、“的”就是兩個停用詞。

爲什麼要建停用詞庫

文本中如果大量使用停用詞容易對聊天對話中的有效信息造成噪音幹擾,所以QA搜索引擎在運算之前都要對所索引的信息進行消除噪音的處理。瞭解了停用詞,在對話語料內容中適當地減少停用詞出現的頻率,可以有效地提高關鍵詞密度,使得自然語言理解過程中的意圖識別和語義匹配更加準確。

所以搭建專業領域的停用詞庫,對處理專業語料庫及用戶問題的意圖識別及語義匹配的準確性會有很大提高。

如何搭建專業停用詞庫

1. 彙總通用停用詞庫

  • 標點符號:,。、?“”等
  • 語氣詞:呵呵 嗚嗚 哈 呸等
  • 指代詞:我 你 各位等
  • 連接詞:即使 即便 卻 或等
  • 總結詞:總的來說 再者說 何樂不爲等
  • 英文詞:yourself yes who等

現在網上有一些通用停用詞庫,例如:百度停用詞列表、四川大學機器智能實驗室停用詞庫、哈工大停用詞表等,整理去重後有2428條。但是每個領域有專業語言特色,特別是金融領域醫藥領域和法律領域,如果能夠加上專業停用詞做補充,那樣識別和匹配結果效果會更好。

2. 篩選行業專有停用詞

以保險行業爲例,首先通過網絡蒐集保險行業問答QA語料,如下圖所示:

AI產品經理,如何從零開始打造專業領域的停用詞庫

將QA分別做分詞處理,然後統計詞頻按數量排序,如下圖所示:

AI產品經理,如何從零開始打造專業領域的停用詞庫

將該數據和通用停用詞做去重後,人工篩選行業專有停用詞。將篩選完成的專業專有停用詞和通用停用詞合併,就構成了保險行業的專有停用詞庫了。

AI產品經理的極致理論

AI產品已經進入精細化設計階段,因爲對話型機器人產品特性原因,輸入輸出的極度簡單,也就造成了處理過程的極度複雜。一個對話型機器人系統包含了近二十項技術模塊,每個模塊都會影響最終輸出的結果,只有把顆粒度分的足夠細小,在每一個顆粒度上做到“好一點”,才能使得最終結有明顯提升。

小米產品裏有一個極致思維,估計大家都聽過木桶理論,說是一個木桶,能裝多少水,取決於拼湊這個木桶所有的木板最短的那塊。然而在AI產品已經普及(例如智能音箱),避免出現短板,已經不是最大的難題了。

難題是什麼呢?

如何提高每一塊板的高度,這時候就需要用到極致思維。就是說怎麼在每一塊板子上下功夫,把每一塊板子都做到極致。

舉個例子:IPod剛出來的時候和其他MP3最大的區別是什麼呢?是在機器裏面加了一個小硬盤,能存上千首歌。連續播放幾天集不重樣,就因爲這一點做到了極致,迅速佔領了音樂播放器市場。小米產品能夠迅速佔領市場,是因爲他優化了整個供應鏈系統,纔有了物美價廉的產品。

AI產品經理要有數據信仰

AI產品要堅信,未來的技術及產品的底層智能是數據智能,數據是一切運算及邏輯的本質基礎,具備數據信仰才能做好AI產品。數據是基礎,算法是路徑,具備了足夠乾淨的數據和合適的算法,纔會有更準確的結果。

這裏說的算法不僅僅指的工程師寫出來的算法,那只是狹義的算法,我所說的是廣義的算法,既包括產品經理的做事的前後順序及做事方法,一切選擇都會對結果造成影響,一切影響都會左右最終結果,這裏不做價值判斷。

AI產品經理在工作中要有數據信仰,多做數據判斷,少做主觀判斷,這樣最終結果纔不會和預期有太大偏差。

雷軍曾經說過,要想知道產品的迭代方向,不是產品經理拍腦門想出來的,也不是通過客服反映出來的,客服反映的只是願意表達的那部分用戶的需求,而不是全部用戶的需求,就像是現在的一些論壇,看帖的用戶數是發帖用戶數的十倍以上,所有帖子中熱帖數量只佔到所有帖子數量的1%。

也就是說論壇其實是1000個人在聽1個人講話,甚至更低,而這一個人根本不能代表1000個人的需求。

數據信仰就是要去看數據的本質,透過數據本質才能找到更好的算法。中國漢字有4萬個,常用的只有3500個,常用對話句式有10W條,但是抽離出來的停用詞也就不到2500個。

作者:老張,宜信集團保險事業部智能保險產品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。

本文由 @老張 原創發佈於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關文章