寫在前面:準備做一個論文閱讀系列,用來記錄讀過的推薦系統領域論文。第一篇為Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. Knowledge and Data Engineering, IEEE Transactions on, 2005, 17(6): 734-749.。

這是一篇綜述類的論文,被稱為推薦系統最經典的綜述論文之一。雖然是比較老的一篇文章,裡面提到的對推薦系統的展望有很多在現在已經被研究了,但仍是入門推薦系統必讀的一篇經典論文。本文主要包含兩部分:對當時技術的總結和對推薦系統發展的看法。

文章思維導圖(可在文末git下載mmap格式文件和jpg原圖):


一、The survey of Recommender Systems

1. content-based 基於內容的推薦系統

1)要點記錄:

  • content-based:The user will be recommended items similar to the ones the user preferred in the past.
  • 主要應用於文本項目,因為內容通常用關鍵字描述
  • 文中特別介紹了一下TF-IDF(Term Frequency-Inverse Document Frequency):詞頻-逆文檔頻率(主要思想是評估詞對於文檔的重要程度,當一個詞在該文檔中出現次數越多越重要,同時它在其他越多的文檔中出現,對於該文檔重要性會降低):
  • 效用函數:
  • 常用餘弦相似度計算內容間相關性(基於信息檢索的啟發式方法):
  • 其他基於內容的方法:statistical learning and machine learning:clustering, decision trees, and artificial neural networks...

2)缺點:

a. Limited Content Analysis

  • 為了有足夠的特徵集,內容必須是可以由計算機自動解析的形式(例如,文本),或者應該手動地將特徵分配給物品。但是一些領域難以自動提取特徵,由於資源限制手動分配特徵不切實際。
  • 內容分析不合理,兩個不相同的物品可能擁有同樣的內容。因此,由於基於文本的文檔通常由最重要的關鍵字表示,因此基於內容的系統無法區分寫得好的文章和寫得不好的文章,如果它們碰巧使用相同的術語。

b. Overspecialization

  • 難以推薦到用戶完全沒接觸過的物品。引入隨機性,來推薦完全沒接觸過的物品。
  • 好的推薦系統不僅需要過濾掉完全不相同的物品,也需要過濾掉基本一樣的物品

c. New User Problem

  • 評分太少的新用戶無法分析其喜歡物品的內容

2. collaborative 基於協同過濾的推薦系統

1) 要點記錄:

  • Collaborative:The user will be recommended items that people with similar tastes and preferences liked in the past
  • memory-based(or heuristic-based):

a. 常用聚合函數

b. 計算x,y用戶相似度

  • correlation
  • cosine-based

c. 一般提前計算好相似度矩陣,因為短期內不會變化。當用戶請求推薦時,用預先計算好的相似度矩陣計算。

  • model-based:貝葉斯網路,SVD,隱語義模型等:

2)缺點:

  • New User Problem用戶冷啟動
  • New Item Problem物品冷啟動
  • Sparsity數據稀疏

3. hybrid recommendation 混合推薦系統

hybrid recommendation: These methods combine collaborative and content-based methods.

1.分別做協同過濾和基於內容的推薦,結合它們預測的結果

  • 評分線性組合
  • 推薦投票方案
  • 在不同時刻使用不同方法的推薦結果

2.將一些基於內容的特徵加入協同過濾的方法:使用內容計算用戶相似性,有利於克服純粹協同過濾的稀疏性問題

3.將一些協同過濾的特徵加入基於內容的方法:主要做降維

4.基於內容和協同過濾構建一個統一的模型

5.通過基於知識的方法進行增強

4. 對不同推薦系統的分類

二、Extending Capabilities of Recommender Systems

  1. 全面瞭解用戶和物品
  2. 多維性,不僅限於用戶物品二維,考慮時間地點上下文等。
  3. 多標準評分

4. 非侵入式

  • 隱式/顯式
  • 主動學習

5. 靈活性

6. 設計新的實驗和指標保證推薦系統等有效性

7. 其他,如可解釋性,可信度,隱私等


寫在後面:論文原文及閱讀思維導圖在git中:

wolfkin-hth/Recommender-systems-paper?

github.com
圖標

學習路漫漫,狼崽在路上~

推薦閱讀:

相關文章