- 簡介在線預測可以被看做一個在玩家(演算法)和環境之間的重複遊戲。假設 為遊戲的總輪數。那麼在每一輪 上,在玩家和環境之間的這個遊戲可以直觀的表示為:環境:從問題庫中取一個問題玩家:根據環境提出的問題給出回答環境:根據玩家的回答產生一個損失 。(對於玩家而言當然希望回答正確,損失越小越好)。然後環境把損失反饋給玩家。
玩家:學習和記錄反饋。
在這個重複遊戲中,玩家不斷根據環境的反饋進行學習。這樣在環境給出新問題時,根據歷史上學到的知識進行決策。下面看一個例子。1.1在線二分類遊戲在線二分類有很多應用,比如垃圾郵件分類。在這個應用中,玩家得到的問題是環境給出的郵件的一些特徵(feature)信息。然後玩家要回答(垃圾郵件or No)。根據上面的流程環境:給玩家一個郵件相關信息的特徵向量 玩家:根據環境提出的問題給出一個回答 環境:根據玩家的回答產生一個損失 。 為問題的答案。玩家:學習和記錄反饋。 那麼在 輪後,累計的損失為 。現在考慮玩家使用假設類 中假設(比如二元分類器) 。這個假設是一個將特徵向量 映射到二元集合 上的一個函數。
1.2 採用Hinge損失的在線二元線性分類器
考慮使用二元線性分類器
這個假設的唯一參數就是向量 。從幾何意義上來看,所有同 相垂直的向量構成了一個超平面 ,如下圖所示