台湾 || 语言: 大陆简体港澳繁體台灣正體

在線學習（Online Learning）第一講

雪花台灣 2019-03-24 17:54

簡介在線預測可以被看做一個在玩家（演算法）和環境之間的重複遊戲。假設為遊戲的總輪數。那麼在每一輪上，在玩家和環境之間的這個遊戲可以直觀的表示為：環境：從問題庫中取一個問題玩家：根據環境提出的問題給出回答環境：根據玩家的回答產生一個損失。（對於玩家而言當然希望回答正確，損失越小越好）。然後環境把損失反饋給玩家。

玩家：學習和記錄反饋。
在這個重複遊戲中，玩家不斷根據環境的反饋進行學習。這樣在環境給出新問題時，根據歷史上學到的知識進行決策。下面看一個例子。1.1在線二分類遊戲在線二分類有很多應用，比如垃圾郵件分類。在這個應用中，玩家得到的問題是環境給出的郵件的一些特徵（feature）信息。然後玩家要回答（垃圾郵件or No）。根據上面的流程環境：給玩家一個郵件相關信息的特徵向量 $x_t in mathcal{R}^n$ 玩家：根據環境提出的問題給出一個回答 $ar{y_t} in {+1, -1}$ 環境：根據玩家的回答產生一個損失 $ell_t = mathbf{1}_{ar{y}_t eq y_t}$ 。為問題的答案。玩家：學習和記錄反饋。那麼在輪後，累計的損失為 $sum_{t=1}^T ell_t$ 。現在考慮玩家使用假設類中假設（比如二元分類器） $h_t: mathcal{R}^n o {+1, -1}$ 。這個假設是一個將特徵向量 $x_t in mathcal{R}^n$ 映射到二元集合上的一個函數。

1.2 採用Hinge損失的在線二元線性分類器

考慮使用二元線性分類器 $h_w: mathcal{R}^n o {+1, -1}$

$h_w(x)=sign(w cdot x)= left{ egin{array}{ll} +1, , if ;; w cdot x > 0 \ -1, , if ;; w cdot x <0 end{array} ight.$

這個假設的唯一參數就是向量 $w in mathcal{R}^n$ 。從幾何意義上來看，所有同相垂直的向量構成了一個超平面 ,如下圖所示

圖1：超平面和半空間

{x: w cdot x < 0} — 圖1：超平面和半空間

相关文章