我想可以是問題數據模型

問題是機器學習的第一要素。

如何把業務問題轉換成一個機器學習問題。例如點擊率預估可以看做是一個二分類問題,但是在一個請求中,可能會有多個候選商品,因此也可以是一個多分類問題。業務問題的理解和機器學習問題的轉化非常關鍵,正確的將業務問題轉換為機器學習問題是後面數據和模型的基礎(這一部分可以理解問問題建模)。

數據是機器學習的第二要素。

以前總說特徵是模型的上限,我認為數據是模型的上限更好。數據是特徵的基礎,數據還包含了樣本選擇,缺失值處理等,然後纔是特徵抽取。這方面需要在業務問題和機器學習的基礎上有效的分析數據,理解數據,纔能有效的應用數據。

模型是機器學習的第三要素。

較為簡單的可以選擇現有合適的演算法,拿來即用。較為複雜的還需要根據自己的問題設計合適的演算法,新的演算法多以論文發表,以予提升針對該問題的行業水平(state of art)。為那些演算法的創新者點贊。另外,我把調參也歸到這一部分了,因為超參是模型的一部分。


業務背景 數據分析 模型優化


機器學習三要素:模型,策略與演算法

模型、策略、演算法可以總結為機器學習方法的提綱挈領。

模型

模型的確定主要明確自定義的預測函數長什麼樣子,存在兩種形式P(Y|X)和y=f(x),而由於在這兩個公式中必不可少的存在未知參數ceta,而且一定不止一個,因此在ceta不確定的情況下,公式均表現為各類的集合。由此,我們求解出公式中的未知參數確定下來最後的公式,並用該公式進行預測。

策略

在明確模型的樣式後,我們就需要利用已知的數據對未知參數探索,我們該如何進行呢?首先我們知道,無論是訓練數據還是測試數據,最終都希望通過公式能預測到和真實情況一樣的結果,事實上肯定是可能一模一樣的,也就會一定存在誤差,我們可稱為損失,那麼就引入損失函數,利用損失最小來求未知參數。

常見損失函數:

  • 0-1損失函數
  • 平方損失函數
  • 絕對損失函數
  • 對數損失函數
  • 對數似然損失函數

演算法

對於求解最小值,未知參數求一階導數並令導數試等於0。

機器學習中常用的演算法有以下兩種:

  • 最小二乘法:針對線性模型!
  • 梯度下降、上升法(批梯度、增量梯度):針對任意模!


機器學習三要素為:策略,模型,演算法。演算法通過在數據上進行運算產生模型 。

機器學習分為監督學習、非監督學習、半監督學習以及強化學習等。在監督學習過程中,模型就是所要學習的條件概率分佈或決策函數。機器學習模型包括(決策樹,線性回歸,神經網路,貝葉斯網路,支持向量機,最近鄰)機器學習的問題歸結為最優化的問題。機器學習討論的演算法問題就成為了求解最優化模型解的演算法。機器學習常用演算法(回歸演算法,神經網路,支持向量機,聚類演算法,降維演算法,推薦演算法)而且往往最優化模型沒有的解析解,需要用數值計算的方法求解,我們要確保找到全局最優解,以及使求解的過程非常高效。策略就是說你這個模型想讓它按照怎麼樣的準則去學習,然後選擇你認為的最優模型。


機器學習=模型+策略+演算法

1、模型模型:判別模型,生成模型

判別模型(DiscriminativeModel):同樣也叫ConditionalModel,即條件概率模型。判別模型是建立在觀測數據和預測數據上的條件概率模型P(Y|X),因此得出的後驗概率可以直接作為預測模型,常見的判別模型有:1.邏輯回歸2.SVM3.Boosting(meta-programming)4.條件隨機場5.線性回歸6.神經網路

生成模型(Generative Model):定義了在觀測{X}和結果{Y}的聯合概率分佈 P(X, Y),通過貝葉斯得出後驗概率 P(Y|X) = P(X, Y) / P(X), 然後用後驗概率模型作為預測模型。因此我們還需要計算P(X)以得到後驗概率。常見的生成模型有:1.高斯混合模型2.隱馬爾科夫模型3.Probabilistic context free grammars4.樸素貝葉斯5.RBM(受限波茲曼機)6.Averaged one-dependence estimators7.Latent Dirichlet allocation..

2、策略

策略即考慮用什麼樣的準則學習或者怎樣的選擇是最優選擇。通俗來說就是如何確定損失函數。 損失函數度量模型一次預測的好壞風險函數度量平均意義下模型預測的好壞。

常用損失函數:(1.0-1損失函數2.平方損失函數3.絕對損失函數4.對數損失函數或對數似然損失函數)

風險函數:風險函數又被稱為期望損失RexpRexp學習的目標就是選擇最小RexpRexp的模型經驗風險 RempRemp。

經驗風險又被稱為經驗損失。

根據大數定理,當樣本數量N趨於無窮時 RempRemp趨向於RexpRexp學習的目標可以轉換為選擇最小RempRexp的模型但是通常樣本的數量N有限,所以需要對RempRemp校正。

3、演算法

演算法指學習模型的具體方法,如何與優化損失函數。(例如梯度下降法,迭代法,概率計算公式,EM演算法,擬牛頓法等。)


數據,模型,優化


看到問題,我第一個想到的答案是:

李航博士的《統計學習方法》裏講的統計學習三要素:

1、模型;

2、策略(損失函數);

3、演算法(最優化演算法)。


:【邏輯與演算法】(LP)、【命題與推理】(認知+思維)、【函數與知識】(FP)。

另外還有 【LOFO 混合開發】(三位一體),當然這是方法論意義上的,前面那是認識論意義上的。

呃,回頭有空再更吧(最遲雙節之前了)。


數據、模型、Loss


模型

策略

演算法


推薦閱讀:
相關文章