機器學習演算法：高斯混合模型和EM演算法

EM（Expectation-Maximization）演算法是一種迭代式方法，主要應用於包含隱藏變數（latent variable）的參數估計，在無監督學習中有著廣泛的應用，EM演算法迭代包含兩步：

利用估計的參數值來求對數似然期望（expectation）。
通過最大化對數似然期望來更新參數。

上述是EM演算法的兩個基本迭代部分，在實際應用中EM演算法更多的看作是一種演算法思想，而不是特定的演算法步驟，所以接下來我將通過一些具體應用來進一步闡述EM演算法的主要思想。

1、K-Means

K-Means演算法是一種簡單好用的聚類方法，之所以把它提到最前面來是因為我覺得同樣作為無監督學習方法，K-Means在很多方面都深刻的體現著EM演算法的思想。

那麼首先我們來假設一個問題的形式：

input: 一組不帶label的數據： $left{ x^{(1)},x^{(2)},...,x^{(m)} ight}$ ，現在要對其進行聚類。

output: 聚類模型

因為與監督學習不同，數據沒有帶label，所以對於之前介紹的邏輯回歸等分類方法就無法應用，而是需要我們從數據自身進行發掘。下面給出K-Means演算法的主要步驟：

1、隨機初始化聚類重心（cluster centroids）: $mu _ { 1 } , mu _ { 2 } , ldots , mu _ { k } in mathbb { R } ^ { n }$
2、Repeat until convergence：{ for every i, set: $c ^ { ( i ) } : = arg min _ { j } left| x ^ { ( i ) } - mu _ { j } ight| ^ { 2 }$ for every j , set: $mu _ { j } : = frac { sum _ { i = 1 } ^ { m } 1 left{ c ^ { ( i ) } = j ight} x ^ { ( i ) } } { sum _ { i = 1 } ^ { m } 1 left{ c ^ { ( i ) } = j ight} }$ }