機器學習和深度學習除了預測還能做什麼?
不要拎著鎚子找釘子
可以做很多東西,比如人臉識別,對話系統搭建,OCR等等,應用用途很廣。
都是在做曲線擬合而已。
我可以說任何行為都可以說是:預測嗎?
走路,下第一步出左腳還是右腳,身體幫你完成預測了;
是么,不是么?
感覺這裡的「預測」更偏向於監督學習,機器學習還能做一些聚類、關聯分析等。
分類:二分類、多分類
聚類:按照某個度量標準,將相似的樣本劃分到同一個類別中
回歸:預測具體的數值,如房價預測
序列標註:如自然語音處理總的詞性標註,將每個詞的對應詞性按順序標出來
序列生成:如翻譯、看圖說話等等
綜上:其實本質上都是使用某一個函數擬合數據轉化成最優化問題,也就是做預測。這些都是人工智慧的基礎、建議在此基礎上去了解一下強化學習,解決連續控制問題,是離人工智慧更近的一門分支,但前提要有機器學習、深度學習的基礎
預測,廣義來說包含了機器學習中的分類和回歸。比如,收集幾種已知植物的資料,並基於這些資料建立分類器,預測未知植物的種類(分類);收集過去幾年的天氣數據來預測明天的天氣溫度(回歸)。分類與回歸的區別在於,回歸需要預測一個具體數值,分類只需預測某一類。但是,機器學習的應用遠不止於此。
1. 聚類:
聚類是常見的非監督學習的例子。通過聚類方法,我們可以找到數據中潛在的聯繫,這也是數據挖掘(data mining)經常使用的方法。聚類也經常被用於推薦系統(recommendation system),比如說電影推薦。將同樣年齡,興趣的人被分在同一組裡,把同組人喜歡的電影推薦給沒有看過的人。
相關文章:
淘寶京東亞馬遜是如何通過機器學習掌握用戶喜好的??baijiahao.baidu.com2. 異常檢測:
異常檢測又稱為一類分類問題。需要預測新數據是否屬於「正常」值。區別在於,模型只知道「正常」這一類數據,「非正常」的數據是未知的。此類方法經常應用在,異常數據非常少,或者不容易採集的情況下。比如,工廠來檢測生產線是否出現了問題。通過訓練正常狀態下的數據,如果檢測到非正常的信號, 模型會向工廠發出警告。
Qeexo AutoML的異常檢測案例:
Qeexo AutoML Anomaly Detection Part 1: Data Collection, Model Training?v.youku.com3. 生成:
序列生成,是最近ML中比較火的話題。 比如說,前段時間讓人們議論紛紛的Deepfakes(換臉)技術。通過人臉的照片訓練模型,然後生成世上不存在的人的臉。再比如說自動生成歌曲,文章等等。
相關文章:
GAN零基礎入門:從偽造視頻到生成假臉?baijiahao.baidu.com以上三類是除了預測以外,機器學習中經常應用的方法。Qeexo最近推出的AutoML平台就包含了聚類和異常檢測的方法。有興趣的話,請點擊鏈接:Qeexo AutoML | Qeexo AutoML 。目前平台限時免費體驗,註冊會員即可使用。
前面的答案說的很好,不要拎著鎚子找釘子,我再展開講講。
我們知道,過去的機器學習,深度學習的主要作用就是分類和回歸,這兩個其實沒有差別:
- 分類:對類別標籤的預測
- 回歸:對數值標籤的預測
分類和回歸被用來進行上層的演算法應用,比如推薦,nlp,計算機視覺,是一切演算法的意義所在。如果非要說它們還可以用來做什麼,那應該就是函數空間學習,結構學習和邏輯推理這類中間性工作,但最終應用到的還是預測任務上。
舉個例子,降維和投影是結構學習的一種方式,你當然可以把數據降個維或者映射到語義空間,然後啥也不做,但這沒有任何意義。它最終還是要為預測服務。
而現在的機器學習,除了兩類最主要的應用,還包括生成(Generation)和決策(Decision Making)任務。從技術上講就是從有監督學習向無監督學習和強化學習的擴展,例如基於GAN的對話系統、基於決策的自動駕駛等。機器之間能完成交流、對抗、協作,這些都有助於物聯網,智慧城市在未來的落地。
就是說,機器學習,深度學習只有在落地場景下,才能發揮自己的作用。與其拎著鎚子到處找釘子,不如想想怎麼用好你手裡的鎚子。
分類和回歸好像都屬於預測是吧。
除此之外比較典型應該還有特徵設計和生成問題。
特徵設計
特徵是定義給定數據集的特性,從而允許最優的學習。事實上,精心設計的特徵對回歸和分類方案的性能都是至關重要的。
然而,從廣義上說,我們所能設計特徵的好壞,從根本上取決於我們對所研究現象的知識水平。我們越了解(在智力和直覺上)手頭數據的生成過程,設計的特徵就越好,或者在理想情況下,教會計算機自己完成這項設計工作。在極端情況下,我們幾乎完全理解數據的生成過程,這些知識來自於大量直觀的、實驗性的以及數學上的思考,我們設計的特徵也會有近乎完美的性能。
通常情況下,我們對正在分析的數據只了解一點,甚至一點也不了解。宇宙巨大而複雜,關於它如何運行的確切理解,我們知道的還只是鳳毛麟角。機器學習的一個最終目標是開發有效的工具來處理任意類型的數據(發現其中的模式)。該目標現在還遠未得到充分實現,從根本上來說,它要解決的問題與尋找好的特徵有關。
一個現代的特徵設計示例是視覺目標檢測任務。在該任務中,我們對數據生成的底層過程只有部分了解。即使在一知半解的情況下,也可以為目標檢測設計出有用的特徵。
在視覺分類任務的特徵設計過程中,最重要且最常見的一個事實是,一幅自然圖像中的辨別信息很大程度上被包含在圖像內相對較少的邊緣中。自然圖像中的人可能會置身於森林或者戶外場景、城市風光、其他人群、動物以及建築物等中。深度學習在解決這類特徵設計的任務中,每一個神經元的作用就類似於一個個小的「邊緣檢測器」,這與人類神經學中對事物特徵的觀測是很可能相似的。
生成問題
生成問題嚴格來說不是一種問題,而生成模型確實是一種區別於判別模型的解決思路。
如果說以分類回歸為代表的預測體現在對標記的預估,那麼生成模型要解決的這類問題更像是對數據的直接建模,從而「預測」更多的數據。
生成模型的本質是密度估計(Density Estimation),其基本思想是首先建立樣本的概率密度模型,再利用模型進行推理預測。生成模型的處理過程會告訴你關於數據的一些統計信息(p(x|y) 的分布等),更接近於統計學。這種方法一般建立在統計學貝葉斯理論的基礎之上。
生成方法由數據學習聯合概率分布,然後求出條件概率分布作為預測模型;生成模型是根據已知的樣本用基於統計方法來估計整個樣本空間的真實分布,它表示了給定輸入 X(訓練樣本)產生輸出 Y(模型樣本)的生成關係。
生成式模型(Generative Model)則會對 x 和 y 的聯合分布 p(x,y) 建模,然後通過貝葉斯公式來求得 p(yi|x),然後選取使得 p(yi|x) 最大的 yi,即: