不要拎著鎚子找釘子


可以做很多東西,比如人臉識別,對話系統搭建,OCR等等,應用用途很廣。


都是在做曲線擬合而已。


我可以說任何行為都可以說是:預測嗎?

走路,下第一步出左腳還是右腳,身體幫你完成預測了;

是么,不是么?


感覺這裡的「預測」更偏向於監督學習,機器學習還能做一些聚類、關聯分析等。


分類:二分類、多分類

聚類:按照某個度量標準,將相似的樣本劃分到同一個類別中

回歸:預測具體的數值,如房價預測

序列標註:如自然語音處理總的詞性標註,將每個詞的對應詞性按順序標出來

序列生成:如翻譯、看圖說話等等

綜上:其實本質上都是使用某一個函數擬合數據轉化成最優化問題,也就是做預測。這些都是人工智慧的基礎、建議在此基礎上去了解一下強化學習,解決連續控制問題,是離人工智慧更近的一門分支,但前提要有機器學習、深度學習的基礎


預測,廣義來說包含了機器學習中的分類和回歸。比如,收集幾種已知植物的資料,並基於這些資料建立分類器,預測未知植物的種類(分類);收集過去幾年的天氣數據來預測明天的天氣溫度(回歸)。分類與回歸的區別在於,回歸需要預測一個具體數值,分類只需預測某一類。但是,機器學習的應用遠不止於此。

1. 聚類:

聚類是常見的非監督學習的例子。通過聚類方法,我們可以找到數據中潛在的聯繫,這也是數據挖掘(data mining)經常使用的方法。聚類也經常被用於推薦系統(recommendation system),比如說電影推薦。將同樣年齡,興趣的人被分在同一組裡,把同組人喜歡的電影推薦給沒有看過的人。

相關文章:

淘寶京東亞馬遜是如何通過機器學習掌握用戶喜好的??

baijiahao.baidu.com圖標

2. 異常檢測:

異常檢測又稱為一類分類問題。需要預測新數據是否屬於「正常」值。區別在於,模型只知道「正常」這一類數據,「非正常」的數據是未知的。此類方法經常應用在,異常數據非常少,或者不容易採集的情況下。比如,工廠來檢測生產線是否出現了問題。通過訓練正常狀態下的數據,如果檢測到非正常的信號, 模型會向工廠發出警告。

Qeexo AutoML的異常檢測案例:

Qeexo AutoML Anomaly Detection Part 1: Data Collection, Model Training?

v.youku.com圖標

3. 生成:

序列生成,是最近ML中比較火的話題。 比如說,前段時間讓人們議論紛紛的Deepfakes(換臉)技術。通過人臉的照片訓練模型,然後生成世上不存在的人的臉。再比如說自動生成歌曲,文章等等。

相關文章:

GAN零基礎入門:從偽造視頻到生成假臉?

baijiahao.baidu.com圖標

以上三類是除了預測以外,機器學習中經常應用的方法。Qeexo最近推出的AutoML平台就包含了聚類和異常檢測的方法。有興趣的話,請點擊鏈接:Qeexo AutoML | Qeexo AutoML 。目前平台限時免費體驗,註冊會員即可使用。


前面的答案說的很好,不要拎著鎚子找釘子,我再展開講講。

我們知道,過去的機器學習,深度學習的主要作用就是分類和回歸,這兩個其實沒有差別:

  • 分類:對類別標籤的預測
  • 回歸:對數值標籤的預測

分類和回歸被用來進行上層的演算法應用,比如推薦,nlp,計算機視覺,是一切演算法的意義所在。如果非要說它們還可以用來做什麼,那應該就是函數空間學習,結構學習和邏輯推理這類中間性工作,但最終應用到的還是預測任務上。

舉個例子,降維和投影是結構學習的一種方式,你當然可以把數據降個維或者映射到語義空間,然後啥也不做,但這沒有任何意義。它最終還是要為預測服務。

而現在的機器學習,除了兩類最主要的應用,還包括生成(Generation)和決策(Decision Making)任務。從技術上講就是從有監督學習向無監督學習和強化學習的擴展,例如基於GAN的對話系統、基於決策的自動駕駛等。機器之間能完成交流、對抗、協作,這些都有助於物聯網,智慧城市在未來的落地。

就是說,機器學習,深度學習只有在落地場景下,才能發揮自己的作用。與其拎著鎚子到處找釘子,不如想想怎麼用好你手裡的鎚子。


分類和回歸好像都屬於預測是吧。

除此之外比較典型應該還有特徵設計生成問題

特徵設計

特徵是定義給定數據集的特性,從而允許最優的學習。事實上,精心設計的特徵對回歸和分類方案的性能都是至關重要的。

然而,從廣義上說,我們所能設計特徵的好壞,從根本上取決於我們對所研究現象的知識水平。我們越了解(在智力和直覺上)手頭數據的生成過程,設計的特徵就越好,或者在理想情況下,教會計算機自己完成這項設計工作。在極端情況下,我們幾乎完全理解數據的生成過程,這些知識來自於大量直觀的、實驗性的以及數學上的思考,我們設計的特徵也會有近乎完美的性能。

通常情況下,我們對正在分析的數據只了解一點,甚至一點也不了解。宇宙巨大而複雜,關於它如何運行的確切理解,我們知道的還只是鳳毛麟角。機器學習的一個最終目標是開發有效的工具來處理任意類型的數據(發現其中的模式)。該目標現在還遠未得到充分實現,從根本上來說,它要解決的問題與尋找好的特徵有關。

一個現代的特徵設計示例是視覺目標檢測任務。在該任務中,我們對數據生成的底層過程只有部分了解。即使在一知半解的情況下,也可以為目標檢測設計出有用的特徵。

在視覺分類任務的特徵設計過程中,最重要且最常見的一個事實是,一幅自然圖像中的辨別信息很大程度上被包含在圖像內相對較少的邊緣中。自然圖像中的人可能會置身於森林或者戶外場景、城市風光、其他人群、動物以及建築物等中。深度學習在解決這類特徵設計的任務中,每一個神經元的作用就類似於一個個小的「邊緣檢測器」,這與人類神經學中對事物特徵的觀測是很可能相似的。

生成問題

生成問題嚴格來說不是一種問題,而生成模型確實是一種區別於判別模型的解決思路。

如果說以分類回歸為代表的預測體現在對標記的預估,那麼生成模型要解決的這類問題更像是對數據的直接建模,從而「預測」更多的數據。

生成模型的本質是密度估計(Density Estimation),其基本思想是首先建立樣本的概率密度模型,再利用模型進行推理預測。生成模型的處理過程會告訴你關於數據的一些統計信息(p(x|y) 的分布等),更接近於統計學。這種方法一般建立在統計學貝葉斯理論的基礎之上。

生成方法由數據學習聯合概率分布,然後求出條件概率分布作為預測模型;生成模型是根據已知的樣本用基於統計方法來估計整個樣本空間的真實分布,它表示了給定輸入 X(訓練樣本)產生輸出 Y(模型樣本)的生成關係。

生成式模型(Generative Model)則會對 x 和 y 的聯合分布 p(x,y) 建模,然後通過貝葉斯公式來求得 p(yi|x),然後選取使得 p(yi|x) 最大的 yi,即:

機器學習中,生成模型可以用來直接對數據建模(例如根據某個變數的概率密度函數進行數據採樣)。如果觀測數據是由生成模型中採樣的,那麼最大化數據似然概率是一個常見的方法。

判別模型是一種對未知數據 y 與已知數據 x 之間關係進行建模的方法。判別模型是一種基於概率理論的方法。已知輸入變數 x,判別模型通過構建條件概率分布(p(y|x)預測 y。

與生成模型不同,判別模型不考慮 x 與 y 間的聯合分布。對於諸如分類和回歸問題,由於不考慮聯合概率分布,採用判別模型可以取得更好的效果。而生成模型在刻畫複雜學習任務中的依賴關係方面則較判別模型更加靈活。大部分判別模型本身是監督學習模型,不易擴展用於非監督學習過程。實踐中,需根據應用的具體特性來選取判別模型或生成模型。

常見的生成式模型有 隱馬爾可夫模型 HMM、樸素貝葉斯模型、高斯混合模型 GMM、LDA 等。判別式模型(Discriminative Model)是直接對條件概率 p(y|x;θ) 建模。常見的判別式模型有 線性回歸模型、線性判別分析、支持向量機 SVM、神經網路等。

兩種方法目前交叉較多。由生成式模型可以得到判別式模型,但由判別式模型得不到生成式模型。在實際分類問題中,判別模型可以直接用來判斷特徵的類別情況,而生成模型,需要加上貝耶斯法則,然後應用到分類中。但是,生成模型的概率分布可以還有其他應用,就是說生成模型更一般更普適。不過判別模型更直接,更簡單。生成模型使用聯合概率建模,判別模型直接使用條件概率建模。一個類似模板匹配,一個是分類回歸。


深度學習當然不只是預測了,有些人對深度學習的應用不是很了解啊,當然深度學習應用最多的就是給一個輸入預測結果。但如果僅僅是這樣,深度學習的魅力就沒那麼吸引人了。

深度學習的神經網路是學習權重的,這個大多數人都知道,然後利用權重進行預測。拿全鏈接網路舉例,一層全鏈接去掉偏置後的結果是一個權重矩陣,想想如果不要預測結果只是想要權重矩陣回事什麼樣子?

在自然語言處理的領域大名鼎鼎的詞向量就是一個訓練後的權重矩陣。詞向量需要表達的是

男人-女人 ~國王-王后

上面兩邊的詞向量做減法後應當相似,解決這個問題的通用方法是2013年Google提出的Word2Vec演算法,這個演算法先利用詞編碼為one-hot,然後利用上下文兩個詞one-hot編碼作為輸入和輸出訓練,最後得到網路權重,權重就是所有詞的詞向量。

這種思想簡單而實用,是自然語音處理的標配,也是一種神經網路無監督學習的範例,也解釋了網路權重的含義。怎麼樣是不是很有啟發,如果能解釋卷積核的權重那將會是巨大的進步。

所以神經網路不知是預測什麼東西,我還記得有人利用神經網路學習星星的運行軌跡,最後能解釋萬有引力,牛頓棺材板又壓不住了(:逃


預測在機器學習和深度學習中,主要是運用了回歸和分類演算法。其實在應用領域裡,機器學習和深度學習能做的事情非常多,在此,我只簡單羅列一些例子出來供大家參考,詳細的可以慢慢討論哈!


所謂「學習」其實就是一個最優化的過程,是尋找函數映射的最佳擬合,如果把「預測」理解為給定變數求函數值,那學習的確就是為了預測了吧


機器學習和深度學習本身就像是一種函數的映射,學習函數的映射關係,你想學的映射關係不一樣,得出的結果也是不一樣的。

就比如分類(也可以算作你說的預測吧),圖像的可以看做是利用函數將一個大空間的數據樣本映射到一個小的空間數據,具體的映射關係就是機器學習或者深度學習要學習的參數。

比如生成圖像,就是將一個小空間的雜訊數據映射到一個大的空間中,成為一個新的樣本,同樣具體的參數就是我們要學得的。

也就是看你想幹什麼,除此之外還有很多,比如圖像分割,視頻分類,文本的分類,文本的生成,甚至還能生成新的視頻,新的文本。

除此之外機器學習還包括強化學習,也就是AlphaGo的那一套,學習回報函數,學習下一步應該怎麼走來獲得更好的結局,所以你說的預測有可能是這個,當然不管怎麼樣,都需要好的設計,包括網路模型和網路損失函數等等。

綜上所述,有很多好的東西等等探索,你僅僅說一個預測,光從表述上看就有點……


一般分兩個大方向,一是判別,或者說是你提到的預測,它是通過分布得到決策的過程,如分類任務等。另一個是生成,是一個通過最大化概率得到分布的過程,比如近來比較熱門的各類生成任務。


預測都包括所以了。

所有問題都能預測了還有問題嘛?

可以問能解決什麼問題。

可以問能用到什麼領域。

這問題提的 答案也是答非所問


機器學習和深度學習可以做故障診斷。

故障診斷其實是一個分類的問題。機器學習最擅長的,正是分類。

例如,基於深度殘差收縮網路的故障診斷[1][2]

參考

  1. ^Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690. https://ieeexplore.ieee.org/document/8850096
  2. ^基於深度殘差收縮網路的故障診斷 https://blog.csdn.net/Jordanisxu/article/details/105007339


除了預測還有生成。。。


謝邀。當然不止是預測,除了預測應該還有:

  • 擬合(語音合成、圖像增強、視頻換幀、小說生成)
  • 識別(圖像語義識別、自然語言識別)
  • 決策(增強學習,在reward estimation模塊中有預測的成分)
  • 分類(嚴格意義上來說也是預測)

謝謝。


分類,決策,推理


還可以做回歸等

視覺領域可以做分類、分割、檢測、識別等工作

數據分析領域可以做:預測價格、信用評估等

綜上:可以做很多方面的知識

更多精彩內容可以關注公眾號「AI演算法與數學之美」


推薦閱讀:
相关文章