機器學習如何入手?

目前研二，想將來從事機器學習相關工作。
目前掌握了吳恩達老師的視頻內容，其中的數學模型都很清楚，之前用tensorflow跑過《21個項目玩轉深度學習》中的手寫數字識別的代碼，並且理解了他的邏輯和語言。目前應同學推薦轉戰pytorch，想畢設和將來工作都做機器學習，現在算是入門，但好些例如VGG,resnet,GAN等等這些網路還沒學過，不知道還有那些需要掌握，也不知道後續應該怎麼做，以及兩年時間學習是否來得及。
對了，本身所在團隊是做合成孔徑雷達（InSAR）的，覺得將來不好找工作就沒繼續下去，但這個感覺可以作為將來畢設融合多學科的一個方向

先附上Scikit-learn中文文檔：

scikit-learn中文社區

在百度中輸入「什麼是機器學習？」並進行搜索後，就彷彿打開了一個潘多拉的魔盒，裡面有各種網站，論壇，百度知道，視頻，學術性研究等，當然還會這篇文章要講的，那就是什麼是機器學習等一系列相關的認知文章，和相關視頻的推薦。而這篇文章的目的也就是為了簡化機器學習的定義和方便人們理解什麼是機器學習。

除了瞭解什麼是機器學習（ML），機器學習的定義之外，我們還旨在簡要概述機器學習的基本原理，讓機器「思考」的挑戰和侷限性，以及今天深入瞭解的一些問題學習（機器學習的「前沿」），以及開發機器學習應用程序的關鍵要點。

本文將分為以下幾個部分：

什麼是機器學習？
我們是如何得出我們的定義的（也就是：專家研究人員的觀點）
機器學習的基本概念
ML模型的可視化表示
我們如何讓機器學習
ML的挑戰和侷限概述
深度學習簡介

無論你對機器學習是否有興趣，我們都將把這些資源整合在一起，以幫助你解決有關機器學習的問題 - 所以你可以查看任何你感興趣的話題，或者按照順序閱讀這篇文章都可以，那麼我們就從下面的機器學習定義開始：

什麼是機器學習？

「機器學習是讓計算機像人類一樣學習和行動的科學，通過以觀察和與現實世界進行互動的形式向他們提供數據和信息，隨著時間的推移，以自主的方式提高計算機的學習能力。」

上述定義包含了機器學習的理想目標或最終目標，正如該領域的許多研究人員所表達的那樣。本文的目的是為具有商業頭腦的讀者提供有關機器學習的定義及其工作原理的專家觀點。機器學習和人工智慧在許多人的腦海中具有相同的定義，但讀者也應該認識到他們其中的一些明顯的差異。

我們是如何得出我們的定義的：

（我們的整理的機器學習定義可以在本文開頭找到）

與任何概念一樣，機器學習的定義可能略有不同，具體取決於你向誰問機器學習的概念。我們梳理了在互聯網中對機器學習的定義，從一些著名的來源中找到五個實用的定義：

「最基本的機器學習是使用演算法解析數據，從中學習，然後對世界上的一些事情做出決定或者是預測。」 - Nvidia
「機器學習是一門不需要明確編程就能讓計算機運行的科學。」 - 斯坦福大學
「機器學習基於演算法，可以從數據中進行學習而不依賴於基於規則的編程。」 - 麥肯錫公司
「機器學習演算法可以通過例子從中挑選出執行最重要任務的方法。」 - 華盛頓大學
「機器學習領域旨在回答這樣一個問題：」我們如何建立能夠根據經驗自動改進的計算機系統，以及管理所有學習過程的基本法則是什麼？「 - 卡內基梅隆大學

我們將這些定義發送給我們採訪過和/或包含在我們之前的研究共識中的專家，並要求他們回答他們最喜歡的定義或提供他們自己的定義。我們的介紹性定義旨在反映不同的反應。以下是他們的一些回復：

蒙特利爾大學Yoshua Bengio博士：

ML不應由否定來定義（因此判定2和3）。而我的定義如下：

機器學習研究是人工智慧研究的一部分，旨在通過數據，觀察和與世界的互動為計算機提供知識。獲得的知識允許計算機能夠正確地推廣到新設置。

Danko Nikolic博士，CSC和Max-Planck研究所：

（選擇上面的數字2）：「機器學習是讓計算機在沒有明確編程的情況下採取行動的科學，而是讓他們自己學習一些技巧。」

路易斯維爾大學Roman Yampolskiy博士：

機器學習是一門讓計算機學習和人類做得更好或更好的科學。

華盛頓大學Emily Fox博士：

我最喜歡的定義是第五個。

機器學的習基本概念

有許多不同類型的機器學習演算法，每天都會有新發布數百種的演算法，並且它們通常按學習風格（即監督學習，無監督學習，半監督學習）或通過形式或功能的相似性（即分類，回歸，決策樹，聚類，深度學習等）。無論學習風格或功能如何，機器學習演算法的所有組合都包含以下內容：

表示（一組分類器或計算機理解的語言）
評估（又名目標/評分功能）
優化（搜索方法;通常是評分最高的分類器;使用現成的和自定義的優化方法）

圖片來源：華盛頓大學Pedro Domingo博士

機器學習演算法的基本目標是在訓練樣本的基礎上進行泛化，即成功解釋之前從未「見過」的數據。

機器學習模型的可視化表示

到目前為止，概念和要點只能走這麼遠。當人們問「什麼是機器學習？」時，他們經常想看看它是什麼以及它做了什麼。以下是機器學習模型的一些可視化表示。

決策樹模型

高斯混合模型

drop神經網路

卷積神經網路合併色度和亮度

我們如何讓機器去學習

有許多不同的方法讓機器學習，從使用基本決策樹到聚類再到人工神經網路層（後者已經讓位於深度學習），這取決於你要完成的任務和類型以及你可用的數據量。這種動力在各種應用中發揮作用，如醫療診斷或自動駕駛汽車。

雖然重點通常放在選擇最佳學習演算法上，但研究人員發現，一些最有趣的問題沒有可用的機器學習演算法的執行標準。大多數情況下，這是訓練數據的問題，但這也發生在使用機器學習在新領域上。

在處理實際應用程序時所做的研究通常會推動該領域的進展，原因有兩個：1.發現現有方法的界限和侷限性的趨勢2.研究人員和開發人員與領域專家合作，利用時間和專業知識來提高系統性能。

有時這也是由「意外」發生的。我們可能會考慮模型集合或許多學習演算法的組合來提高準確性，但有一個例子。2009年Netflix Price的團隊發現，當他們將學習者與其他團隊的學習者結合起來時，他們取得了最好的成績，從而改進了推薦演算法。

在商業和其他領域的應用方面，一個重要的觀點（基於對該領域專家的訪談和對話）是，機器學習不僅僅是一個經常被誤解的概念，甚至與自動化有關，這是一個經常被誤解的概念。如果你這樣想，你一定會錯過機器學習可以提供的寶貴見解和由此產生的機會（重新思考整個商業模式，就像製造業和農業等所做的那樣）。

學習的機器對人類很有用，因為它們具有所有的處理能力，能夠更快地突出顯示或找到人類可能錯過的大數據（或其他）中的模式，否則人類就會錯過這些模式。機器學習是一種工具，可用於增強人類解決問題的能力，並從廣泛的問題中做出明智的推斷，從幫助診斷疾病到提出全球氣候變化的解決方案。

挑戰與侷限

「機器學習無法從無到有......它的作用是從更少的東西中獲得更多。」 - 華盛頓大學Pedro Domingo博士

機器學習中兩個最大的，歷史性的和持續的問題都涉及過度擬合（其中模型表現出對訓練數據的偏見，並且不會推廣到新數據，和/或變化，即在訓練新數據時學習隨機事物）和維度（具有更多特徵的演算法在更高/更多維度上工作，使得理解數據更加困難）。在某些情況下，訪問足夠大的數據集也是主要問題。

機器學習初學者中最常見的錯誤之一是成功地測試訓練數據併產生成功的假象; Domingo（和其他人）強調在測試模型時保持一些數據集獨立的重要性，並且僅使用該保留的數據來測試所選模型，然後對整個數據集進行學習。

當一個學習演算法（即學習者）不起作用時，通常更快的成功之路是為機器提供更多的數據，其可用性現已成為近期機器學習和深度學習演算法進步的主要驅動因素。然而，這可能導致可擴展性問題，在可擴展性中，我們有更多的數據，但是否有時間瞭解數據仍然是一個問題。

就目的而言，機器學習本身並不是目的或解決方案。此外，嘗試將其用作一攬子解決方案即「BLANK」並不是一項有用的做法; 相反，帶著一個問題或目標來到談判桌上往往最好由一個更具體的問題來驅動 - 「BLANK」。

深度學習與神經網路的現代發展

深度學習涉及機器演算法的研究和設計，用於在多個抽象級別（安排計算機系統的方式）學習數據的良好表示。最近通過DeepMind，Facebook和其他機構進行深度學習進行了宣傳，突顯了它作為機器學習的「下一個前沿」。

機器學習國際會議（ICML）被廣泛認為是世界上最重要的會議之一。該會議在今年6月在紐約市舉行，彙集了來自世界各地的研究人員齊聚一堂，他們致力於解決當前深度學習中的挑戰：

小數據集中的無監督學習
基於模擬的學習和對現實世界的可轉移性

深度學習系統在過去十年中在諸如對象檢測和識別，文本到語音，信息檢索等領域取得了巨大的進步。研究現在專註於開發數據高效的機器學習，也就是在個性化醫療、機器人強化學習、情緒分析等前沿領域，開發更搞笑的深度學習系統，在更短的時間和更少的數據下，以同樣的性能進行跟高效的學習。

應用機器學習的關鍵

下面是一系列應用機器學習的最佳實踐和概念，我們已經從我們對播客系列的採訪以及本文末尾引用的選擇來源進行了整理。我們希望這些原則中的一些將闡明如何使用ML，以及如何避免公司和研究人員在啟動ML相關項目時可能容易受到的一些常見陷阱。

可以說，在成功的機器學習項目中最重要的因素是用來描述數據（特定於領域）的特性，並具有足夠的數據來訓練你的模型
大多數情況下，當演算法表現不佳時，這是由於訓練數據存在問題（即數據量不足/數據偏差;數據雜訊較大;或者描述數據的功能不足以做出決策
「簡單並不意味著準確性」 - 根據多明戈的說法，模型的參數數量和過度擬合的趨勢之間沒有特定的聯繫
如果可能的話，應該儘可能的獲得實驗數據（而不是我們無法控制的觀察數據）（例如，從向隨機觀眾進行抽樣發送不同的電子郵件中收集的數據）
無論我們是否標記數據因果關係或相關性，更重要的都是預測我們行為的影響
始終留出一部分訓練數據集進行交叉驗證; 你希望你選擇的分類器或學習演算法在新數據上表現良好

可以先從深度學習入門，NVIDIA DLI學院有一些自主培訓課程，可以參考學習：

人工智慧培訓，CUDA 培訓，GPU 應用，證書 | NVIDIA 深度學習學院?

www.nvidia.cn

發佈於 2020-10-19繼續瀏覽內容

知乎發現更大的世界打開

Chrome繼續

大江東去浪淘盡

從目前來看，沿著卷積神經網路的發展趨勢進行學習，應該是沒錯的，例如

1）AlexNet

AlexNet是2012年提出的，是這一次AI熱潮的起點。

AlexNet

2）ResNet

ResNet的中文名是深度殘差網路，它主要的貢獻是引入了跨層恆等連接。

ResNet

3）殘差收縮網路

殘差收縮網路^[1]^[2]針對的是強噪、高冗餘數據，主要功能部分是「自適應的軟閾值化層」。

（面向強噪、高冗餘數據的）殘差收縮網路

參考

^M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. https://ieeexplore.ieee.org/document/8850096
^代碼 https://github.com/zhao62/Deep-Residual-Shrinkage-Networks

從目前來看，沿著卷積神經網路的發展趨勢進行學習，應該是沒錯的，例如

1）AlexNet

AlexNet是2012年提出的，是這一次AI熱潮的起點。

AlexNet

2）ResNet

ResNet的中文名是深度殘差網路，它主要的貢獻是引入了跨層恆等連接。

ResNet

3）殘差收縮網路

殘差收縮網路^[1]^[2]針對的是強噪、高冗餘數據，主要功能部分是「自適應的軟閾值化層」。

（面向強噪、高冗餘數據的）殘差收縮網路

參考

^M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. https://ieeexplore.ieee.org/document/8850096
^代碼 https://github.com/zhao62/Deep-Residual-Shrinkage-Networks

我有一點經驗，也是剛剛算是入了門了。

看完吳恩達的課之後，一方面是繼續深入的學習理論知識，一方面是進行實踐工作。

理論學習方面，我首先推薦嗶哩嗶哩上許志欽的上海交通大學的網課，更加深入的探究了深度學習是如何工作的，他的課還涉及了部分傳統機器學習的內容。

然後推薦 bilibili 《機器學習白板推導系列》，shuhuai008主講，通過完全手寫的推導，認識到了機器學習的魅力。這個推薦指數是5星的，但是內容量非常大，是個長期觀看的學習過程。

可以看優化理論方面的課程。

可以輔助的閱讀周志華《機器學習》，《深度學習》等書籍。

實踐方面，我一直用tf2.0，我覺得官網的指南是非常好的教程。然後可以根據自己的方向，復現一些該方向的論文。復現不出來的時候，可以在GitHub上看別人的代碼，進行學習。

首先，你確定要走演算法崗嗎？你是研二，入手的話可以有很多視頻的，吳恩達，李宏毅老師的視頻都是很不錯的。其實最為關鍵的就是你的數學基礎尤其是概率統計以及公式的推導，都很重要。看完視頻還得回歸課本。書的話，西瓜書就可以了。其實最為關鍵的是你現在編程怎樣，你要以後從事演算法相關的崗位，首先你應該要有很好的編程能力。尤其是論文的復現能力，這是最基本的要求。否則，不建議你走演算法這條路。最後希望能夠幫到你。你現在研二，做什麼都來得及，祝好運。

　　許多人將機器學習視為通向人工智慧的途徑，但是對於統計學家或商人而言，機器學習也可以是一種強大的工具，可以實現前所未有的預測結果。

　　為什麼機器學習如此重要?

　　在開始學習之前，我們想花一些時間強調WHY機器學習非常重要。

　　總之，每個人都知道人工智慧或人工智慧。通常，當我們聽到AI時，我們會想像機器人到處走動，執行與人類相同的任務。但是，我們必須瞭解，雖然有些任務很容易，但有些任務卻很困難，並且距離擁有像人類一樣的機器人還有很長的路要走。

　　但是，機器學習是非常真實的並且已經存在。它可以被視為AI的一部分，因為當我們想到AI時，我們想像的大部分內容都是基於機器學習的。

　　在過去，我們相信未來的這些機器人將需要向我們學習一切。但是人腦是複雜的，並且並非可以輕鬆描述其協調的所有動作和活動。1959年，亞瑟·塞繆爾(Arthur Samuel)提出了一個絕妙的主意，即我們不需要教計算機，但我們應該讓他們自己學習。塞繆爾(Samuel)也創造了「機器學習」一詞，從那時起，當我們談論機器學習過程時，我們指的是計算機自主學習的能力。

　　機器學習有哪些應用?

　　在準備這篇文章的內容時，我寫下了沒有進一步說明的示例，假定所有人都熟悉它們。然後我想：人們知道這些是機器學習的例子嗎?

　　讓我們考慮一些。

　　自然語言處理，例如翻譯。如果您認為百度翻譯是一本非常好的字典，請再考慮一下。百度翻譯本質上是一組機器學習演算法。百度不需要更新百度 Translate;它會根據不同單詞的使用情況自動更新。

大數據分析機器學習AI入門指南?

www.aaa-cg.com.cn

0基礎小白必知的10種機器學習演算法?

www.aaa-cg.com.cn

機器學習演算法入門到精通的一個指南

Intro目標

掌握線性回歸演算法
掌握邏輯回歸演算法
理解線性支持向量機/非線性支持向量機演算法
理解凸優化的梯度下降演算法
對機器學習中的術語有一定的簡單認識與理解

必啃資料#

谷歌機器學習入門課程：https://developers.google.cn/machine-learning/crash-course/ml-intro?hl=zh-cn
支持向量機：https://monkeylearn.com/blog/introduction-to-support-vector-machines-svm/
線性回歸：https://github.com/Dynmi/Logistic_Regression_with_C
吳恩達 / DeepLearning課程第一部分--深度學習入門

Dive in

目標

掌握原始梯度下降法及變種
掌握一個簡單的全連接神經網路的工作原理
知道2010年後流行的各種機器學習演算法，並基本理解其工作原理

必啃資料

吳恩達 / DeepLearning課程全部
周志華 / 《機器學習》
Andrew Karpathy / 斯坦福CS231n
多查閱網路上的優秀播客

Master

Todo

C語言 / 不調包 / 實現常見運算元
大量閱讀著名paper和最新的頂會優秀Paper
參與知名開源項目，如Tensorflow
參與專業討論與分享

PhD

機器學習領域內，針對某一個具體的點，提出一個創新與改進的課題。針對每個課題，完成一套科研過程。
領導一個大型的ML相關項目，在該領域內製造一定的影響力。

FlyAI競賽服務平臺 https://www.flyai.com

推薦大家學習的同時可以參加一個新的演算法競賽平臺：FlyAI競賽服務平臺，免費使用GPU算力，隨時隨地開始模型訓練；同時，提供免費的企業級GPU訓練資源；支持PyTorch、Tensorflow、Keras等主流機器學習框架；免費50G永久數據空間，安心存儲數據；自動配置環境，可以隨時開始訓練。還有多個演算法工程師交流羣可供學習者們探討學習；更有獎金賽題支持訓練和參加比賽獲取獎金。更多詳情可以訪問FlyAI-AI競賽服務平臺查看

發佈於 2020-12-03繼續瀏覽內容

知乎發現更大的世界打開

Chrome繼續

Xgm

個人覺得先看吳恩達的機器學習的視頻，這個相比統計學習方法和機器學習都更加的簡單易懂，看完這個有個基本瞭解後，再看統計學習方法，這本書的推導更加的詳細。

機器學習如何入手?

什麼是機器學習？

我們是如何得出我們的定義的：

機器學的習基本概念

機器學習模型的可視化表示

我們如何讓機器去學習

挑戰與侷限

深度學習與神經網路的現代發展

應用機器學習的關鍵

參考

參考

熱門新聞

週熱門

機器學習如何入手?

什麼是機器學習？

我們是如何得出我們的定義的：

機器學的習基本概念

機器學習模型的可視化表示

我們如何讓機器去學習

挑戰與侷限

深度學習與神經網路的現代發展

應用機器學習的關鍵

參考

參考

新手如何上手機器學習？

有哪些非黑箱的機器學習模型，或者預測演算法？

為什麼softmax很少會出現[0.5，0.5]？

人工智慧領域裡的Interpretability和Explainability有什麼區別嗎？

如何自學《模式識別與機器學習》這本書？

ACL 2019將會有哪些值得關注的論文？

如果不從事機器學習，人工智慧，大數據這塊，未來還有機會在互聯網賺錢養家嗎？本人三本院校軟體專業。？

本人碩一小白，最近找課題，想問問深度學習GAN這個方向有哪些具有實際應用價值還好發文章的課題?

為什麼batch_size 增大會增加每一步的運算時間？

經典Python入門書籍都是python2.x, 先學這些再轉3.x難不難？

深度學習如何解決低信噪比下的檢測識別問題？

在2019年，使用AMD顯卡是否相當於告別深度學習，未來CUDA在機器學習領域的壟斷有可能被打破嗎？

在深度學習領域，預訓練有一定作用的本質原因是什麼？

小領域知識圖譜應該怎麼構建？

李宏毅 吳恩達誰的課更好?

熱門新聞

週熱門

李宏毅吳恩達誰的課更好?