目前研二,想将来从事机器学习相关工作。

目前掌握了吴恩达老师的视频内容,其中的数学模型都很清楚,之前用tensorflow跑过《21个项目玩转深度学习》中的手写数字识别的代码,并且理解了他的逻辑和语言。目前应同学推荐转战pytorch,想毕设和将来工作都做机器学习,现在算是入门,但好些例如VGG,resnet,GAN等等这些网路还没学过,不知道还有那些需要掌握,也不知道后续应该怎么做,以及两年时间学习是否来得及。

对了,本身所在团队是做合成孔径雷达(InSAR)的,觉得将来不好找工作就没继续下去,但这个感觉可以作为将来毕设融合多学科的一个方向


先附上Scikit-learn中文文档:

scikit-learn中文社区

在百度中输入「什么是机器学习?」并进行搜索后,就仿佛打开了一个潘多拉的魔盒,里面有各种网站,论坛,百度知道,视频,学术性研究等,当然还会这篇文章要讲的,那就是什么是机器学习等一系列相关的认知文章,和相关视频的推荐。而这篇文章的目的也就是为了简化机器学习的定义和方便人们理解什么是机器学习。

除了了解什么是机器学习(ML),机器学习的定义之外,我们还旨在简要概述机器学习的基本原理,让机器「思考」的挑战和局限性,以及今天深入了解的一些问题学习(机器学习的「前沿」),以及开发机器学习应用程序的关键要点。

本文将分为以下几个部分:

  • 什么是机器学习?
  • 我们是如何得出我们的定义的(也就是:专家研究人员的观点)
  • 机器学习的基本概念
  • ML模型的可视化表示
  • 我们如何让机器学习
  • ML的挑战和局限概述
  • 深度学习简介

无论你对机器学习是否有兴趣,我们都将把这些资源整合在一起,以帮助你解决有关机器学习的问题 - 所以你可以查看任何你感兴趣的话题,或者按照顺序阅读这篇文章都可以,那么我们就从下面的机器学习定义开始:

什么是机器学习?

「机器学习是让计算机像人类一样学习和行动的科学,通过以观察和与现实世界进行互动的形式向他们提供数据和信息,随著时间的推移,以自主的方式提高计算机的学习能力。」

上述定义包含了机器学习的理想目标或最终目标,正如该领域的许多研究人员所表达的那样。本文的目的是为具有商业头脑的读者提供有关机器学习的定义及其工作原理的专家观点。 机器学习和人工智慧在许多人的脑海中具有相同的定义,但读者也应该认识到他们其中的一些明显的差异。

我们是如何得出我们的定义的:

(我们的整理的机器学习定义可以在本文开头找到)

与任何概念一样,机器学习的定义可能略有不同,具体取决于你向谁问机器学习的概念。我们梳理了在互联网中对机器学习的定义,从一些著名的来源中找到五个实用的定义:

  1. 「最基本的机器学习是使用演算法解析数据,从中学习,然后对世界上的一些事情做出决定或者是预测。」 - Nvidia
  2. 「机器学习是一门不需要明确编程就能让计算机运行的科学。」 - 斯坦福大学
  3. 「机器学习基于演算法,可以从数据中进行学习而不依赖于基于规则的编程。」 - 麦肯锡公司
  4. 「机器学习演算法可以通过例子从中挑选出执行最重要任务的方法。」 - 华盛顿大学
  5. 「机器学习领域旨在回答这样一个问题:」我们如何建立能够根据经验自动改进的计算机系统,以及管理所有学习过程的基本法则是什么?「 - 卡内基梅隆大学

我们将这些定义发送给我们采访过和/或包含在我们之前的研究共识中的专家,并要求他们回答他们最喜欢的定义或提供他们自己的定义。我们的介绍性定义旨在反映不同的反应。以下是他们的一些回复:

蒙特利尔大学Yoshua Bengio博士:

ML不应由否定来定义(因此判定2和3)。而我的定义如下:

机器学习研究是人工智慧研究的一部分,旨在通过数据,观察和与世界的互动为计算机提供知识。获得的知识允许计算机能够正确地推广到新设置。

Danko Nikolic博士,CSC和Max-Planck研究所:

(选择上面的数字2):「机器学习是让计算机在没有明确编程的情况下采取行动的科学,而是让他们自己学习一些技巧。」

路易斯维尔大学Roman Yampolskiy博士:

机器学习是一门让计算机学习和人类做得更好或更好的科学。

华盛顿大学Emily Fox博士:

我最喜欢的定义是第五个。

机器学的习基本概念

有许多不同类型的机器学习演算法,每天都会有新发布数百种的演算法,并且它们通常按学习风格(即监督学习,无监督学习,半监督学习)或通过形式或功能相似性(即分类,回归,决策树,聚类,深度学习等)。无论学习风格或功能如何,机器学习演算法的所有组合都包含以下内容:

  • 表示(一组分类器或计算机理解的语言)
  • 评估(又名目标/评分功能)
  • 优化(搜索方法;通常是评分最高的分类器;使用现成的和自定义的优化方法)

图片来源:华盛顿大学Pedro Domingo博士

机器学习演算法的基本目标是在训练样本的基础上进行泛化,即成功解释之前从未「见过」的数据。

机器学习模型的可视化表示

到目前为止,概念和要点只能走这么远。当人们问「什么是机器学习?」时,他们经常想看看它是什么以及它做了什么。以下是机器学习模型的一些可视化表示。

  • 决策树模型

  • 高斯混合模型

  • drop神经网路

  • 卷积神经网路合并色度和亮度

我们如何让机器去学习

有许多不同的方法让机器学习,从使用基本决策树到聚类再到人工神经网路层(后者已经让位于深度学习),这取决于你要完成的任务和类型以及你可用的数据量。这种动力在各种应用中发挥作用,如医疗诊断或自动驾驶汽车。

虽然重点通常放在选择最佳学习演算法上,但研究人员发现,一些最有趣的问题没有可用的机器学习演算法的执行标准。大多数情况下,这是训练数据的问题,但这也发生在使用机器学习在新领域上。

在处理实际应用程序时所做的研究通常会推动该领域的进展,原因有两个:1.发现现有方法的界限和局限性的趋势2.研究人员和开发人员与领域专家合作,利用时间和专业知识来提高系统性能。

有时这也是由「意外」发生的。我们可能会考虑模型集合或许多学习演算法的组合来提高准确性,但有一个例子。2009年Netflix Price的团队发现,当他们将学习者与其他团队的学习者结合起来时,他们取得了最好的成绩,从而改进了推荐演算法。

在商业和其他领域的应用方面,一个重要的观点(基于对该领域专家的访谈和对话)是,机器学习不仅仅是一个经常被误解的概念,甚至与自动化有关,这是一个经常被误解的概念。如果你这样想,你一定会错过机器学习可以提供的宝贵见解和由此产生的机会(重新思考整个商业模式,就像制造业和农业等所做的那样)。

学习的机器对人类很有用,因为它们具有所有的处理能力,能够更快地突出显示或找到人类可能错过的大数据(或其他)中的模式,否则人类就会错过这些模式。机器学习是一种工具,可用于增强人类解决问题的能力,并从广泛的问题中做出明智的推断,从帮助诊断疾病到提出全球气候变化的解决方案。

挑战与局限

「机器学习无法从无到有......它的作用是从更少的东西中获得更多。」 - 华盛顿大学Pedro Domingo博士

机器学习中两个最大的,历史性的和持续的问题都涉及过度拟合(其中模型表现出对训练数据的偏见,并且不会推广到新数据,和/或变化,即在训练新数据时学习随机事物)和维度(具有更多特征的演算法在更高/更多维度上工作,使得理解数据更加困难)。在某些情况下,访问足够大的数据集也是主要问题。

机器学习初学者中最常见的错误之一是成功地测试训练数据并产生成功的假象; Domingo(和其他人)强调在测试模型时保持一些数据集独立的重要性,并且仅使用该保留的数据来测试所选模型,然后对整个数据集进行学习。

当一个学习演算法(即学习者)不起作用时,通常更快的成功之路是为机器提供更多的数据,其可用性现已成为近期机器学习和深度学习演算法进步的主要驱动因素。 然而,这可能导致可扩展性问题,在可扩展性中,我们有更多的数据,但是否有时间了解数据仍然是一个问题。

就目的而言,机器学习本身并不是目的或解决方案。此外,尝试将其用作一揽子解决方案即「BLANK」并不是一项有用的做法; 相反,带著一个问题或目标来到谈判桌上往往最好由一个更具体的问题来驱动 - 「BLANK」。

深度学习与神经网路的现代发展

深度学习涉及机器演算法的研究和设计,用于在多个抽象级别(安排计算机系统的方式)学习数据的良好表示。最近通过DeepMind,Facebook和其他机构进行深度学习进行了宣传,突显了它作为机器学习的「下一个前沿」。

机器学习国际会议(ICML)被广泛认为是世界上最重要的会议之一。该会议在今年6月在纽约市举行,汇集了来自世界各地的研究人员齐聚一堂,他们致力于解决当前深度学习中的挑战:

  1. 小数据集中的无监督学习
  2. 基于模拟的学习和对现实世界的可转移性

深度学习系统在过去十年中在诸如对象检测和识别,文本到语音,信息检索等领域取得了巨大的进步。研究现在专注于开发数据高效的机器学习,也就是在个性化医疗、机器人强化学习、情绪分析等前沿领域,开发更搞笑的深度学习系统,在更短的时间和更少的数据下,以同样的性能进行跟高效的学习。

应用机器学习的关键

下面是一系列应用机器学习的最佳实践和概念,我们已经从我们对播客系列的采访以及本文末尾引用的选择来源进行了整理。我们希望这些原则中的一些将阐明如何使用ML,以及如何避免公司和研究人员在启动ML相关项目时可能容易受到的一些常见陷阱。

  • 可以说,在成功的机器学习项目中最重要的因素是用来描述数据(特定于领域)的特性,并具有足够的数据来训练你的模型
  • 大多数情况下,当演算法表现不佳时,这是由于训练数据存在问题(即数据量不足/数据偏差;数据杂讯较大;或者描述数据的功能不足以做出决策
  • 「简单并不意味著准确性」 - 根据多明戈的说法,模型的参数数量和过度拟合的趋势之间没有特定的联系
  • 如果可能的话,应该尽可能的获得实验数据(而不是我们无法控制的观察数据)(例如,从向随机观众进行抽样发送不同的电子邮件中收集的数据)
  • 无论我们是否标记数据因果关系或相关性,更重要的都是预测我们行为的影响
  • 始终留出一部分训练数据集进行交叉验证; 你希望你选择的分类器或学习演算法在新数据上表现良好


可以先从深度学习入门,NVIDIA DLI学院有一些自主培训课程,可以参考学习:

人工智慧培训,CUDA 培训,GPU 应用,证书 | NVIDIA 深度学习学院?

www.nvidia.cn图标发布于 2020-10-19继续浏览内容知乎发现更大的世界打开Chrome继续大江东去大江东去浪淘尽

从目前来看,沿著卷积神经网路的发展趋势进行学习,应该是没错的,例如

1)AlexNet

AlexNet是2012年提出的,是这一次AI热潮的起点。

AlexNet

2)ResNet

ResNet的中文名是深度残差网路,它主要的贡献是引入了跨层恒等连接。

ResNet

3)残差收缩网路

残差收缩网路[1][2]针对的是强噪、高冗余数据,主要功能部分是「自适应的软阈值化层」。

(面向强噪、高冗余数据的)残差收缩网路

参考

  1. ^M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. https://ieeexplore.ieee.org/document/8850096
  2. ^代码 https://github.com/zhao62/Deep-Residual-Shrinkage-Networks


从目前来看,沿著卷积神经网路的发展趋势进行学习,应该是没错的,例如

1)AlexNet

AlexNet是2012年提出的,是这一次AI热潮的起点。

AlexNet

2)ResNet

ResNet的中文名是深度残差网路,它主要的贡献是引入了跨层恒等连接。

ResNet

3)残差收缩网路

残差收缩网路[1][2]针对的是强噪、高冗余数据,主要功能部分是「自适应的软阈值化层」。

(面向强噪、高冗余数据的)残差收缩网路

参考

  1. ^M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. https://ieeexplore.ieee.org/document/8850096
  2. ^代码 https://github.com/zhao62/Deep-Residual-Shrinkage-Networks


我有一点经验,也是刚刚算是入了门了。

看完吴恩达的课之后,一方面是继续深入的学习理论知识,一方面是进行实践工作。

理论学习方面,我首先推荐哔哩哔哩上 许志钦 的上海交通大学的网课,更加深入的探究了深度学习是如何工作的,他的课还涉及了部分传统机器学习的内容。

然后推荐 bilibili 《机器学习白板推导系列》,shuhuai008主讲,通过完全手写的推导,认识到了机器学习的魅力。这个推荐指数是5星的,但是内容量非常大,是个长期观看的学习过程。

可以看优化理论方面的课程。

可以辅助的阅读 周志华《机器学习》,《深度学习》等书籍。

实践方面,我一直用tf2.0,我觉得官网的指南是非常好的教程。然后可以根据自己的方向,复现一些该方向的论文。复现不出来的时候,可以在GitHub上看别人的代码,进行学习。


首先,你确定要走演算法岗吗?你是研二,入手的话可以有很多视频的,吴恩达,李宏毅老师的视频都是很不错的。其实最为关键的就是你的数学基础尤其是概率统计以及公式的推导,都很重要。看完视频还得回归课本。书的话,西瓜书就可以了。其实最为关键的是你现在编程怎样,你要以后从事演算法相关的岗位,首先你应该要有很好的编程能力。尤其是论文的复现能力,这是最基本的要求。否则,不建议你走演算法这条路。最后希望能够帮到你。你现在研二,做什么都来得及,祝好运。


  许多人将机器学习视为通向人工智慧的途径,但是对于统计学家或商人而言,机器学习也可以是一种强大的工具,可以实现前所未有的预测结果。

  为什么机器学习如此重要?

  在开始学习之前,我们想花一些时间强调WHY机器学习非常重要。

  总之,每个人都知道人工智慧或人工智慧。通常,当我们听到AI时,我们会想像机器人到处走动,执行与人类相同的任务。但是,我们必须了解,虽然有些任务很容易,但有些任务却很困难,并且距离拥有像人类一样的机器人还有很长的路要走。

  但是,机器学习是非常真实的并且已经存在。它可以被视为AI的一部分,因为当我们想到AI时,我们想像的大部分内容都是基于机器学习的。

  在过去,我们相信未来的这些机器人将需要向我们学习一切。但是人脑是复杂的,并且并非可以轻松描述其协调的所有动作和活动。1959年,亚瑟·塞缪尔(Arthur Samuel)提出了一个绝妙的主意,即我们不需要教计算机,但我们应该让他们自己学习。塞缪尔(Samuel)也创造了「机器学习」一词,从那时起,当我们谈论机器学习过程时,我们指的是计算机自主学习的能力。

  机器学习有哪些应用?

  在准备这篇文章的内容时,我写下了没有进一步说明的示例,假定所有人都熟悉它们。然后我想:人们知道这些是机器学习的例子吗?

  让我们考虑一些。

  自然语言处理,例如翻译。如果您认为百度翻译是一本非常好的字典,请再考虑一下。百度翻译本质上是一组机器学习演算法。百度不需要更新百度 Translate;它会根据不同单词的使用情况自动更新。

大数据分析机器学习AI入门指南?

www.aaa-cg.com.cn

0基础小白必知的10种机器学习演算法?

www.aaa-cg.com.cn


机器学习演算法入门到精通的一个指南

Intro目标
  • 掌握线性回归演算法
  • 掌握逻辑回归演算法
  • 理解线性支持向量机/非线性支持向量机演算法
  • 理解凸优化的梯度下降演算法
  • 对机器学习中的术语有一定的简单认识与理解

必啃资料#

  • 谷歌机器学习入门课程:https://developers.google.cn/machine-learning/crash-course/ml-intro?hl=zh-cn
  • 支持向量机:https://monkeylearn.com/blog/introduction-to-support-vector-machines-svm/
  • 线性回归:https://github.com/Dynmi/Logistic_Regression_with_C
  • 吴恩达 / DeepLearning课程第一部分--深度学习入门

Dive in

目标
  • 掌握原始梯度下降法及变种
  • 掌握一个简单的全连接神经网路的工作原理
  • 知道2010年后流行的各种机器学习演算法,并基本理解其工作原理

必啃资料

  • 吴恩达 / DeepLearning课程全部
  • 周志华 / 《机器学习》
  • Andrew Karpathy / 斯坦福CS231n
  • 多查阅网路上的优秀播客

Master

Todo
  • C语言 / 不调包 / 实现常见运算元
  • 大量阅读著名paper和最新的顶会优秀Paper
  • 参与知名开源项目,如Tensorflow
  • 参与专业讨论与分享

PhD

  • 机器学习领域内,针对某一个具体的点,提出一个创新与改进的课题。针对每个课题,完成一套科研过程。
  • 领导一个大型的ML相关项目,在该领域内制造一定的影响力。

FlyAI竞赛服务平台 https://www.flyai.com

推荐大家学习的同时可以参加一个新的演算法竞赛平台:FlyAI竞赛服务平台,免费使用GPU算力,随时随地开始模型训练;同时,提供免费的企业级GPU训练资源;支持PyTorch、Tensorflow、Keras等主流机器学习框架;免费50G永久数据空间,安心存储数据;自动配置环境,可以随时开始训练。还有多个演算法工程师交流群可供学习者们探讨学习;更有奖金赛题支持训练和参加比赛获取奖金。更多详情可以访问FlyAI-AI竞赛服务平台查看

发布于 2020-12-03继续浏览内容知乎发现更大的世界打开Chrome继续XgmXgm

个人觉得先看吴恩达的机器学习的视频,这个相比统计学习方法和机器学习都更加的简单易懂,看完这个有个基本了解后,再看统计学习方法,这本书的推导更加的详细。


个人觉得先看吴恩达的机器学习的视频,这个相比统计学习方法和机器学习都更加的简单易懂,看完这个有个基本了解后,再看统计学习方法,这本书的推导更加的详细。


推荐阅读:
相关文章