本文来源 | Chat_《轻松搞定机器学习中的概率统计知识》

作者 | Evan

责编 | 林瑟

学过机器学习的码农都知道,机器学习的算法涉及到大量数学知识,这部分数学知识主要包含三大内容:高等数学、线性代数和概率统计,尤其是概率统计应用更多!这样看来,不会数学的码农不是好 AI 工程师啊!


01

概率在人工智能发展中的作用

背景:Yann LeCun 在一次演讲中提到,他已经做好放弃概率论的准备(“I’m perfectly ready to throw probability theory under the bus.”。他觉得因果关系才是理解世界的基石,才是通向人工智能捷径。

首先这是一个开放性的讨论问题,观点可能非常地多,下面主要聊聊我的观点。


先看概率论的直观局限性。概率论存在的问题与预测的有效性密切相关,请看下面的 GIF 动图:



从图中我们可以很明显看出,它们的分布不同,但右侧显示的统计测量的方法和结果却是相同的。换句话说,如果你的预测是基于概率分布所计算出的期望值(目前很多机器学习算法或者理论就是这样),那么你很容易就被骗了。


创建这些分布的方法和我们在深度学习中发现的渐进方法类似,主要使用摄动方法(Perturbation Method)和模拟退火(Simulated Annealing)。从这个角度看,如果你想骗过一个统计学家,那么深度学习方法会是一个非常方便的工具。


02

机器学习为什么要使用概率


2.1 主要总结为两个原因

1. 很多人说机器学习是老中医星座学,最主要的原因是,机器学习中的很多不可解释性,我们应用概率知识可以解释一部分,并不断地探索概率在机器学习算法中的应用,可以说概率论的发展推动机器学习算法的发展


2. 机器学习通常必须处理不确定量,有时也可能需要处理随机(非确定性的)量。


2.2 不确定性有三种可能的来源

  • 被建模系统内在的随机性:例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌被真正混洗成了随机顺序。假如这个时候你要对这个游戏建模(预测抽的牌点数也好,预测怎么玩才会赢也罢),虽然牌的数量和所有牌有什么是确定的,但是若我们随机抽一张,这个牌是什么是随机的。这个时候就要使用概率去建模了。


  • 不完全观测:例如一个游戏节目的参与者被要求在三个门之间选择,并且会赢得放置在选中门后的奖品。其中两扇门通向山羊,第三扇门通向一辆汽车。 选手的每个选择所导致的结果是确定的,但是站在选手的角度,结果是不确定的。在机器学习中也是这样,很多系统在预测的时候,是不确定的,这个时候我们就要用一个“软度量”即概率去描述它。


  • 不完全建模:假设我们制作了一个机器人,它可以准确地观察周围每一个对象的位置。在对这些对象将来的位置进行预测时,如果机器人采用的是离散化的空间,那么离散化的方法将使得机器人无法确定对象们的精确位置:因为每个对象都可能处于它被观测到的离散单元的任何一个角落。也就是说,当不完全建模时,我们不能明确的确定结果,这个时候的不确定,就需要概率来补充。

03

独立性、条件独立性及马尔可夫性质


3.1 独立性

两个随机变量 x 和 y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x 另一个因子只包含 y,我们就称这两个随机变量是 相互独立的:

3.2 条件独立性

如果关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x 和 y 在给定随机变量 z 时是条件独立的(conditionally independent):

我们可以采用一种简化形式来表示独立性和条件独立性:


x⊥y 表示 x 和 y 相互独立,x⊥y | z 表示 x 和 y 在给定 z 时条件独立。

3.3 马尔可夫性质

当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。


数学上,如果 X(t),t>0X(t),t>0 为一个随机过程,则马尔可夫性质就是指:

04

期望、方差、协方差、相关系数及四分位数


在概率论和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。


离散随机变量:假设 X 是一个离散随机变量,其可能的取值有 {x1,x2,......,xn}{x1,x2,......,xn},各个取值对应的概率取值为 P(xk),k=1,2,......,nP(xk),k=1,2,......,n,则其数学期望被定义为:

4.1 连续型随机变量

假设 X 是一个连续型随机变量,其概率密度函数为 f(x)f(x),则其数学期望被定义为:

4.2 方差

概率中,方差用来衡量随机变量与其数学期望之间的偏离程度;统计中的方差为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下:

4.3 协方差

在概率论和统计学中,协方差被用于衡量两个随机变量 X 和 Y 之间的总体误差。数学定义式为:

4.4 简单相关系数

又叫相关系数或线性相关系数,一般用字母 r 表示,用来度量两个变量间的线性关系。定义式:

其中,Cov(X,Y) 为 X 与 Y 的协方差,Var[X] 为 X 的方差,Var[Y] 为 Y 的方差。


以上只是对概率论的初步介绍,如果想要了解更多,可以查看我的 Chat,在这次分享中,我总结了自己在学习和工作中学到用到的机器学习相关概率统计知识,非常全面、具体和深入!


扫码查看完整原文(附各项公式)

轻松搞定机器学习概率统计学知识


限于篇幅,不能将全文贴出来,点击阅读原文也可以查看完整的文章

相关文章