--分类(classification)回归(regression)--

分类(classification)

      一开始进入机器学习,首先要弄清楚他的一些专有名词及其定义,为了方便理解,举一个例子好了,小明热爱水上运动,但并不是每次去做玩水上运动都会很愉快,主要影响他愉不愉快的因素可能是天气,温度,湿度,风力,水温跟天气预报(如果天气预报天气预报说天气会很好,结果却很糟糕,会愉快才有鬼),而天气,温度,湿度,风力,水温跟天气预报即所谓的特征值(feature value),而愉不愉快就是所谓的目标概念(target concept),近一步整理如下图:

样例

天气

温度

湿度

风力

水温

天气预报

愉快与否

1

普通

2

3

不准

4

不准

 

萤幕快照 2018-04-15 23.52.31.jpg

 

       以上,取了四天为例,用这四天去让机器学习当然不够,不然怎么叫大数据呢,譬如我们取110天的数据,拿其中的100天的数据让机器去做学习(training),而这100天的数据叫做训练集(training set/data)而剩下10天的数据拿来测试机器学习后的成果,这10天的数据叫做测试集(test set/data)一般所谓的数据库里,一定会包含训练集(training set/data)测试集(test set/data)

 

 


回归(regression)

另外还需要举另外一个例子,是因为要与小明做水上运动作区别是因为,小明运动后愉快与否答案是""""这是类别区分的,即是说它的目标标记是属于类别型数据(category)的此称为分类(classification),而有别于分类(classification),便是我们以下要举例说明的,目标标记连续性数值(continuous numeric value)称为回归(regression),以美国矽谷房价为例:

样例

面积(平方米)

学区

房价(1000$)

1

100

8

1000

2

120

9

1300

3

60

6

800

4

80

9

1100

5

90

5

850

#影响美国矽谷房价的洞要因素为面积大小及学区评分(评分为1-10)

萤幕快照 2018-04-16 00.22.19.jpg

#目标标记连续性数值(continuous numeric value)称为回归(regression)

 

 

相关文章