学习日志之机器学习--基本概念篇2(分类(classification)与回归(regression))
--分类(classification)与回归(regression)--
分类(classification)
一开始进入机器学习,首先要弄清楚他的一些专有名词及其定义,为了方便理解,举一个例子好了,小明热爱水上运动,但并不是每次去做玩水上运动都会很愉快,主要影响他愉不愉快的因素可能是天气,温度,湿度,风力,水温跟天气预报(如果天气预报天气预报说天气会很好,结果却很糟糕,会愉快才有鬼),而天气,温度,湿度,风力,水温跟天气预报即所谓的特征值(feature value),而愉不愉快就是所谓的目标概念(target concept),近一步整理如下图:
样例 |
天气 |
温度 |
湿度 |
风力 |
水温 |
天气预报 |
愉快与否 |
1 |
晴 |
暖 |
普通 |
强 |
暖 |
准 |
是 |
2 |
晴 |
暖 |
大 |
强 |
暖 |
准 |
是 |
3 |
雨 |
冷 |
大 |
强 |
暖 |
不准 |
否 |
4 |
晴 |
暖 |
大 |
强 |
冷 |
不准 |
是 |
以上,取了四天为例,用这四天去让机器学习当然不够,不然怎么叫大数据呢,譬如我们取110天的数据,拿其中的100天的数据让机器去做学习(training),而这100天的数据叫做训练集(training set/data),而剩下10天的数据拿来测试机器学习后的成果,这10天的数据叫做测试集(test set/data),一般所谓的数据库里,一定会包含训练集(training set/data)及测试集(test set/data)。
回归(regression)
另外还需要举另外一个例子,是因为要与小明做水上运动作区别是因为,小明运动后愉快与否答案是"是"或"否"这是类别区分的,即是说它的目标标记是属于类别型数据(category)的此称为分类(classification),而有别于分类(classification),便是我们以下要举例说明的,目标标记为连续性数值(continuous numeric value),称为回归(regression),以美国矽谷房价为例:
样例 |
面积(平方米) |
学区 |
房价(1000$) |
1 |
100 |
8 |
1000 |
2 |
120 |
9 |
1300 |
3 |
60 |
6 |
800 |
4 |
80 |
9 |
1100 |
5 |
90 |
5 |
850 |
#影响美国矽谷房价的洞要因素为面积大小及学区评分(评分为1-10级)
#目标标记为连续性数值(continuous numeric value),称为回归(regression)