學習日誌之機器學習--基本概念篇2(分類(classification)與回歸(regression))
--分類(classification)與回歸(regression)--
分類(classification)
一開始進入機器學習,首先要弄清楚他的一些專有名詞及其定義,為了方便理解,舉一個例子好了,小明熱愛水上運動,但並不是每次去做玩水上運動都會很愉快,主要影響他愉不愉快的因素可能是天氣,溫度,濕度,風力,水溫跟天氣預報(如果天氣預報天氣預報說天氣會很好,結果卻很糟糕,會愉快纔有鬼),而天氣,溫度,濕度,風力,水溫跟天氣預報即所謂的特徵值(feature value),而愉不愉快就是所謂的目標概念(target concept),近一步整理如下圖:
樣例 |
天氣 |
溫度 |
濕度 |
風力 |
水溫 |
天氣預報 |
愉快與否 |
1 |
晴 |
暖 |
普通 |
強 |
暖 |
準 |
是 |
2 |
晴 |
暖 |
大 |
強 |
暖 |
準 |
是 |
3 |
雨 |
冷 |
大 |
強 |
暖 |
不準 |
否 |
4 |
晴 |
暖 |
大 |
強 |
冷 |
不準 |
是 |
以上,取了四天為例,用這四天去讓機器學習當然不夠,不然怎麼叫大數據呢,譬如我們取110天的數據,拿其中的100天的數據讓機器去做學習(training),而這100天的數據叫做訓練集(training set/data),而剩下10天的數據拿來測試機器學習後的成果,這10天的數據叫做測試集(test set/data),一般所謂的數據庫裡,一定會包含訓練集(training set/data)及測試集(test set/data)。
回歸(regression)
另外還需要舉另外一個例子,是因為要與小明做水上運動作區別是因為,小明運動後愉快與否答案是"是"或"否"這是類別區分的,即是說它的目標標記是屬於類別型數據(category)的此稱為分類(classification),而有別於分類(classification),便是我們以下要舉例說明的,目標標記為連續性數值(continuous numeric value),稱為回歸(regression),以美國矽谷房價為例:
樣例 |
面積(平方米) |
學區 |
房價(1000$) |
1 |
100 |
8 |
1000 |
2 |
120 |
9 |
1300 |
3 |
60 |
6 |
800 |
4 |
80 |
9 |
1100 |
5 |
90 |
5 |
850 |
#影響美國矽谷房價的洞要因素為面積大小及學區評分(評分為1-10級)
#目標標記為連續性數值(continuous numeric value),稱為回歸(regression)