--分類(classification)回歸(regression)--

分類(classification)

      一開始進入機器學習,首先要弄清楚他的一些專有名詞及其定義,為了方便理解,舉一個例子好了,小明熱愛水上運動,但並不是每次去做玩水上運動都會很愉快,主要影響他愉不愉快的因素可能是天氣,溫度,濕度,風力,水溫跟天氣預報(如果天氣預報天氣預報說天氣會很好,結果卻很糟糕,會愉快纔有鬼),而天氣,溫度,濕度,風力,水溫跟天氣預報即所謂的特徵值(feature value),而愉不愉快就是所謂的目標概念(target concept),近一步整理如下圖:

樣例

天氣

溫度

濕度

風力

水溫

天氣預報

愉快與否

1

普通

2

3

不準

4

不準

 

螢幕快照 2018-04-15 23.52.31.jpg

 

       以上,取了四天為例,用這四天去讓機器學習當然不夠,不然怎麼叫大數據呢,譬如我們取110天的數據,拿其中的100天的數據讓機器去做學習(training),而這100天的數據叫做訓練集(training set/data)而剩下10天的數據拿來測試機器學習後的成果,這10天的數據叫做測試集(test set/data)一般所謂的數據庫裡,一定會包含訓練集(training set/data)測試集(test set/data)

 

 


回歸(regression)

另外還需要舉另外一個例子,是因為要與小明做水上運動作區別是因為,小明運動後愉快與否答案是""""這是類別區分的,即是說它的目標標記是屬於類別型數據(category)的此稱為分類(classification),而有別於分類(classification),便是我們以下要舉例說明的,目標標記連續性數值(continuous numeric value)稱為回歸(regression),以美國矽谷房價為例:

樣例

面積(平方米)

學區

房價(1000$)

1

100

8

1000

2

120

9

1300

3

60

6

800

4

80

9

1100

5

90

5

850

#影響美國矽谷房價的洞要因素為面積大小及學區評分(評分為1-10)

螢幕快照 2018-04-16 00.22.19.jpg

#目標標記連續性數值(continuous numeric value)稱為回歸(regression)

 

 

相關文章