《Python機器學習基礎教程》二、監督學習

本章首先討論了模型複雜度，然後討論了泛化，或者說學習一個能夠在前所未見的新數據上表現良好的模型。這就引出了欠擬合和過擬合的概念，前者是指一個模型無法獲取訓練數據的所有變化，後者是指模型過分關注訓練數據，但對新數據的泛化性能不好。

本章討論了一系列用於分類和回歸的機器學習模型，各個模型的優點和缺點，以及如何控制它們的模型複雜度。我們發現，對於許多演算法而言，設置正確的參數對模型性能至關重要。有些演算法還對輸入數據的表示方式很敏感，特別是特徵的縮放。因此如果盲目地將一個演算法應用於數據集，而不去理解模型所做的假設以及參數設定的含義，不太可能會得到精度高的模型。

本章包含大量有關演算法的信息，在繼續閱讀後續章節之前你不必記住所有這些細節。但是，這裡提到的有關模型的某些知識（以及在特定情況下使用那些模型）對於在實踐中成功應用機器學習模型是很重要的。關於何時使用哪種模型，下面是一份快速總結。

1.最近鄰

適用於小型數據集，是很好的基準模型，也適用於高維數據。

缺點是預測速度慢且不能處理具有很多特徵的數據集，所以實踐中往往不會用到。

# 分類 from sklearn.model_selection import train_test_split X, y = mglearn.datasets.make_forge() X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)