這一步大家不要覺得很簡單,在技術上確實是很簡單,但是這個過程很漫長。如果你編程能力不強的話,加上網速不好、網頁多等等外部原因,這一步是要做非常久的。但是如果技術到位的話,不到一天就可以完成。
捕完龍蝦之後我們要做清理。把撈回來龍蝦裡面的小魚,小石頭甚至垃圾都清理乾淨,因為我們只要龍蝦。反映在技術上就是當我們拿到網頁數據,裡面是有各種各樣亂七八糟的信息的,但我們只要有用的那部分。
我們拿到處理好的龍蝦之後,接下來要剝殼把蝦肉取出來。對於我們的模型來說,這一步就是要把原始的數據進行一些處理,再下一步纔是大家聽到比較多的特徵工程。模型要求你給的是一個矩陣,那麼你只能給他一個矩陣,原始的數據它處理不來,所以我要把這些數據變成矩陣。