這篇內容應用的是sklearn的數據集20news_groups。需要注意的是下載數據集時速度很慢,我已將數據集上傳到github

https://github.com/baiziyuandyufei/text_classification/blob/master/data/20news-bydate.tar.gz?

github.com

下載後,拷貝文件20news-bydate.tar.gz到~/scikit_learn_data/20news_home下

修改文件~/anaconda3/lib/python3.5/site-packages/sklearn/datasets/twenty_newsgroups.py

# archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)
archive_path = "~/scikit_learn_data/20news_home/20news-bydate.tar.gz"

英文新聞分類示例代碼

https://github.com/baiziyuandyufei/text_classification/blob/master/英文新聞分類.py?

github.com

代碼中用到的sklearn庫函數或類會在介紹過所有分類、聚類、特徵抽取基本內容後逐一介紹,並且在介紹時會給出使用這些類和函數的專欄里的文章鏈接。所以請大家不用擔心。歡迎大家向朋友推薦我的專欄。

推薦閱讀:

相关文章