文本分類示例1——英文新聞文本分類
這篇內容應用的是sklearn的數據集20news_groups。需要注意的是下載數據集時速度很慢,我已將數據集上傳到github
https://github.com/baiziyuandyufei/text_classification/blob/master/data/20news-bydate.tar.gz下載後,拷貝文件20news-bydate.tar.gz到~/scikit_learn_data/20news_home下
修改文件~/anaconda3/lib/python3.5/site-packages/sklearn/datasets/twenty_newsgroups.py
# archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)
archive_path = "~/scikit_learn_data/20news_home/20news-bydate.tar.gz"
英文新聞分類示例代碼
https://github.com/baiziyuandyufei/text_classification/blob/master/英文新聞分類.py代碼中用到的sklearn庫函數或類會在介紹過所有分類、聚類、特徵抽取基本內容後逐一介紹,並且在介紹時會給出使用這些類和函數的專欄里的文章鏈接。所以請大家不用擔心。歡迎大家向朋友推薦我的專欄。
推薦閱讀: