一 提出問題

在大數據空間下的各行各業都面臨著被人工智慧取代的時代,更需要對所處地區行業發展有著明確的了解,要求對行業動態有著相對敏銳的察覺進行深入思考。針對在第一關中在拉鉤網上爬取到的上海最新的行業有關數據分析這一崗位的情況,利用excel我進行了數據清洗。

二 理解數據

對爬取的數據大致瀏覽後,刪掉拉鉤網無用的數據和網址,保留與職位有關的職位名稱,企業名稱,地點,薪資,經驗學歷要求以及企業性質

三 數據清洗

所謂數據清洗,即我們所說的數據預處理,把數據整理成我們希望的乾淨的樣子。開始時我們已經把無關數據刪除或隱藏起來,接下來要做的就是認真理解數據,刪除重複值,例如員工ID這種唯一性數據的重複值需要刪除。進一步進行缺失值處理。對於缺失值的處理,可以利用手動補全、刪除、利用平均值替代、利用模型計算出缺失值這四種方法。

接下來進行比較重要的一步:一致化處理。

當爬取的數據存在於列表中某一列時,內容不一致導致後續統計結果不準確,這時可進行一致化處理,點擊數據選項中的分列功能,選擇分隔符號或固定寬度進行分列,把內容分為可直觀看出一致性的及部分。注意分列單元格時把要分列的內容複製到最後面再進行,避免分列後內容覆蓋旁邊單元格的有效信息。

分列功能也可用於表現最高及最低薪水。利用此功能的分隔符號"-"為標誌進行分列得到兩組,再用凈化功能刪除所有的"k"和"-"。日期的格式設置可以用分列方式更改。當然,也可以用文本函數的方法分出高低薪水。

具體步驟是利用FIND和LEN函數通過「k"和"-"定位數位,再利用LEFT函數和MID函數進行欄位的截取,從而得到最高最低數值,此時若還要進行平均值的計算,注意把通過公式的來的最高最低薪水的字元串轉化成數值。

對於薪水的比較,可以通過平均值的大小進行數據排序,可以更直觀的通過我們對薪水的要求進而找到合適的工作崗位。

數據清洗的最後一步也較為重要:異常值處理

對於一些例如崗位名稱的信息,名稱冗多繁雜,沒辦法直觀的過濾掉無用職位信息,這時就需要通過一些關鍵字的查找與定位篩選掉無用信息。這裡我們就需要藉助數據透視表進行分析。

插入數據透視表後,把職位名稱分別拖到行與求和值的部分,這樣就可以得到每個崗位名稱在原始數據表中出現的次數,再根據職位名稱進行降序排列,得到關鍵名稱。

回到原表中,利用IF COUNT FIND函數的組合篩選出無關職位名稱信息,進行"是"與"否"的標記,並用篩選功能篩選出"是」的崗位信息保存為數據新一輪清洗結果文件。

通過描述統計模型分析我們發現上海數據分析崗位薪水處於較高水平。大部分人薪水在15k,16k左右。


推薦閱讀:
相关文章