一、提出問題
1.哪些城市對數據分析師的需求量比較大?
2.數據分析師在不同城市的平均薪資對比
3.學歷和工作年限對薪資的影響
二、理解數據
Excel中數據類型:字元串(不能用於計算)、數值、邏輯(TUREFALSE)
tips:數字在單元格中左對齊為字元串類型,數字在單元格中右對齊為數字類型
三、數據清洗
1.選擇子集 :隱藏不等於刪除,將不利於數據分析的數據隱藏。在拿到原始數據的時候記得備份,保持數據的完整性。
tips:選中整列右鍵—隱藏;開始—格式—取消隱藏
2.列名重命名:將不便於理解的列名改為便有理解的,雙擊單元格即可修改,在此不做過多贅述。
3.刪除重複值:數據—刪除重複項—選擇唯一標示(在這裡我利用職位ID來刪除重複項)
4.缺失值處理:檢查每一列的值是否一致(右下角有總體技術)
tips:選中所在列—開始—查找和選擇—定位條件—空值—輸入值(輸入結束同時按下Ctrl+Enter可以一次性人工補缺)
缺失值處理的4種辦法:
4.1通過人工手動補全
4.2刪除缺失值
4.3用平均值代替缺失值
4.4用統計模型計算出的值去代替缺失值
5.一致化處理:來確定數據是否有統一標準或命名
這裡我們要介紹一下分列,我們先將要分列的整列複製到最後一列,因為分列出來的新的一列會覆蓋後面的列。
查找和替換 :開始—查找和選擇—替換(注意英文符號)
下圖我們可以看到薪水的大致範圍,不利於數據分析,這裡我們將其分列處理,計算出薪水的平均值便於我們數據分析。
首先我們在空白列新建最低薪水,最高薪水,平均薪水三列。然後利用函數進行數字截取。
這裡我們要介紹FIND()函數和LEFT()函數
tips:滑鼠放在單元格右下角自動變成十字架形狀,雙擊十字架,將函數應用到這一整列數據上。
這裡的最低薪水和最高薪水都是字元串類型不能用於計算,所以我們要將字元串類型轉化為數值類型:
篩選:按條件查找數據 數據—篩選—列框—#value
這裡最高薪水我們讓他等於最低薪水
最終通過AVG()函數得到平均薪水
6.數據排序:開始—排序和篩選—降序
7.異常值處理:檢查各數據是否有異常通過篩選即可查看異常值,找到異常值通過實際情況進行相應處理。
四、構建模型
數據透視表原理:數據處理模式
split(數據分組)—>apply(應用函數)—>combine(組合結果)
插入--數據透視表
通過數據透視表我們得出:
1.北上杭深的平均工資更高一些,人才需求量大,想找工作不妨考慮這幾個地方。
2.隨著工作年限的增加薪資水平也在不斷增加,數據分析是一個時間越長越吃香的工作,尤其是3-5年隨著技術和業務能力的提示你的薪資水平也在不斷提高。
推薦閱讀: