一、提出問題

1.哪些城市對數據分析師的需求量比較大?

2.數據分析師在不同城市的平均薪資對比

3.學歷和工作年限對薪資的影響

二、理解數據

Excel中數據類型:字元串(不能用於計算)、數值、邏輯(TUREFALSE)

tips:數字在單元格中左對齊為字元串類型,數字在單元格中右對齊為數字類型

三、數據清洗

1.選擇子集 :隱藏不等於刪除,將不利於數據分析的數據隱藏。在拿到原始數據的時候記得備份,保持數據的完整性。

tips:選中整列右鍵—隱藏;開始—格式—取消隱藏

2.列名重命名:將不便於理解的列名改為便有理解的,雙擊單元格即可修改,在此不做過多贅述。

3.刪除重複值:數據—刪除重複項—選擇唯一標示(在這裡我利用職位ID來刪除重複項)

4.缺失值處理:檢查每一列的值是否一致(右下角有總體技術)

tips:選中所在列—開始—查找和選擇—定位條件—空值—輸入值(輸入結束同時按下Ctrl+Enter可以一次性人工補缺)

缺失值處理的4種辦法:

4.1通過人工手動補全

4.2刪除缺失值

4.3用平均值代替缺失值

4.4用統計模型計算出的值去代替缺失值

5.一致化處理:來確定數據是否有統一標準或命名

這裡我們要介紹一下分列,我們先將要分列的整列複製到最後一列,因為分列出來的新的一列會覆蓋後面的列。

數據—分列—分隔符號—下一步
其他(使用的符號)—下一步
最終分列結果

查找和替換 :開始—查找和選擇—替換(注意英文符號)

下圖我們可以看到薪水的大致範圍,不利於數據分析,這裡我們將其分列處理,計算出薪水的平均值便於我們數據分析。

首先我們在空白列新建最低薪水,最高薪水,平均薪水三列。然後利用函數進行數字截取。

這裡我們要介紹FIND()函數和LEFT()函數

最低薪水

tips:滑鼠放在單元格右下角自動變成十字架形狀,雙擊十字架,將函數應用到這一整列數據上。

最高薪水

這裡的最低薪水和最高薪水都是字元串類型不能用於計算,所以我們要將字元串類型轉化為數值類型

插入—複製—粘貼(數值型)
數據—分列

篩選:按條件查找數據 數據—篩選—列框—#value

這裡最高薪水我們讓他等於最低薪水

最終通過AVG()函數得到平均薪水

6.數據排序:開始—排序和篩選—降序

7.異常值處理:檢查各數據是否有異常通過篩選即可查看異常值,找到異常值通過實際情況進行相應處理。

四、構建模型

數據透視表原理:數據處理模式

split(數據分組)—>apply(應用函數)—>combine(組合結果)

插入--數據透視表

不同城市薪資水平
不同工作年限薪資水平

通過數據透視表我們得出:

1.北上杭深的平均工資更高一些,人才需求量大,想找工作不妨考慮這幾個地方。

2.隨著工作年限的增加薪資水平也在不斷增加,數據分析是一個時間越長越吃香的工作,尤其是3-5年隨著技術和業務能力的提示你的薪資水平也在不斷提高。

推薦閱讀:

相关文章