一直都知道Excel的強大,但具體強大在哪裡,我也不知道,因為平時用的真的超級少。直到某個時間段,看到周圍的人都會用Excel做統計分析,數據報表,再加上現在工作的原因,我才開始意識到Excel的重要性,決心好好的學習一下這門辦公必備技能,誰曾想一上來就是學習如何利用Excel去分析數據。

帶著對Excel的恐懼和敬畏,我開始跟著猴子老師的節奏,踏上了數據分析之路。

數據分析步驟

一、 提出問題

一切數據分析的目的,都是為瞭解決我們生活、工作中遇到的問題,明確提出問題為我們後續的數據分析提供了目標和方向。

問題:

1. 市場上遊戲類型發布數量排名

2. 1996年-2016年這二十年的遊戲發布趨勢如何?

3. 哪個平臺發布的遊戲數量最多?

二、 理解數據

本文數據集來自Kaggle網站,為1996年至2016年遊戲發布樣本數據,樣本量為204849,共計10個欄位,具體欄位含義如下:

數據源地址:kaggle.com/egrinstein/2

三、 清洗數據

數據清洗步驟:

數據清洗步驟圖

1. 選擇子集

有的時候我們拿到的原始數據太大,有很多我們並不需要的列,這時我們需要選擇一部分的數據作為我們的分析對象。

在20-years-of-games這個數據集中,總共包含10個欄位,為了後續分析時數據清晰可見,採用列隱藏的功能,將不需要的欄位隱藏。

這裡我將url、editors_choice、release_month、release_day隱藏,只留下分析時會用到的欄位。(操作方法:選中列-右鍵-隱藏)

2. 列名重命名

原數據集中欄位名稱都是英文名,為了方便理解,將英文欄位名稱改為中文名稱。

3. 刪除重複值

數據集中,遊戲名稱作為唯一識別的標誌,所以選中【遊戲名稱】這列,點擊數據-刪除重複項,共刪除6056個重複值。

4. 缺失值處理

通過觀察其他列和遊戲名稱列的計數比較,發現遊戲類型存在空值(空值=遊戲名稱列計數-遊戲類型列計數=12570-12535=35)。

查找缺失值:

1、選中遊戲類型列,點擊編輯-查找-轉到

2、點擊定位條件-選擇空值後,點擊確定

缺失值共有4種處理方式:

  • 通過人工手工補齊,適合缺失值比較少的情況
  • 刪除缺失數據
  • 用平均值代替
  • 用統計模型計算出的值代替

這裡的缺失值共有35項,數量少,考慮到並不影響到數據的最終分析結果,故這裡選擇刪除的方式。通過上述的方法將缺失值選擇出來後,在任意缺失值處點擊右鍵-刪除-刪除整行,就可以一次性把遊戲類型下的缺失值全部刪除。

5. 一致化處理

一致化是指數據具有統一的標準和命名。

在數據集中,發現遊戲類型列中存在多個類型用逗號分隔開,這種數據的不一致會影響到後面的分析結果,這就需要對該列進行統一的命名和處理。這裡使用Excel中的【分列】功能,按照特定的規則進行拆分。

分列功能:

*分列功能會覆蓋掉右列的單元格

在此,將遊戲類型複製到最後一列,並隱藏之前的遊戲類型列。接下來進行具體的分列操作步驟演示:

1、點擊數據-分列,選擇分隔符號,點擊下一步;

2、選擇其他,輸入逗號(遊戲類型列中使用逗號進行分隔),並勾選「連續分隔符號視為單個處理」,點擊下一步;

3、再點擊下一步-完成,可以看到在右側新增了一列,給它命名為「遊戲類型2」,如下圖。

觀察後發現其他列的數據已經統一,且不存在異常值,至此數據清洗工作完成。

四、 構建模型

Excel載入項調出方式:

1、點擊工具-Excel載入項,選擇分析工具庫

2、點擊數據-數據分析,選擇描述統計

3、按下圖進行設置後點擊確定

4、生成新的工作表-評分描述統計

分析問題一:市場上遊戲類型發布數量排名

操作:

1、點擊插入-數據透視表

2、生成新的工作表,將遊戲類型分別拖入到行和值位置處,生成左側的統計表格

3、點擊行標籤的下拉箭頭,依照下圖設置,即可得到遊戲類型按數量排名的透視表

4、為了增加圖表的趣味性,或者給客戶演示,可以點擊插入-選擇下圖中合適的圖表,這裡選擇二維柱形圖

5、生成圖表

結論:

從圖中可以看出,數量排名前三的遊戲類型分別是:Action(動作)、Sports(運動)、Shooter(射擊)。

分析問題二:1996年-2016年這二十年的遊戲發布趨勢如何?

操作方式同上,只是需要拖入的欄位不同,故在此不做闡述。得出如下圖表:

結論:

從圖中可以看出,1970年開始,遊戲發布數量呈穩步上升的趨勢,到2000年呈第一個峯值,之後遊戲發布數量有所下滑,但是之後又呈上升趨勢,2008年遊戲發布數量達到頂峯,之後便一直處於下滑階段。

(另附上不同年份下,遊戲發行類型數量排名統計圖)

分析問題三:哪個平臺發布的遊戲數量最多?

結論:

通過上圖發現,pc平臺的遊戲數量最多,佔比20%。

五、 知識擴展

除了這個數據分析實戰所涉及到的知識,還想補充一下猴子老師課程中其他方面的知識。

1、 日期數據處理

通過分列+設置單元格格式的方式實現日期格式的規範化。

操作步驟:

1)選中日期列,點擊數據-分列,彈出的對話框中前兩步默認,選擇日期(YMD)後,點擊完成

2)可以看出大部分日期已經規範化了,接下來規範下圖中不規範的日期

3) 選中日期列,右鍵點擊設置單元格格式-自定義,選擇yyy/m/d

4)點擊完成,所有日期全部規範化

2、 Vlookup函數

  • 多表關聯

Vlookup(找什麼

在哪找

第幾列

是精確找還是近似找—0:精確—返回找到的第一個值;1:模糊—搜索全表,返回最後一個找到的值

案例:

步驟:

1)在三好學生表中,選中B2單元格,點擊公式-插入函數,在公式生成器中輸入vlookup後,點擊插入函數,設置如下圖

2)點擊完成,B2單元格內填充1班,這是將滑鼠放置在該單元格的右下角出現十字架,雙擊十字架,自動將該列所有單元格按照此公式填充內容。

如果我們要查出表中所有姓名為猴子的所在班級,應該怎麼做呢?

1) 在學生信息表中,學號的左側插入列,命名為輔助列,通過公式(=C2&B2),將猴子和學號綁定一起形成特殊的列,如下圖:

2) 以輔助列為查找對象,利用vlookup函數,按照如下設置,即可查出所有同為猴子的班級信息

  • 如何對數據分組

案例:

下表按照高、中、低消費進行分組:

1) 在該表右側建立如下列,定義高、中、低消費的範圍和閾值(最小值)

2) C2單元格輸入vlookup函數,按下圖設置,這裡需要注意,查找的範圍需要絕對引用,具體參數見下圖

3),參數設置完畢後點擊完成,分組完成

3、 引用方式

相對引用:A1

絕對引用:$A$1

混合飲用:$A1 A$1

總結

此次利用Excel做了一個簡單的遊戲數據分析,主要是熟悉數據分析的步驟和清洗數據的流程(包含常用的一些操作),其中數據清洗佔整個數據分析的60%,需要反覆去聽,去練,去Google。

學習方法:

1、 第一遍先整體過一遍課程live,對要講的內容有個大體上的認識;

2、 第二遍邊聽邊實操,弄清楚每步操作的目的是什麼,並且要對公式進行理解性的記憶;

3、 如果時間允許,可以自己先全流程實操一遍,對卡殼的地方進行重點記憶;這裡我是直接進行實戰,遇到不懂的地方直接聽課程了,基本上沒有遇到太大的問題。


推薦閱讀:
查看原文 >>
相關文章