利用Excel分析遊戲數據
一直都知道Excel的強大,但具體強大在哪裡,我也不知道,因為平時用的真的超級少。直到某個時間段,看到周圍的人都會用Excel做統計分析,數據報表,再加上現在工作的原因,我才開始意識到Excel的重要性,決心好好的學習一下這門辦公必備技能,誰曾想一上來就是學習如何利用Excel去分析數據。
帶著對Excel的恐懼和敬畏,我開始跟著猴子老師的節奏,踏上了數據分析之路。
數據分析步驟
一、 提出問題
一切數據分析的目的,都是為瞭解決我們生活、工作中遇到的問題,明確提出問題為我們後續的數據分析提供了目標和方向。
問題:
1. 市場上遊戲類型發布數量排名
2. 1996年-2016年這二十年的遊戲發布趨勢如何?
3. 哪個平臺發布的遊戲數量最多?
二、 理解數據
本文數據集來自Kaggle網站,為1996年至2016年遊戲發布樣本數據,樣本量為204849,共計10個欄位,具體欄位含義如下:
數據源地址:https://www.kaggle.com/egrinstein/20-years-of-games
三、 清洗數據
數據清洗步驟:
數據清洗步驟圖
1. 選擇子集
有的時候我們拿到的原始數據太大,有很多我們並不需要的列,這時我們需要選擇一部分的數據作為我們的分析對象。
在20-years-of-games這個數據集中,總共包含10個欄位,為了後續分析時數據清晰可見,採用列隱藏的功能,將不需要的欄位隱藏。
這裡我將url、editors_choice、release_month、release_day隱藏,只留下分析時會用到的欄位。(操作方法:選中列-右鍵-隱藏)
2. 列名重命名
原數據集中欄位名稱都是英文名,為了方便理解,將英文欄位名稱改為中文名稱。
3. 刪除重複值
數據集中,遊戲名稱作為唯一識別的標誌,所以選中【遊戲名稱】這列,點擊數據-刪除重複項,共刪除6056個重複值。
4. 缺失值處理
通過觀察其他列和遊戲名稱列的計數比較,發現遊戲類型存在空值(空值=遊戲名稱列計數-遊戲類型列計數=12570-12535=35)。
查找缺失值:
1、選中遊戲類型列,點擊編輯-查找-轉到
2、點擊定位條件-選擇空值後,點擊確定
缺失值共有4種處理方式:
- 通過人工手工補齊,適合缺失值比較少的情況
- 刪除缺失數據
- 用平均值代替
- 用統計模型計算出的值代替
這裡的缺失值共有35項,數量少,考慮到並不影響到數據的最終分析結果,故這裡選擇刪除的方式。通過上述的方法將缺失值選擇出來後,在任意缺失值處點擊右鍵-刪除-刪除整行,就可以一次性把遊戲類型下的缺失值全部刪除。
5. 一致化處理
一致化是指數據具有統一的標準和命名。
在數據集中,發現遊戲類型列中存在多個類型用逗號分隔開,這種數據的不一致會影響到後面的分析結果,這就需要對該列進行統一的命名和處理。這裡使用Excel中的【分列】功能,按照特定的規則進行拆分。
分列功能:
*分列功能會覆蓋掉右列的單元格。
在此,將遊戲類型複製到最後一列,並隱藏之前的遊戲類型列。接下來進行具體的分列操作步驟演示:
1、點擊數據-分列,選擇分隔符號,點擊下一步;
2、選擇其他,輸入逗號(遊戲類型列中使用逗號進行分隔),並勾選「連續分隔符號視為單個處理」,點擊下一步;
3、再點擊下一步-完成,可以看到在右側新增了一列,給它命名為「遊戲類型2」,如下圖。
觀察後發現其他列的數據已經統一,且不存在異常值,至此數據清洗工作完成。
四、 構建模型
Excel載入項調出方式:
1、點擊工具-Excel載入項,選擇分析工具庫
2、點擊數據-數據分析,選擇描述統計
3、按下圖進行設置後點擊確定
4、生成新的工作表-評分描述統計
分析問題一:市場上遊戲類型發布數量排名
操作:
1、點擊插入-數據透視表
2、生成新的工作表,將遊戲類型分別拖入到行和值位置處,生成左側的統計表格
3、點擊行標籤的下拉箭頭,依照下圖設置,即可得到遊戲類型按數量排名的透視表
4、為了增加圖表的趣味性,或者給客戶演示,可以點擊插入-選擇下圖中合適的圖表,這裡選擇二維柱形圖
5、生成圖表
結論:
從圖中可以看出,數量排名前三的遊戲類型分別是:Action(動作)、Sports(運動)、Shooter(射擊)。
分析問題二:1996年-2016年這二十年的遊戲發布趨勢如何?
操作方式同上,只是需要拖入的欄位不同,故在此不做闡述。得出如下圖表:
結論:
從圖中可以看出,1970年開始,遊戲發布數量呈穩步上升的趨勢,到2000年呈第一個峯值,之後遊戲發布數量有所下滑,但是之後又呈上升趨勢,2008年遊戲發布數量達到頂峯,之後便一直處於下滑階段。
(另附上不同年份下,遊戲發行類型數量排名統計圖)
分析問題三:哪個平臺發布的遊戲數量最多?
結論:
通過上圖發現,pc平臺的遊戲數量最多,佔比20%。
五、 知識擴展
除了這個數據分析實戰所涉及到的知識,還想補充一下猴子老師課程中其他方面的知識。
1、 日期數據處理
通過分列+設置單元格格式的方式實現日期格式的規範化。
操作步驟:
1)選中日期列,點擊數據-分列,彈出的對話框中前兩步默認,選擇日期(YMD)後,點擊完成
2)可以看出大部分日期已經規範化了,接下來規範下圖中不規範的日期
3) 選中日期列,右鍵點擊設置單元格格式-自定義,選擇yyy/m/d
4)點擊完成,所有日期全部規範化
2、 Vlookup函數
- 多表關聯
Vlookup(找什麼
在哪找
第幾列
是精確找還是近似找—0:精確—返回找到的第一個值;1:模糊—搜索全表,返回最後一個找到的值
)
案例:
步驟:
1)在三好學生表中,選中B2單元格,點擊公式-插入函數,在公式生成器中輸入vlookup後,點擊插入函數,設置如下圖
2)點擊完成,B2單元格內填充1班,這是將滑鼠放置在該單元格的右下角出現十字架,雙擊十字架,自動將該列所有單元格按照此公式填充內容。
如果我們要查出表中所有姓名為猴子的所在班級,應該怎麼做呢?
1) 在學生信息表中,學號的左側插入列,命名為輔助列,通過公式(=C2&B2),將猴子和學號綁定一起形成特殊的列,如下圖:
2) 以輔助列為查找對象,利用vlookup函數,按照如下設置,即可查出所有同為猴子的班級信息
- 如何對數據分組
案例:
下表按照高、中、低消費進行分組:
1) 在該表右側建立如下列,定義高、中、低消費的範圍和閾值(最小值)
2) C2單元格輸入vlookup函數,按下圖設置,這裡需要注意,查找的範圍需要絕對引用,具體參數見下圖
3),參數設置完畢後點擊完成,分組完成
3、 引用方式
相對引用:A1
絕對引用:$A$1
混合飲用:$A1 A$1
總結
此次利用Excel做了一個簡單的遊戲數據分析,主要是熟悉數據分析的步驟和清洗數據的流程(包含常用的一些操作),其中數據清洗佔整個數據分析的60%,需要反覆去聽,去練,去Google。
學習方法:
1、 第一遍先整體過一遍課程live,對要講的內容有個大體上的認識;
2、 第二遍邊聽邊實操,弄清楚每步操作的目的是什麼,並且要對公式進行理解性的記憶;
3、 如果時間允許,可以自己先全流程實操一遍,對卡殼的地方進行重點記憶;這裡我是直接進行實戰,遇到不懂的地方直接聽課程了,基本上沒有遇到太大的問題。
推薦閱讀: