前言

關於黑色星期五這一叫法的起源,由於這一天是感恩節(11月第四個星期四)後開業的第一天。再加上人們通常由此開始聖誕節大採購,很多商店都會顧客盈門從而有大額進帳。傳統上商家會用不同顏色的墨水來記賬,紅色表示虧損即赤字,黑色則為有盈利。商家把這個星期五叫做黑色星期五,用以期待這一天過後,年度營收由負轉正,由紅字轉為黑字。(來自維基百科)

之前的文章在kaggle上獲取了某商場某次黑五的銷售數據,本文中利用EXCEL進行分析。數據地址來源:kaggle.com/mehdidag/bla

一、提出問題

1、總體人群的消費情況如何?

2、男性和女性的消費情況對比?

3、哪個年齡段的人群消費金額最高/低?

4、哪個職業的的人群消費金額最高/低?

5、哪類城市的人群消費金額最高/低?

6、已婚和單身的人群消費情況對比?

7、哪類產品銷量最好(明星產品TOP3)?

二、數據理解和預處理

1、 將第一行數據設置自動轉行,以顯示全部信息。

2、 將第一行所有列命名轉換為中文,便於理解,同時隱藏原英文列命名。

User_ID:用戶編碼

Product_ID:產品編碼

Gender:性別,M-男性,F-女性

Age:年齡,共7個年齡段,分別為0-17,18-25,26-35,36-45,46-50,51-55,55以上

Occupation:職業,共21類,分別用0-20代表

City_Category:所在城市類別,共3類,分別為A,B,C

Stay_In_Current_City_Years:所在城市時長,共5類,分別是0,1,2,3,4+

Marital_Status:婚姻狀況,共2類,以0,1代表,0未婚,1已婚

Product_Category_1:產品分類1

Product_Category_2:產品分類2

Product_Category_3:產品分類3

Purchase:購買金額

3、認為「所在城市時長」及「產品分類1」、「產品分類2」、「產品分類3」對上述提出要分析的問題意義不大,在此進行隱藏。

4、 重複值處理

①每一條數據對應的是某用戶購買的商品信息和該用戶的個人信息,存在同一用戶購買多件商品以及某一件商品被多人購買的情況,因此無法以單獨某一列來確定是否存在重複值。

②在此插入一輔助列,以用戶編碼+產品編碼的形式來確定是否存在重複數據。

③通過刪除重複值操作確定輔助列不存在重複值。

5、 缺失值處理

① 通過對比各列數據計數項發現不存在缺失值,各列均為537578條數據。

② 同時選中所有數據使用查找定位功能發現不存在空值。

③ 如存在缺失值採取以下方式處理:

人工手動補全(量少情況)

直接刪除

平均值代替

以統計模型計算出來的值代替

三、建立分析模型

1、 對預處理完的數據插入數據透視表,得到數據透視表1(標籤名),選取用戶編號和購買金額(求和項)。

2、複製表格中數據,在新建標籤「用戶信息」中粘貼為數值。

3、在新建用戶信息標籤中,插入VLOOKUP函數,結合預處理後的數據得到每個用戶信息及總消費金額。

4、對用戶信息數據再插入數據透視表,得到數據透視表2,用於分析不同類型用戶消費金額情況。

四、具體問題分析

1、總體人群消費情況如何?

對用戶信息購買金額做描述性分析可得到:

①本次活動消費總金額為5017668378元。

②平均每人消費851751元,最高一筆消費金額10536783元,最低一筆消費金額44108元。

2、男性和女性的消費情況對比?(數據透視表2)

①本次活動共有5891人進行購物。

②女性有1666人進行購物,佔總消費人數28.28%,消費金額1164624021元(平均消費金額699054元),佔總消費金額23.21%。

③男性有4225人進行購物,佔總消費人數71.72%,消費金額3853044357元(平均消費金額911963元),佔總消費金額76.79%;

3、哪個年齡段的人群消費金額最高/低? (數據透視表2)

①消費金額最高的是26-35歲這個年齡段,消費人數佔總消費人數35.85%,消費金額佔總消費金額的39.85%。

②消費金額最低的是0-17歲這個年齡段,消費人數佔總消費人數的3.70%,消費金額佔總消費金額的2.64%

4、哪個職業的的人群消費金額最高/低? (數據透視表2)

①消費金額最高的是職業4這類人群,消費人數佔總消費人數的12.56%,消費金額佔總消費金額的13.10%。

②消費金額最低的是職業8這類人群,消費人數佔總消費人數的0.29%,消費金額佔總消費金額的0.29%。

5、哪類城市的人群消費金額最高/低?(數據透視表2)

①消費金額最高的是城市B的人群,其消費金額佔總消費金額的41.52%,同時B城市消費人數僅佔總消費人數的28.98%,說明人均消費較高。

②消費金額最低的是城市A的人群,其消費金額佔總消費金額的25.85%,消費人數佔總消費人數的17.74%。

③雖然城市C的消費人數最多,佔比達到53.28%,但其消費總金額僅為32.66%,說明人均消費較低。

6、已婚和單身的人群消費情況對比?(數據透視表2)

0為未婚,1為已婚

①未婚人群消費人數3417人,佔總人數58%,消費金額2966289500元(平均消費金額868097元),佔總消費金額59.12%。

②已婚人群消費人數2474人,佔總人數42%,消費金額2051378878元(平均消費金額829174元),佔總消費金額40.88%。

7、哪類產品銷量最好(明星產品TOP3)?(數據透視表1)

在數據透視表1中選擇產品編碼,排序後得到銷量最好的產品前三名分別是P00265242(1858件)、P00110742(1591件)、P00025442(1586件)。

五、結論及建議

1、男性為該商場本次黑五活動消費的主力軍,考慮可能是男性多半屬於理性消費,更偏向於實體消費。而廣大女同胞們可能更偏向於網路購物,更多的在日常生活中已購買所需商品,所以在實體商場特定活動時貢獻較低。

2、26-35歲的年輕人為該商場本次黑五活動消費的主要人群,可能是有穩定工作和收入,具備一定經濟能力的群體。購買力最低的是0-17歲這個群體,屬於學生群體,經濟能力相對較差。

3、職業為4、7、0的人群在本次黑五活動中貢獻較大,可能屬於高薪職業。而職業為8的人群貢獻最低,可能屬於低薪職業。

4、城市購買人數C>B>A,但購買金額B>C>A,推斷中B城市人群的人均購買力較強。

5、未婚人士的購買人數及購買金額均大於已婚人士,考慮可能是已婚人士要顧及整個家庭的生活開支,可能較偏向於剛需的購買。

6、產品銷量TOP3分別是:

P00265242(1858件)

P00110742(1591件)

P00025442(1586件)。

建議:

1、針對主要費人群,要維護好客戶關係,提高客戶粘性,延長客戶生命周期價值。

2、針對低消費人群,考慮增加客戶問券調查,發放優惠券、打折券等,提高客戶滿意度。

3、針對銷售較好的商品,應加大庫存,提前做好銷售準備。

六、思維拓展(拋磚引玉,本文中不作深入研究)

1、針對本次黑五銷售活動,還可以從數據中購買次數研究各類人群相應產品的購買偏好。

如上表,在城市A中職業為0,年齡在18-25歲的未婚男士更偏向於產品P00278642的購買,因數據中只提供了產品編號,無法判斷產品具體是什麼,在此假設為電子產品,那麼作為商場就可以對該類具體人群推送電子產品相應的促銷優惠券和打折信息,以增加銷售額。

2、在每位客戶的消費清單中,通過關聯分析,可得出某幾類產品共同被一位客戶購買的幾率(或者理解為某幾類商品出現在同一購物清單的幾率),即該幾類產品可能存在較強相關性。可以通過優化整合、陳列的方式使得這些商品更加容易的被客戶挑選購買,最終也是增加銷售額,提高總利潤。

以上淺析,歡迎指點,謝謝!


推薦閱讀:
相关文章